El'Manuscript-10
Conference
Organizational committee
Program Committee
Topic areas for conference
Topic areas for school
Important Dates
Registration and request
The registration fee
Conference program
List of participants
Conference content
Projects and resources
Organizational information
Leisure & Tourism





Lost Password?
No account yet? Register
We have 4 guests and 2 members online
RSS-feed
rss20.gif

The project is supported by the Russian Foundation for Basic Research, project #07-04-12140в

Портал зарегистрирован 05 августа 2010 г. в Федеральной службе по надзору в сфере связи, информационных технологий и массовых коммуникаций (Роскомнадзор) в качестве средства массовой информации, номер свидетельства ЭЛ № ФС 77 - 41581. Учредитель В. А. Баранов. 

(c) "Information Technologies and Textual Heritage", 2008-2016

Система распознавания рукописных и старопечатных кириллических текстов: модель и программно-технологические решения PDF Print E-mail
Written by: Сергей Иванович Корниенко, Л.Н. Ясницкий, Ю.Р. Айдаров, Г.П. Волгирева, Д.А. Гагарина, Ф.М. Черепанов   
Воскресенье, 08 Август 2010

 

This paper deals with an approach to creation of recognition complex of hand-written andold-printed books. Reasonability of consolidation of storage and recognition systems is proved. The complex model and its modules are described.

В процессереализации проекта по разработке программного комплекса для распознавания рукописныхи старопечатных текстовых исторических источников существенное место занимают проблемысоздания модели системы. При решении это этой задачи учитывалиськак существующие подходы, так и специфика данного проекта.

Создаваемый программно-технологический комплекс изначально ориентирован не только на собственнораспознавание источников, но и возможность их хранения ивизуализации в графических и текстовых форматах. Таким образом,встает задача соединить в одном продукте систему и хранения,и распознавания, что несвойственно длясуществующих моделей и обусловлено следующим. Распознаваниеуказанного круга источников достаточно сложный и ресурсоемкий процесс и единождыраспознанные тексты целесообразно сохранить и предоставить возможность исследователямобращаться к ним по мере потребности. Функционирование модуляраспознавания предполагает использование атрибуции источника, которая осуществляется при его вводе в базу данных системы. Наконец, объединение систем позволяет при введениикаждого нового источника сразу использовать его (например,для анализа по атрибутам), так и распознатьего.

Количественныйи качественный анализ ресурсов Интернет, связанных с рукописными и старопечатными кириллическимитекстами, выявление способов организации ресурсов и способовпредставления источников, показал, что наибольшим научным потенциалам обладают комплексы, содержащие не только сами источники, но и развитуюсистему их метаданных, обеспечивающие графическое и текстовое(в оригинальной орфографии и транскрипции) представление, позволяющие информационно-поисковые и аналитические операции с данными [Гагарина Д.А., КорниенкоС.И., 2009]. Относительно небольшоеколичество таких систем стало одним из основных аргументов для создания модуля храненияи визуализации источников в рамках общего комплекса, а результатыанализа имеющихся проектов стали отправными пунктами при определении параметровразрабатываемой системы.

Что касается компонента распознавания,то основным подходом к его разработке стало использование нейросетевыхтехнологий, поскольку традиционные для распознавания текстовOCR-технологии не дают удовлетворительных результатов для старопечатныхи рукописных изданий  [Айдаров, 2009; Корниенко, 2008].

Разработанная на основании вышеуказанного модельпрограммно-технологического комплекса включает набор приложений,которые должны обеспечивать сохранение, распознавание и работу с рукописными и старопечатными кириллическимиизданиями.

База данных предполагает хранение информацииоб изданиях (библиографические, археографические и другие атрибуты), цифровыхверсий изданий полностью и постранично в различных форматах (текст в современной и оригинальной орфографии, изображение), различных вспомогательных таблиц(типографии, печатники, места хранения, библиография и др.). База данных реализована в СУБД Access.

Приложение для осуществления поисково-аналитических операций включает модули для выборки изданий по атрибутам(время, типографии, типы графики, содержание и др.), полнотекстового поиска по текстам в современной и оригинальной орфографии(по всему массиву изданий и выборке), постраничногои полного просмотра. Данные модули реализовываются на основезапросов к базе данных и соответствующих веб-интерфейсов.

Приложение для наполнения информационной системыдоступно администратору и включает модули для добавления, удаления, редактирования изданий, а также вспомогательных для распознавания операций по разбивке изданийна страницы и формированию единого текстового файла в оригинальной орфографии наоснове постраничных фрагментов.

Приложение для распознавания текста реализуетследующие функциональные возможности: «очистка мусора»,восстановление угасшего текста, бинаризация,сегментация изображений на блоки и символы, кластеризация, сопоставление кластеров и символов,формирование файла с текстом в оригинальной орфографии,формирование файла с текстом в современной орфографии. На сегодняшний день разработаны следующие модули: компонент бинаризации, выполняющий предварительнуюобработку изображения и переводящий все изображения в установленный формат цветностии разрешения; компонент выделения элементов текста,результаты работы которого передаются компоненту кластеризации;собственно компонент кластеризации, выделяющийодинаковые элементы текста, устанавливающий закономерностивзаимного расположения символов. В ближайшее время планируетсяработа по реализации компонента распознавания с пользовательским интерфейсом эксперта,позволяющим сопоставить символы и другие элементы текста и их эквивалентыв оригинальной орфографии и современной орфографии. Этопозволит перейти к качественно новому уровню автоматизации исследований старопечатныхи рукописных кириллических текстов. Необходимо отметить,что существенным программно-технологическимрешением при разработке комплекса стало создание в качестве его основы инструментапараметризуемой кластеризации «Старопечатный кириллическийсимвол».

Бллагодарности

Исследование выполнено в рамках проекта «Рукописные и старопечатные тексты: разработка программного комплекса для распознавания на основе технологий искусственного интеллекта и параллельных вычислений», поддержан грантом РФФИ № 09–06–00254а. 

Литература

Айдаров Ю.Р., Волгирева Г.П., Гагарина Д.А., КорниенкоС.И., Черепанов Ф.М., Ясницкий Л.НСохранение рукописных и старопечатных текстов: возможности применения технологий искусственного интеллекта  // Историко-культурное наследие и информационно-коммуникационные технологии: сохранение и исследование:материалы науч. конф. (Пермь, 13–14 ноября 2009 г.) / под ред. С.И. Корниенко. – Пермь,2009. – С. 60-68.

Гагарина Д.А., Корниенко С.И. Рукописные и старопечатные кириллические книги в Интернете // Вестник Пермского университета. Серия История.Вып. 3 (10). Серия Политология.Вып. 3 (7). – 2009. – С.112-119.

Корниенко С.И.,Черепанов Ф.М., Ясницкий Л.Н. Распознаваниетекстов рукописных и старопечатных книг на основе нейросетевых технологий// Современные информационные технологии и письменное наследие:от древних текстов к электронным библиотекам: материалы междунар. науч. конф. (Казань, 26-30 августа 2008г.) / отв.ред. В.Д.Соловьев, В.А.Баранов. – Казань, 2008. – С. 155-156.

 

 
< Prev   Next >