Система распознавания рукописных и старопечатных кириллических текстов: модель и программно-технологические решения

Выбрать

EnglishRussianBulgarianLithuanian

El'Manuscript-10

Конференция

Организационный комитет

Программный комитет

Направления работы конференции

Направления работы школы

Основные даты

Регистрация и заявка

Организационный взнос

Программа конференции

Список участников

Материалы конференции

Проекты и ресурсы

Организационная информация

Культурная программа

RSS-ленты новостей

Портал был создан при финансовой поддержке Российского гуманитарного научного фонда (РГНФ), проект № 07-04-12140в.

Система распознавания рукописных и старопечатных кириллических текстов: модель и программно-технологические решения

Автор(ы): Сергей Иванович Корниенко, Л.Н. Ясницкий, Ю.Р. Айдаров, Г.П. Волгирева, Д.А. Гагарина, Ф.М. Черепанов

08.08.2010 г.

This paper deals with an approach to creation of recognition complex of hand-written andold-printed books. Reasonability of consolidation of storage and recognition systems is proved. The complex model and its modules are described.

В процессереализации проекта по разработке программного комплекса для распознавания рукописныхи старопечатных текстовых исторических источников существенное место занимают проблемысоздания модели системы. При решении это этой задачи учитывалиськак существующие подходы, так и специфика данного проекта.

Создаваемый программно-технологический комплекс изначально ориентирован не только на собственнораспознавание источников, но и возможность их хранения ивизуализации в графических и текстовых форматах. Таким образом,встает задача соединить в одном продукте систему и хранения,и распознавания, что несвойственно длясуществующих моделей и обусловлено следующим. Распознаваниеуказанного круга источников достаточно сложный и ресурсоемкий процесс и единождыраспознанные тексты целесообразно сохранить и предоставить возможность исследователямобращаться к ним по мере потребности. Функционирование модуляраспознавания предполагает использование атрибуции источника, которая осуществляется при его вводе в базу данных системы. Наконец, объединение систем позволяет при введениикаждого нового источника сразу использовать его (например,для анализа по атрибутам), так и распознатьего.

Количественныйи качественный анализ ресурсов Интернет, связанных с рукописными и старопечатными кириллическимитекстами, выявление способов организации ресурсов и способовпредставления источников, показал, что наибольшим научным потенциалам обладают комплексы, содержащие не только сами источники, но и развитуюсистему их метаданных, обеспечивающие графическое и текстовое(в оригинальной орфографии и транскрипции) представление, позволяющие информационно-поисковые и аналитические операции с данными [Гагарина Д.А., КорниенкоС.И., 2009]. Относительно небольшоеколичество таких систем стало одним из основных аргументов для создания модуля храненияи визуализации источников в рамках общего комплекса, а результатыанализа имеющихся проектов стали отправными пунктами при определении параметровразрабатываемой системы.

Что касается компонента распознавания,то основным подходом к его разработке стало использование нейросетевыхтехнологий, поскольку традиционные для распознавания текстовOCR-технологии не дают удовлетворительных результатов для старопечатныхи рукописных изданий [Айдаров, 2009; Корниенко, 2008].

Разработанная на основании вышеуказанного модельпрограммно-технологического комплекса включает набор приложений,которые должны обеспечивать сохранение, распознавание и работу с рукописными и старопечатными кириллическимиизданиями.

База данных предполагает хранение информацииоб изданиях (библиографические, археографические и другие атрибуты), цифровыхверсий изданий полностью и постранично в различных форматах (текст в современной и оригинальной орфографии, изображение), различных вспомогательных таблиц(типографии, печатники, места хранения, библиография и др.). База данных реализована в СУБД Access.

Приложение для осуществления поисково-аналитических операций включает модули для выборки изданий по атрибутам(время, типографии, типы графики, содержание и др.), полнотекстового поиска по текстам в современной и оригинальной орфографии(по всему массиву изданий и выборке), постраничногои полного просмотра. Данные модули реализовываются на основезапросов к базе данных и соответствующих веб-интерфейсов.

Приложение для наполнения информационной системыдоступно администратору и включает модули для добавления, удаления, редактирования изданий, а также вспомогательных для распознавания операций по разбивке изданийна страницы и формированию единого текстового файла в оригинальной орфографии наоснове постраничных фрагментов.

Приложение для распознавания текста реализуетследующие функциональные возможности: «очистка мусора»,восстановление угасшего текста, бинаризация,сегментация изображений на блоки и символы, кластеризация, сопоставление кластеров и символов,формирование файла с текстом в оригинальной орфографии,формирование файла с текстом в современной орфографии. На сегодняшний день разработаны следующие модули: компонент бинаризации, выполняющий предварительнуюобработку изображения и переводящий все изображения в установленный формат цветностии разрешения; компонент выделения элементов текста,результаты работы которого передаются компоненту кластеризации;собственно компонент кластеризации, выделяющийодинаковые элементы текста, устанавливающий закономерностивзаимного расположения символов. В ближайшее время планируетсяработа по реализации компонента распознавания с пользовательским интерфейсом эксперта,позволяющим сопоставить символы и другие элементы текста и их эквивалентыв оригинальной орфографии и современной орфографии. Этопозволит перейти к качественно новому уровню автоматизации исследований старопечатныхи рукописных кириллических текстов. Необходимо отметить,что существенным программно-технологическимрешением при разработке комплекса стало создание в качестве его основы инструментапараметризуемой кластеризации «Старопечатный кириллическийсимвол».

Бллагодарности

Исследование выполнено в рамках проекта «Рукописные и старопечатные тексты: разработка программного комплекса для распознавания на основе технологий искусственного интеллекта и параллельных вычислений», поддержан грантом РФФИ № 09–06–00254а.

Литература

Айдаров Ю.Р., Волгирева Г.П., Гагарина Д.А., КорниенкоС.И., Черепанов Ф.М., Ясницкий Л.Н. Сохранение рукописных и старопечатных текстов: возможности применения технологий искусственного интеллекта // Историко-культурное наследие и информационно-коммуникационные технологии: сохранение и исследование:материалы науч. конф. (Пермь, 13–14 ноября 2009 г.) / под ред. С.И. Корниенко. – Пермь,2009. – С. 60-68.

Гагарина Д.А., Корниенко С.И. Рукописные и старопечатные кириллические книги в Интернете // Вестник Пермского университета. Серия История.Вып. 3 (10). Серия Политология.Вып. 3 (7). – 2009. – С.112-119.

Корниенко С.И.,Черепанов Ф.М., Ясницкий Л.Н. Распознаваниетекстов рукописных и старопечатных книг на основе нейросетевых технологий// Современные информационные технологии и письменное наследие:от древних текстов к электронным библиотекам: материалы междунар. науч. конф. (Казань, 26-30 августа 2008г.) / отв.ред. В.Д.Соловьев, В.А.Баранов. – Казань, 2008. – С. 155-156.

« Пред.		След. »