El'Manuscript-10
Conference
Organizational committee
Program Committee
Topic areas for conference
Topic areas for school
Important Dates
Registration and request
The registration fee
Conference program
List of participants
Conference content
Projects and resources
Organizational information
Leisure & Tourism





Lost Password?
No account yet? Register
RSS-feed
rss20.gif

The project is supported by the Russian Foundation for Basic Research, project #07-04-12140в

Портал зарегистрирован 05 августа 2010 г. в Федеральной службе по надзору в сфере связи, информационных технологий и массовых коммуникаций (Роскомнадзор) в качестве средства массовой информации, номер свидетельства ЭЛ № ФС 77 - 41581. Учредитель В. А. Баранов. 

(c) "Information Technologies and Textual Heritage", 2008-2016

RECO - ПРОГРАММНАЯ СИСТЕМА ДЛЯ РАСПОЗНАВАНИЯ СТАРОСЛАВЯНСКИХ ТЕКСТОВ PDF Print E-mail
Written by: Александр Валерьевич Кучуганов, Денис Рашидович Касимов   
Пятница, 09 Июль 2010

       In the paper software system RECO for the recognition of Old Slavonic texts is described. Methods and technology are described for the analysis of the vector patterns of the letters. Examples of Old Slavonic text recognition are given.

      При создании электронных коллекций старопечатных текстов (рукописи 15 – 18 веков) серьезной проблемой остаются задачи обработки и распознавания изображений. В условиях, когда оригиналы документов сильно изношены, цвет бумаги неоднороден, имеется множество потертостей, затемнений, пятен, более поздних пометок, предъявляются высокие требования к программам обработки изображений и распознавания [Компьютерное 2006].
       Описываемая ниже программная система Reco – экспериментальная версия, особенностями ее являяются:

 

1)         использование структурного (лингвистического) подхода к распознаванию букв;

2)         развитый режим предобработки, редактирования и пополнения эталонов.

Программа содержит стандартный набор инструментов для повышения качества изображения: сглаживания, фильтрации, контрастирования, многоступенчатой статистической бинаризации.

Этап обработки – выделение скелетона.

 

kuchuganov_fig.1.jpg

Рис. 1. Рекурсивное увеличение

степени детализации

 

 

 

 

 

 
 
 
 
 
      
        Принцип получения скелетона заключается в разбиении фигуры на выпуклые области в тех местах, где граница имеет отрицательный перегиб [Распознавание 2008, с. 168-172]. При этом рекурсивно уменьшается величина отсекаемых областей, т.е. увеличивается степень детализации анализируемого объекта (рис. 1, 2).

 

kuchuganov_fig.2.jpg

Рис. 2. Двухступенчатая бинаризация и скелетон

 

Предобработка скелетного изображения. В предобработку помимо аппроксимирования входного скелетного изображения включены операции построения его графа и определения качественных параметров объектов изображения (рис. 3).

 

kuchuganov_fig.3.jpg

Рис. 3. Режим предобработки

Работа с эталонами. В программе имеется возможность просматривать, редактировать, добавлять и удалять эталоны.

Для добавления эталона необходимо выполнить предобработку скелетного изображения, выбрать букву и нажать на кнопку «Сохранить как эталон ->». Появится окно ввода имени эталона (рис. 4). В данном окне необходимо выбрать шрифт, в котором будет выводиться имя. Имя вводится в соответствующем поле или выбирается из таблицы символов выбранного шрифта. После ввода имени необходимо нажать на кнопку «Ok». Программа добавит новый эталон в конец списка. Если под буквой находилась подложка, то к эталону приложится и его исходное изображение.

 

kuchuganov_fig.4.jpg

Рис. 4. Добавление эталона

Имеется возможность назначать вес для узлов и ветвей – степень их важности, учитываемая при составлении статистики совпадения при распознавании. Чтобы назначить вес, необходимо выбрать узел или ветвь, ввести значение в поле «Вес» и снять выделение с элемента. Значения весов могут быть произвольными, важно лишь их взаимное различие. Эталоны отображаются с учетом веса узлов и ветвей: менее весомые элементы отображаются тоньше и светлее (рис. 5).

 

kuchuganov_fig.5.jpg

Рис. 5. Визуализация эталонов с учетом веса узлов и ветвей

Распознавание. Результат распознавания передается в текстовый редактор Microsoft Word (использованы шрифты с сайта: http://www.irmologion.ru/).

 

 

kuchuganov_fig.6.jpg

Рис. 6

На данный момент программа Reco дает 86% распознанных символов на рукописях хорошего качества и 64% на рукописях низкого качества.

 

ЛИТЕРАТУРА

1. Кучуганов А.В., Осколков П.П. Распознавание старославянских текстов методами, основанными на биоалгоритмах анализа изображений. // Труды Междунар. науч. конф. (Казань, 26-30 августа 2008 г.). – Казань: Изд-во Казан. гос. ун-та, 2008. – С. 168-172.

2.  Шапиро Л., Стокман Дж. Компьютерное зрение. Пер. с англ. – М.: БИНОМ, 2006.

 
 
< Prev