El'Manuscript-10
Конференция
Организационный комитет
Программный комитет
Направления работы конференции
Направления работы школы
Основные даты
Регистрация и заявка
Организационный взнос
Программа конференции
Список участников
Материалы конференции
Проекты и ресурсы
Организационная информация
Культурная программа





Забравена парола
Нямате достъп?
Регистрирайте се!!!
В момента 2 госта онлайн
RSS-емисии
rss20.gif

Порталът е създаден с финансовата подкрепа на Руската хуманитарна фондация (RHF), номер на проекта 07-04-12140v.

(с) "Информационните технологии и писменото наследство", 2008-2020 г.

RECO - ПРОГРАММНАЯ СИСТЕМА ДЛЯ РАСПОЗНАВАНИЯ СТАРОСЛАВЯНСКИХ ТЕКСТОВ PDF Печат Е-мейл
Автор: Александр Валерьевич Кучуганов, Денис Рашидович Касимов   
09 Июль 2010

       In the paper software system RECO for the recognition of Old Slavonic texts is described. Methods and technology are described for the analysis of the vector patterns of the letters. Examples of Old Slavonic text recognition are given.

      При создании электронных коллекций старопечатных текстов (рукописи 15 – 18 веков) серьезной проблемой остаются задачи обработки и распознавания изображений. В условиях, когда оригиналы документов сильно изношены, цвет бумаги неоднороден, имеется множество потертостей, затемнений, пятен, более поздних пометок, предъявляются высокие требования к программам обработки изображений и распознавания [Компьютерное 2006].
       Описываемая ниже программная система Reco – экспериментальная версия, особенностями ее являяются:

 

1)         использование структурного (лингвистического) подхода к распознаванию букв;

2)         развитый режим предобработки, редактирования и пополнения эталонов.

Программа содержит стандартный набор инструментов для повышения качества изображения: сглаживания, фильтрации, контрастирования, многоступенчатой статистической бинаризации.

Этап обработки – выделение скелетона.

 

kuchuganov_fig.1.jpg

Рис. 1. Рекурсивное увеличение

степени детализации

 

 

 

 

 

 
 
 
 
 
      
        Принцип получения скелетона заключается в разбиении фигуры на выпуклые области в тех местах, где граница имеет отрицательный перегиб [Распознавание 2008, с. 168-172]. При этом рекурсивно уменьшается величина отсекаемых областей, т.е. увеличивается степень детализации анализируемого объекта (рис. 1, 2).

 

kuchuganov_fig.2.jpg

Рис. 2. Двухступенчатая бинаризация и скелетон

 

Предобработка скелетного изображения. В предобработку помимо аппроксимирования входного скелетного изображения включены операции построения его графа и определения качественных параметров объектов изображения (рис. 3).

 

kuchuganov_fig.3.jpg

Рис. 3. Режим предобработки

Работа с эталонами. В программе имеется возможность просматривать, редактировать, добавлять и удалять эталоны.

Для добавления эталона необходимо выполнить предобработку скелетного изображения, выбрать букву и нажать на кнопку «Сохранить как эталон ->». Появится окно ввода имени эталона (рис. 4). В данном окне необходимо выбрать шрифт, в котором будет выводиться имя. Имя вводится в соответствующем поле или выбирается из таблицы символов выбранного шрифта. После ввода имени необходимо нажать на кнопку «Ok». Программа добавит новый эталон в конец списка. Если под буквой находилась подложка, то к эталону приложится и его исходное изображение.

 

kuchuganov_fig.4.jpg

Рис. 4. Добавление эталона

Имеется возможность назначать вес для узлов и ветвей – степень их важности, учитываемая при составлении статистики совпадения при распознавании. Чтобы назначить вес, необходимо выбрать узел или ветвь, ввести значение в поле «Вес» и снять выделение с элемента. Значения весов могут быть произвольными, важно лишь их взаимное различие. Эталоны отображаются с учетом веса узлов и ветвей: менее весомые элементы отображаются тоньше и светлее (рис. 5).

 

kuchuganov_fig.5.jpg

Рис. 5. Визуализация эталонов с учетом веса узлов и ветвей

Распознавание. Результат распознавания передается в текстовый редактор Microsoft Word (использованы шрифты с сайта: http://www.irmologion.ru/).

 

 

kuchuganov_fig.6.jpg

Рис. 6

На данный момент программа Reco дает 86% распознанных символов на рукописях хорошего качества и 64% на рукописях низкого качества.

 

ЛИТЕРАТУРА

1. Кучуганов А.В., Осколков П.П. Распознавание старославянских текстов методами, основанными на биоалгоритмах анализа изображений. // Труды Междунар. науч. конф. (Казань, 26-30 августа 2008 г.). – Казань: Изд-во Казан. гос. ун-та, 2008. – С. 168-172.

2.  Шапиро Л., Стокман Дж. Компьютерное зрение. Пер. с англ. – М.: БИНОМ, 2006.

 
 
< Предишна