El'Manuscript-10
Конференция
Организационный комитет
Программный комитет
Направления работы конференции
Направления работы школы
Основные даты
Регистрация и заявка
Организационный взнос
Программа конференции
Список участников
Материалы конференции
Проекты и ресурсы
Организационная информация
Культурная программа





Забравена парола
Нямате достъп?
Регистрирайте се!!!
RSS-емисии
rss20.gif

Порталът е създаден с финансовата подкрепа на Руската хуманитарна фондация (RHF), номер на проекта 07-04-12140v.

Портал зарегистрирован 05 августа 2010 г. в Федеральной службе по надзору в сфере связи, информационных технологий и массовых коммуникаций (Роскомнадзор) в качестве средства массовой информации, номер свидетельства ЭЛ № ФС 77 - 41581. Учредитель В. А. Баранов. 

(с) "Информационните технологии и писменото наследство", 2008-2016 г.

Инструмент параметризуемой кластеризации «Старопечатный кириллический символ» PDF Печат Е-мейл
Автор: Сергей Иванович Корниенко, Юрий Рафаэлевич Айдаров, Федор Михайлович Черепанов, Леонид Нахимович Ясницкий   
08 Август 2010


New blackletter cyrillic books OCR software is described. Its structure and functions are presented. Some practical results are also included in the paper.

Инструмент «Старопечатныйкириллический символ» представляет собой часть программногокомплекса, содержащего коллекции историко-культурных памятников в формате электронного текста, и позволяющего на основе этих коллекций решать задачу распознавания рукописныхи старопечатных кириллических текстов. Инструмент выделяетсхожие по начертанию символы и надстрочные знаки в отдельные образы-кластеры для дальнейшей процедуры распознавания. Инструмент реализует алгоритм параметризуемой кластеризации.

Алгоритм параметризуемой кластеризации используетсядля выделения символов из цветных и черно-белых растровыхизображений кириллических рукописных и старопечатных исторических памятников.Параметры изображения, особенно разрешениесканирования или фотографирования, должны быть подобранытак, чтобы символы включали порядка тысячи пикселей цвета,отличного от фона. Это необходимо для распознаваниятаких похожих букв, как, к примеруи» (иже) и «н» (народ), мало различимыхв старинных текстах в связи с ветхостью материалов исторических памятников и выцветанияэлементов символов.

В связи с тем, что инструментраспознавания работает на основе нейронных сетей, а именномногослойного персептрона, производительность инструментазначительно повышается в его реализации в форме выполняющихся параллельноweb-сервисов, взаимодействующих друг сдругом. Необходимо отметить естественное ограничение параллельноработающих процессов, обусловленное выполнением закона Амдаля.

Инструмент «Старопечатныйкириллический символ» может быть адаптирован для использованияопределенного числа параллельно работающих процессоров (ядер).

Алгоритм параметризуемой кластеризации состоитиз трех этапов: бинаризация, сегментацияи собственно кластеризация. Данное разделение традиционнодля задач распознавания, но для работы с рукописными и старопечатнымикириллическими книгами необходим принципиально новый подход к решению каждой изперечисленных задач, позволяющий качественно улучшить результатыраспознавания. Это обусловлено тем, что результаты каждого из этапов являются входными данными для следующегоэтапа, а значит количественное улучшение в отдельности бинаризации,удаления шума и сегментации позволяет перейти к решению принципиальноновых задач распознавания не только в смысле качества распознавания как доли правильноопределенных символов и знаков, но и в смысле производительности.Таким образом, используются наиболее эффективныепри описанных в предыдущем разделе ограничениях алгоритмы обработки изображений.

Прежде чем перейти непосредственно к кластеризациинеобходимо бинаризовать изображение, т.е. отделить изображения кириллических символови знаков от фонового изображения. Учитывая такие факторы,как, неоднородность фона, связанная с особенностями используемой бумаги, выцветание краски, механические повреждения обрабатываемоголиста книги, необходимо использовать адаптивные алгоритмыбинаризации изображения.

Принципиально новых, высоких результатов при решении задачи бинаризации удается достичь засчет предварительной классификации исторических памятников, в ходе которой значения определенных признаков таких, как, например, тип материаластраницы, используемые для изображения кириллических букви знаков цвета и т.д. сохраняютсяв специальной базе данных. Фактически, в алгоритме бинаризации в соответствие каждому значению характеристикииз базы данных ставится числовая константа, определяющаямашинное представление цвета. Во время работы алгоритмацветные пиксели в зависимости от близости к цвету шрифта, фона или помех, например, капель воска, меняются на, соответственно, черные или белые пиксели.

Адаптивность алгоритма заключается в том,что степень близости, необходимая для отнесенияпикселя к печатному или рукописному знаку, определяетсяв зависимости от свойств изображения. Цвет фона и помехзависит не только от свойств страницы, но и от технологическихаспектов получения изображения. Поэтому при решении задачибинаризации алгоритма параметризуемой кластеризации «Старопечатныйкириллический символ» пороговые значения красной,зеленой и синей составляющих цветов в машинном представлении определяютсяавтоматически.

Вторым этапом обработки изображения являетсявыделение символов и знаков в бинаризованном изображении (сегментация). Для решения данной задачи используетсяинформация о шрифте, который применяется в историческомпамятнике. Фактически, стилем написаниябукв и знаков определяются размеры и вид фрагментов изображения черного цвета,которые должны интерпретироваться как элементы письма. Таким образом, информация о шрифте позволяетрешить проблему устранения помех изображения, поскольку,к примеру, отдельные черные точки на беломфоне слишком малы для того чтобы рассматриваться как буквы или выносные знаки,а следы воска слишком велики и имеют характерную форму.

Для кластеризации необходимо выделить изображения  отдельных символов. Качество этого этапа напрямую зависит от результатов, полученных на предыдущем шаге. При выделенииотдельных символов решаются следующие проблемы:

·       наличие разрывов и искажений в изображенияхсимволов;

·       наличие помех, похожих на надстрочные знаки;

·       наличие буквицы, элементов графики и крупных элементов помех, которые необходимо отделять от символов алфавита.

В инструменте параметризуемой кластеризации«Кириллический старопечатный символ» эти проблемы решаются с помощью специального адаптивного алгоритма.

Последним этапом инструмента является собственнокластеризация, а именно объединение символов и знаков вгруппы так, чтобы группе принадлежали одинаковые символы.

Эта задача решается с помощью искусственныхнейронных сетей (ИНС). В качестветопологии ИНС выбран персептрон с одним промежуточным слоем. Перед обработкой изображений символов с помощью ИНС они приводятся куниверсальному представлению с помощью масштабирования. Несмотря на значительное сокращение количества пикселей, значения которых подаются на вход персептрона, уменьшения этого количества до порядка ста входных нейронов добитьсяне удается, поскольку начертание букв «и» и «н» в старорусских кириллических текстах очень сходно.

Благодарности

Исследование выполнено в рамках проекта «Рукописные и старопечатные тексты: разработка программного комплекса для распознавания на основе технологий искусственного интеллекта и параллельных вычислений», поддержан грантом РФФИ № 09–06–00254а. 

 

 
< Предишна   Следваща >