Забыли пароль?
Ещё не зарегистрированы? Регистрация
Сейчас на сайте находятся:
1 гость
RSS-ленты новостей
rss20.gif

Портал был создан при финансовой поддержке Российского гуманитарного научного фонда (РГНФ), проект № 07-04-12140в.

(c) "Информационные технологии и письменное наследие", 2008-2020

Распознавание рукописных текстов PDF Печать E-mail
Автор(ы): Александр Валерьевич Кучуганов, Г. В. Лапинская   
18.07.2008 г.

Текст печатного издания в формате PDF  

При обработке документов и вводе информации в компьютер весьма актуальной является задача распознавания текста. Распознавание печатных текстов компьютером — область, сегодня достаточно хорошо исследованная. Что же касается распознавания рукописного текста, то качественный рывок еще впереди. Хотя уже есть несколько отработанных направлений.

Во-первых, это системы распознавания форм, заполненных печатными буквами от руки, которые применяются во многих областях. Во-вторых, это распознавание раздельных рукописных букв, написанных особым пером на специальном экране (touch-screen), которое широко применяется в карманных компьютерах и электронных записных книжках. Эти распознающие системы демонстрируют достаточно высокую точность, приближающуюся к точности клавиатуры.

Чтение компьютером слитных букв, то есть обычного письма, сегодня мало разработано. Но исследовательские проблемы, которые надо решить на этом пути, чрезвычайно интересны.

Типичная задача автоматического распознавания образов формулируется примерно так: все множество подлежащих обработке изображений некоторым способом разбивается на конечное число классов, называемых образами [Бутаков 1987]. Автоматическому устройству, снабженному механизмом восприятия образов, предъявляется изображение. Устройство должно решить, к какому классу оно относится.

Представлялось вполне естественным, что поскольку необходимо устройство, принимающее решение, то алгоритмы его работы должны опираться на статистическую теорию решения. Объекты каждого класса (образы) характеризовались некоторой совокупностью признаков, каждый из которых мог принимать одно из определенного множества значений. Возникла задача: с помощью семейства поверхностей разбить пространство признаков на непересекающиеся области и сопоставить каждую область одному из образов. Если это сделано, то процесс распознавания представляется достаточно простым: для предъявленного изображения нужно вычислить значения всех признаков, иными словами, определить некоторую точку в пространстве признаков; затем выявить, в какую из выделенных областей попадает точка. Изображение относится к тому образу, которому соответствует найденная область.

Традиционно существует три метода распознавания (или типа классификаторов): шаблонный, признаковый и структурный [Абраменко 2000]. Шаблонные классификаторы преобразуют исходное изображение символа в набор точек и затем накладывают его на шаблоны, имеющиеся в базе системы. Шаблон, имеющий меньше всего отличий, и будет искомым. У этих систем достаточно высокая точность распознавания дефектных символов (склеенных или разорванных). Недостаток ― невозможность распознать шрифт, хоть немного отличающийся от заложенного в систему (размером, наклоном или начертанием). Признаковые классификаторы по каждому символу вычисляют набор чисел (признаков) и сравнивают эти наборы. Но так как набор признаков никогда полностью не соответствует объекту, то заведомо часть информации о символе будет теряться. Структурные классификаторы хранят информацию о топологии символа. Этот способ тоже имеет свои недостатки: как только вы представите «разорванную» из-за дефектов печати букву, она уже не подойдет под свое описание.

В структурно-пятенном эталоне изображение представляется в виде пятен, связанных парными отношениями. Наглядно это можно представить себе в виде теннисных шаров, нанизанных на резиновый жгут. Шары могут сдвигаться относительно друг друга. Такую связку подвижных шаров можно «натянуть» на различные изображения одного символа, и система становится менее зависимой от шрифтов и дефектов. Технология распознавания с помощью структурно-пятенных эталонов получила название «фонтанное преобразование» (от английского font — шрифт).

Проанализировав возможности компьютерного анализа рукописного текста, мы пришли к выводу, что его перед обработкой необходимо векторизовать. Для этого была создана программа AQResearcher, которая предназначена для перевода растрового изображения рукописного текста в векторное, при этом информация о геометрических примитивах записывается в файл, который в последствии будет обрабатываться [Кучуганов 2001: 227–230].

После обработки изображения рукописного текста с помощью программы AQResearcher мы получили представление введенного текста в виде отрезков прямых и дуг. Для анализа этих данных была создана база эталонов, в которой хранится информация о каждой букве в отдельности.

Сущность разработанного нами подхода к распознаванию заключается в следующем: исходные элементы изображения представляются в виде графа [Кучуганов 1985], который описывается следующими параметрами: координаты начала элемента; координаты конца элемента; форма элемента (дуга, прямая); направление прямой или направления векторов от центра к концам дуги, которые определяются в зависимости от наклона почерка и могут принимать восемь значений, представленных на рис. 1.

 

       
 
   
 

 


                  top                                         top

         left-top                                                               right-top

                                      right-top      left-top

 

 

         left                        right   left                           right

 

left -bottom      right-bottom        left-bottom           right-

                         bottom                      bottom                bottom

                           a                                               б

Рис. 1. Значения направления углов векторов от центра к концам дуги:

а — для правонаклонного почерка, б — для левонаклонного почерка

Для представления в памяти компьютера этот граф удобно задать двумя матрицами:

где каждой строке матрицы М1 соответствует строка матрицы М2.

Каждая строка матрицы М1 описывает свойства одной вершины графа исходных элементов текста с помощью некоторых параметров j1,…,jl. В матрице М2 AH и AK — адресная часть строки. Здесь записываются номера строк матрицы М1, в которых находятся вершины, связанные ребром с началом и концом данной вершины соответственно. Можно считать, что в AH записаны адреса ребер, входящих в данную вершину, а в AK — исходящих.

Эталонные образцы хранятся в базе тоже в виде графов. Для сравнения известного графа с анализируемым графом строки рукописного текста мы строим параллельно анализируемому графу точно такой же граф, но дополненный двумя параметрами-метками. Первый параметр будет использоваться для обозначения совпавшей вершины из эталонного графа с вершиной из анализируемого графа, а второй — вершины, которые соответствуют соседним вершинам по отношению к совпавшей, чтобы потом сравнивать только с соседями совпавших вершин.

Таким образом, просматривая эталонные образцы и граф анализируемого текста и делая необходимые пометки при совпадении, мы осуществляем распознавание изображения рукописного текста.

Подводя итог проделанной работе, следует отметить, что в разрабатываемой нами программе задается доля вероятности совпадения признаков анализируемого и исходного графов. Это позволяет корректировать процесс распознавания с учетом влияния внешних факторов, таких, как размер почерка, качества бумаги и т. д. Конечно, несмотря на это, существует вероятность того, что мы не сможем распознать какие-то символы рукописного текста.

Чтобы продемонстрировать механизм работы программы, мы удалили из базы эталонов все образцы исходных букв, кроме буквы «н». Эта буква содержит несколько разветвлений и представляет собой достаточно сложный образец для распознавания. После обработки данной строки в программе AQResearcher данные были сохранены в файл approxim0.tte. После анализа данных этого файла в нашей программе было обнаружено две буквы «н», остальной текст был заменен знаками «_», так как не был распознан. Для обнаружения ошибок или неточностей работы программы присутствует механизм визуальной отладки, то есть все, что распознается, выделяется на исходном рисунке. Результаты работы программы представлены на рис. 2.

Рис. 2. Пример работы программы распознавания рукописного текста

Ни для кого не секрет, что в настоящее время идет бурное развитие в сфере распознавания рукописных текстов. Такие всемирно известные компании, как Nintendo, Zi Corporation, Paragon Software, Hewlett-Packard, ABBYY, Parascript, LLC и другие, борются за право лидерства в этой области. Разрабатывая данную программу, мы поставили перед собой цель исследовать алгоритмы, приближающиеся по своим возможностям в плане гибкости и параллельной обработки к механизмам зрения биологических систем, в частности, путем разделения и оперативного взаимодействия функций зрительного анализатора и логического (мыслительного) уровня.

Планируется разработать систему адаптации программы к почерку конкретного человека. Это позволит создавать уменьшенные базы эталонов, что, в свою очередь, ускорит процесс распознавания.

Summary

The problem of text recognition in documents processing and information input into the computer is rather actual. Our work offers an approach to the problem solution of hand-written text recognition, consisting of that the scanned sample of the hand-written text vectorized, initial elements of the received image are represented as the count which elements are compared to the reference samples stored in base.

The described model is incorporated in the working version of program HWTR (hand-written text recognition) for recognition of hand-written text.

Список литературы

Абраменко 2000 ― Абраменко, А. Компьютер читает [Электронный ресурс]. ― Электрон. текстовые дан. — 2000. ― Режим доступа: http://www.ocrai.narod.ru/, свободный. ― Загл. с экрана.

Бутаков и др. 2000 ― Бутаков, Б. А. Обработка изображений на ЭВМ / Б. А. Бутаков, В. Н. Островский, И. Л. Фадеев — М. : Радио и связь, 1987. — 240 с.

Кучуганов 2001 ― Кучуганов, А. В. Метод адаптивной векторизации фотоизображений / А. В. Кучуганов // 11‑й междунар. конф. по компьютерной графике и машинному зрению Графикон : сб. тр. (Н. Новгород, 10–15 сент. 2001 г.). — Н. Новгород : ННГАСУ, 2001. ― С. 227–230.

Кучуганов 1985 ― КучугановВ. Н. Автоматический анализ машиностроительных чертежей / В. Н. Кучуганов. — Иркутск, 1985.

 
« Пред.   След. »