База данных как средство фасетной классификации рукописных и старопечатных кириллических изданий

Выбрать

EnglishRussianBulgarianLithuanian

El'Manuscript-10

Конференция

Организационный комитет

Программный комитет

Направления работы конференции

Направления работы школы

Основные даты

Регистрация и заявка

Организационный взнос

Программа конференции

Список участников

Материалы конференции

Проекты и ресурсы

Организационная информация

Культурная программа

Сейчас на сайте находятся:
3 гостей и 1 пользователь

RSS-ленты новостей

Портал был создан при финансовой поддержке Российского гуманитарного научного фонда (РГНФ), проект № 07-04-12140в.

База данных как средство фасетной классификации рукописных и старопечатных кириллических изданий

Автор(ы): Сергей Иванович Корниенко, Галина Павловна Волгирева, Динара Амировна Гагарина

08.08.2010 г.

This paperdeals with an approach and method of facet classification of editions, fonts,alphabets and record systems for hand-written and old-printed books. Developedclassification is focused on formation of books complex and neural networktraining. The method is carried out by technological means of relationaldatabase. Such approach allows using database queries for realization of facet formulas.

При создании и апробации программного комплексадля распознавания рукописных и старопечатных текстовых исторических источников наоснове нейросетевых технологий [Айдаров, 2009; Корниенко, 2008] возникает проблема отбора источниковдля обучения сети. Период с XI поXVII вв. характеризуется становлением письменности,несколькими реформами языка, развитиемтехнологий производства книги, различными типографиями,печатниками (писцами) и другими составляющими, что естественным образомусложняет и разнообразит класс кириллических рукописных и старопечатных книг.Практически каждый источник является уникальным как по форме,так и по содержанию.

Потребность в обучении на разных примерах,максимально покрывающих разные типы изданий, шрифтов, алфавитов, способовзаписи и т.п., требует разработкиих классификации. Чтобы оптимизировать и сократить этапобучения сети, такой список одновременно должен быть достаточными по возможности неизбыточным.

Поиск источников и информации о них осуществлялсяна основе анализа печатных и электронных каталогов рукописных и старопечатных кириллическихизданий, научных и справочных публикаций по тематике связаннойс этим типом источников, электронных коллекций и отдельныхпубликаций самих источников. С точки зрения задач проектанаиболее целесообразным подходом для сохранения информации и манипулирования еюбыла признана технология баз данных. В соответствии с этимбыла спроектирована и создана реляционная база данных. Ееосновными объектами являются источники, места хранения,библиографические ресурсы, интернет-коллекции. Объект «Источник»в базе описывается набором библиографических, археографических атрибутов, относящихся к содержанию,форме, шрифтам, а также некоторыми дополнительными полями – всегооколо 60 полей. Для атрибутированияизданий используется несколько вспомогательных таблиц. Заполнениебазы осуществляется на основе существующих описаний или специалистом-палеграфом путем анализа самого источника.

Как известно, существуютдва основных метода классификации – иерархический и фасетный.При использовании иерархического метода неизбежны упрощение и потеряинформации в силу, с одной стороны, жестких требований к выбору основания классификации, с другой сложности и разнообразия источниковой базы. Фасетная классификация в определенной мере позволяет преодолеть этотнедостаток и более полно использовать различные основания классификации.Кроме того, при фасетной классификациипоявляется возможность выборки объектов по любому сочетанию признаков.

В силу вышеуказанных обстоятельств основнымметодом классификации при решении данной задачи проекта был избран именно фасетный.Программно-технологической основой дляего реализации стала указанная выше база данных. Возможностиее использования определяются тем, что по сути каждый изатрибутов таблицы базы и их комбинации могут стать фасетами – основанием для классификации как изданий в целом, так и шрифтов, алфавитов и систем записи.

При таком подходе набор нескольких фасетныхформул, реализованный с помощью запросов к базе данных,позволяет получить перечень источников для обучения сети.Следует отметить, что для проведения первичнойклассификации в принципе не было необходимости полностью атрибутировать все источники.

Для классификации изданий в целом использовалисьнекоторые из библиографических и археографических признаков. Так, таблица базы данных содержит набор традиционныхбиблиографических полей – таких как «автор», «название», «второе название», поля, определяющие время создания. В качестве одногоиз оснований классификации использовался век написания источника. Основным фасетом стал тип книги, который предусматриваеттакие значения как рукописная или печатная. Следующая группаатрибутов связана с местом создания («город», «типография») и печатником (писцом). Очевидно, этагруппа в целом и отдельные перечисленные атрибуты составляют фасеты. Материал книги, цвет фона и текста, водяные знаки могут оказывать влияние на работу нейросетевого компонента,поэтому соответствующие атрибуты также были учтены как основанияклассификации. Значения признаков: «материал»: пергамент, береста, кожа, бумага,дерево с воском, дерево; «цвет фона»: белый, светло-синий, светло-коричневый;«цвет текста»: черный, темно-коричневый, красный;«водяные знаки»: есть, нет. Такие признаки как «частые дефекты», «иллюстрации», «орнамент», «количество почерков или досок»,«многослойность», «тип многослойности»также должны учитываться при создании и настройке нейросетевогокомпонента. Атрибуты «количествотетрадей», «количество страниц», «формат» и размеры книги включены в таблицу кактрадиционные элементы археографического описания, хотя онии не представляют особого значения как основания классификации для последующегораспознавания. Такой признак как «тематика издания» имеет значение на этапе постраспознаваниядля подключения различных словарей.

Классификация систем записи предусматриваласледующие атрибуты: «наличие колонтитула», «нумерация страниц или листов», «колонки»,«разделение на слова», «разделение на прописныеи строчные буквы», «буквицы» и др.Важнейшим фасетом и важнейшим основанием для классификации рукописныхизданий с точки зрения последующего распознавания стал тип графики письма/шрифта. Возможные значения этого признака:устав, полуустав, вязь, скоропись, гражданскоеписьмо. Поскольку существуют издания, в которых используется более одного типа графики, то в таблицу базы данных также был введен атрибут «дополнительный тип графики». Создаваемая системапредполагает сегментацию и кластеризацию символов, поэтомуона в большей степени ориентирована на типы графики письма, относительно легко сегментируемые на символы, такие как устав, полуустав, гражданское письмо.

Была разработана система классификации алфавита.Для этого задано 46 атрибутов, соответствующих каждой букве с логическим значением (используется / не используется в данном источнике).Кроме того, к особенностям алфавитов исистем записи относятся диакритические знаки. Среди нихразличаются выносные буквы, неслитные и слитные надстрочные,подстрочные и внутристрочные знаки; в базепредусмотрены соответствующие атрибуты. Необходимость априорногозадания атрибутов, относящихся к алфавиту, на данном этапе не очевидна, однако переченьизданий для обучения сети предусматривает включение в него изданий с различнымивариантами диакритических знаков.

Таким образом, использованиебаз данных позволяет проводить классификации рассматриваемого круга источников поразличным фасетам, относящимся к описанию изданий,шрифтов, систем записи и алфавитов,и их комбинациям. Разработанный для решениязадач проекта предложенный метод имеет также самостоятельное значение, может использоваться для решения различных исследовательских задач,допускает модификацию (введение новых атрибутов,конструирование новых фасетных формул и др.).

Благодарности

Исследование выполнено в рамках проекта «Рукописные и старопечатные тексты: разработка программного комплекса для распознавания на основе технологий искусственного интеллекта и параллельных вычислений», поддержан грантом РФФИ № 09–06–00254а.

Литература

Айдаров Ю.Р.,Волгирева Г.П., Гагарина Д.А., КорниенкоС.И., Черепанов Ф.М., Ясницкий Л.Н.Сохранение рукописных и старопечатных текстов: возможности применения технологий искусственного интеллекта //Историко-культурное наследие и информационно-коммуникационные технологии: сохранение и исследование:материалы науч. конф. (Пермь, 13–14 ноября 2009 г.) / под ред. С.И. Корниенко. – Пермь,2009. – С. 60-68.

Корниенко С.И.,Черепанов Ф.М., Ясницкий Л.Н. Распознаваниетекстов рукописных и старопечатных книг на основе нейросетевых технологий// Современные информационные технологии и письменное наследие:от древних текстов к электронным библиотекам: материалы междунар. науч. конф. (Казань, 26-30 августа 2008г.) / отв.ред. В.Д.Соловьев, В.А.Баранов. – Казань, 2008. – С. 155-156.

« Пред.		След. »