Старопечатные книги Пермской земли и технологии распознавания текстов |
Автор(ы): Юрий Рафаэлевич Айдаров, Галина Павловна Волгирева, Сергей Иванович Корниенко | |
25.06.2008 г. | |
Тезисы в формате DOC (46.5 kB 2008-07-14 20:21:12) Тезисы в формате PDF (115.37 kB 2008-07-14 20:20:42)
На
сегодняшний день Пермская земля счастливо разрешилась блестящим описанием всех
старопечатных книг XVI-XVII веков [Кириллические 2003]. Издание выполнено в рамках научной программы
«Московский государственный университет им. М. В. Ломоносова – Российской провинции» и
региональной программы «Книжные памятники Прикамья». В работе приняли участие
как московские специалисты археографы, так и местные. Руководителем проекта
является доктор исторических наук И. В. Поздеева. Подобные региональные проекты научных
описаний выполнены в Твери и Ярославле.
В
Пермском каталоге описан 371 экземпляр 215 кириллических изданий, хранящихся в
десяти хранилищах семи городов Пермской области. Большая часть (70 %) всего территориального собрания хранится в музеях: в
Пермском – 92 экземпляра, в Березниковском – 72, Чердынском – 60, Соликамском – 11, Кунгурском – 4, Чайковском – 2, Ильинском – 1, в Пермской художественной галерее – 23. В Пермской областной универсальной научной
библиотеке и в Пермском государственном педагогическом университете хранятся 99
экземпляров кириллических печатных книг XVI – XVII в. При этом Пермский региональный
фонд оказался в два раза больше, чем предполагалось до начала описания. Более
того, в пермских книгохранилищах старопечатных книг сохранилось значительно
больше, чем в прославленной своими книжными богатствами Тверской земле.
С точки
зрения технологии и методов распознавания текстов старопечатных книг изданный
научный каталог содержит уникальную информацию о непосредственном процессе
печатания книг и об участии тех или иных лиц в процессе их издания. В первую
очередь это касается изданий Московского Печатного двора. Так, начиная с
издания Триоди Постной
Временем
расцвета деятельности Московского Печатного двора являлись 40-е годы XVII в. Книги печатали на нескольких станах в «Деревянных
хоромах», «Каменных хоромах», в «Верхней палате», в «Нижней палате». Наиболее
яркой фигурой, по документам этого времени, являлся резчик Иван Фофанов, а
также выделялись знаменщики Филипп Антипьев, Иван Дмитриев «с товарыщи». Эти
данные помогают определить наиболее схожие издания по типам начертаний
различных букв, символов и украшений.
Так, близкими друг другу по системе символов должны быть следующие издания:
«Иоанн Златоуст. Маргарит.
Таким
образом, благодаря подробному научному описанию старопечатных книг XVI-XVII вв. можно выявить
близкие по типу издания, начать их оцифровывать, создавать базу данных
электронных текстов и программы для дальнейшего историко-филологического
изучения.
Кроме
того, на основе выделенных групп изданий может быть создана так называемая
обучающая выборка для распознающей системы на базе искусственных нейронных
сетей [Аксенов 2004]. Программные продукты, использующие
искусственные нейронные сети, показали хорошие результаты при решении задач,
связанных с распознаванием образов, в связи с чем возникают предпосылки для
перевода старопечатных книг XVI-XVII в электронный текстовый формат. Для того чтобы
осуществить такой перевод, необходимо разработать специальную систему
кодирования символов, с учетом всех видов дополнительных (например,
надстрочных) знаков.
Работа
над системой распознавания, основанной на искусственных нейронных сетях,
требует выбора топологии нейронной сети. Наиболее широко при решении задач
распознавания применяется так называемый персептрон [Минский
и др. 1971]. Зависимость количества элементов промежуточного слоя
персептрона от количества распознаваемых образов (в нашем случае – различных
символов, встречающихся в старопечатных книгах) может быть определена
экспериментально.
Опытным
путем необходимо также выявить параметры зависимости влияния входных значений
на результаты распознавания. Здесь предлагается использовать сигмоид – функцию
следующего вида:
Сигмоид
позволяет ввести нелинейность в работу нейронной сети и при этом позволяет
сократить вычислительную сложность метода обратного распространения ошибки,
поскольку его производная легко выражается через саму сигмоидальную функцию.
Таким
образом, в результате выполнения описанных выше шагов, может быть построена
система, позволяющая обеспечить эффективный поиск информации в электронном
представлении старопечатных книг с использованием специальных методов набора
символов, используемых в книгах XVI-XVII вв.
Список литературы
Кириллические 2003 – Кириллические
издания XVI-XVII вв. в хранилищах Пермской области. – Пермь, 2003.
Аксенов 2004 – Аксенов,
О. Методика формирования обучающих выборок для распознающей системы /
О. Аксенов // Нейроинформатика-2004 : Сб. научн. тр. VI. Всероссийская
научно-техн. конф. – Ч. 2. – М. : МИФИ, 2004. – С. 215-222.
Минский и др. 1971 – Минский, М. Персептроны / М. Минский, С. Пейперт ; пер. с
англ. – М., 1971.
Early printed books of
Yuriy R. Aydarov, Galina P. Volgireva
Early printed books from the 16th and 17th
centuries from |