El'Manuscript '06
Конференция
Организационный комитет
Программный комитет
Направления работы конференции
Направления работы школы
Основные даты
Регистрация и заявка
Организационный взнос
Программа конференции
Список участников
Материалы конференции
Проекты и ресурсы
Организационная информация
Культурная программа





Забыли пароль?
Ещё не зарегистрированы? Регистрация
Сейчас на сайте находятся:
3 гостей
RSS-ленты новостей
rss20.gif

Портал был создан при финансовой поддержке Российского гуманитарного научного фонда (РГНФ), проект № 07-04-12140в.

(c) "Информационные технологии и письменное наследие", 2008-2020

Информационная технология создания электронного издания Словаря Академии Российской 1789–1794 гг. PDF Печать E-mail
Автор(ы): Анна Юрьевна Филиппович   
18.07.2008 г.

Сегодня многие старинные книги и рукописи находятся на грани исчезновения. Причина тому — несовершенство средств хранения информации. Эти печатные и рукописные материалы, памятники литературы и письменности, являются предметом и источником научных исследований. Для решения проблемы доступности этой информации для потенциальных исследователей источники вводятся в научный оборот, осуществляется их копирование.

Особенности современных (компьютерных) издательских технологий, малые тиражи научной литературы, корпоративные интересы носителей научного знания (книговедов, филологов, историков и др.) сближают процессы копирования источников и их переиздания. Современная доступная копия какого-либо источника — это его печатное и электронное научные переиздания.

Одним из таких источников является Словарь Академии Российской 1789–1794 гг. (САР) [САР 2]. Это первый толковый словарь русского языка. Он был создан в эпоху просвещения. В это время, в 1783 г., по Высочайшему соизволению Российской императрицы Екатерины II была создана Российская академия наук. И первое, что сделала Академия, — «главнейшим себе поставила долгом сочинение Словаря или изъяснения слов, речений и разнаго образа вещаний в языке Славенороссийском употребляемых» [САР 1. Т. 1, Предисловїе: V].

В 2000 году Московским гуманитарным институтом им. Е. Р. Дашковой был предпринят проект печатного переиздания Словаря Академии Российской [САР 1], который успешно завершился в настоящее время.

Для реализации этого проекта была разработана специальная информационная технология (ИТ) печатного переиздания. Современная версия САР — это наборное переиздание факсимильного типа. Для его создания была разработана специальная факсимильная шрифтовая гарнитура AndrewDashkova, основанная на старинной так называемой Елизаветинской гарнитуре, которой набран текст Словаря XVIII в.

Наиболее трудоемким этапом ИТ переиздания является ввод и корректура текста. С целью уменьшения временных затрат на корректуру текста словаря и увеличение ее эффективности были проведены исследования алгоритмов деятельности корректоров, частотных характеристик словарного текста и количества ошибок, анализ их типов [Филиппович 2005с: 292], возникающих в процессе его повторного ввода и вычитки. В исследовании сравнивались традиционная технология корректуры и «автоматизированная» [Филиппович 2005b: 70], которая подразумевает использование словаря спеллера. В этом случае корректор просматривает и сравнивает не все слова, а только неизвестные (отсутствующие в словаре) и вносит из в словарь. Данную технологию возможно использовать для первой корректурной читки. Частотный анализ текста страниц 1‑го тома словаря показывает, что количество слов, сравниваемых корректором, уменьшается по мере пополнения словаря спеллера и на последней странице снижается до ~20% общего объема.

Эффективность автоматизированной технологии корректуры зависит от соотношения времени сравнения слова и времени исправления ошибки. В случае их равенства (коэффициент K=1) суммарный выигрыш времени корректуры может достигнуть 62%, а при К=10 он равен 43%.

Сформированный на основе описанной ИТ печатного переиздания материал послужил основой для создания электронного издания. Фактически это означает, что данная технология является частью ИТ создания электронного издания.

Электронное издание Словаря Академии Российской (ЭСАР) включает в себя пять основных компонент: гипертекстовую информационную систему (ГТИС САР), гиперграфическую систему факсимильных копий станиц словаря (ФК САР), лингвистическую базу данных (ЛБД САР), информационно-поисковую систему для исследования и обработки данных Словаря, биобиблиографическую информационную систему создателей Словаря. В качестве отдельных компонент реализуется программный комплекс автоматизированного ввода текста словарных статей в базу данных и программный комплекс создания электронных словников (прямых и обратных, частотных, заголовочных слов, словоформ эксцерпций и дефиниций), словоуказателей (общих, предметных, именных), словарных подмножеств (языковых и тематических), поисковых тезаурусов.

ГТИС САР предназначена для простого, доступного большинству непрофессиональных пользователей, доступа к содержанию САР. Для ее формирования использовалась электронная версия оригинал-макета переиздания словаря. Сам оригинал-макет сдавался в типографию в печатном виде. Переиздание САР содержит две части: вступительную ― с научным комментарием и основную ― с текстом словаря. Верстка первой осуществлялась в программе Microsoft Word, а текста самого словаря — в Adobe PageMaker. ГТИС САР в соответствии с этими частями содержит файлы форматов HTML и PDF. PDF-файлы были получены путем их конвертирования из формата Page Maker [Филиппович 2005a: 295]. HTML-файлы были сверстаны вручную с использованием каскадных таблиц стилей (CSS).

Факсимильная копия САР представляет собой набор изображений страниц Словаря. Исходными данными для формирования факсимильной копии страниц САР были страницы издания Словаря XVIII века и их ксерокопии, которые использовались для корректуры при создании печатного издания. Они были отсканированы. Качество страниц издания XVIII века потребовало обработки их отсканированных изображений, для этого использовался графический редактор Photoshop. Основными недостатками отсканированных изображений были следующие: слишком высокая или низкая контрастность, искажения (перекосы), наличие загрязнений и дефектов.

Для ликвидации этих недостатков была разработана специальная технология. Настройка контраста изображений и удаления основных загрязнений осуществлялись с помощью функции автоматизации в Photoshop — макросов. Остальные недостатки изображений — искажения, некоторые загрязнения и дефекты ― были удалены вручную.

ЛБД САР содержит сведения о структуре словарных статей. Одними из основных сложностей создания ЛБД являются особенности верстки текста словаря и его структура, словарь построен по гнездовому принципу и содержит 43257 слов. В связи с этим разработана формальная модель стилевой разметки словаря. Каждый том словаря содержит более десяти тысяч словарных статей, и для автоматизированного наполнения БД разработана соответствующая программа.

Интерфейс ЭСАР разработан в среде Delphi, содержит 15 художественно-оформленных оригинальных экранных форм. В экранные формы включены мультимедиа элементы.

Проведенные исследования и разработки создают предпосылки для эффективного переиздания других книг XVIII века, языковая основа которых зафиксирована в САР, а форма переиздания основана на Елизаветинской гарнитуре.

Summary

The report topic: Information technology of creating the electronic edition of the Russian Academy Dictionary 17891894.

In the report the features of creating the printed reedition of the Russian Academy Dictionary are considered and the results of study of the efficiency of the proof-reading processes and the analysis of the frequency characteristics of the dictionary text are presented. The structure of the electronic edition of the Russian Academy Dictionary and the technology of designing its principal components (linguistic database, hypertext information system and hypergraphic system of facsimile copies of the dictionary pages) are described.

Список литературы

САР 1 ― Словарь Академии Российской 1789–1794. ― Т. 1–6. — М. : МГИ им. Е.Р.Дашковой, 2001-2005.

САР 2 ― Словарь Академїи Россїйской. ― Т. 1–6. — СПб.: Императорская Академїя Наукъ, 1789-1794.

Филиппович 2005a ― Филиппович, А. Ю. Электронная версия Словаря Академии Российской 1789–1794 годов / А. Ю. Филиппович // Роль книгоиздания в развитии международных научных и культурных контактов : материалы междунар. науч. конф. (Москва, 21–23 сент. 2005 г.) / сост. В. И. Васильев, М. А. Ермолаева, А. Ю. Самарин. — М. : Наука, 2005. — С. 293–296.

Филиппович 2005b ― ФилипповичА. Ю. Автоматизированная технология корректуры переиздания Словаря Академии Российской 1789–1794 гг. на основе динамически пополняемого словаря спеллера / А. Ю. Филиппович // Вест. Моск. госун-та печати. ― № 5 (май). — М. : Изд-во МГУП, 2005 г. — С. 67–85.

Филиппович 2005с ― Филиппович, А.Ю. Исследование эффективности системы оптического распознавания текстов // Интеллектуальные технологии и системы : сб. учеб.-метод. работ и статей аспирантов и студентов. — Вып7 / сост. и ред. Ю. Н. Филиппович. М. Изд-во ООО «Эликс+», 2005. — С. 272–297.

 
« Пред.   След. »