El'Manuscript-09-WS
Workshop
Organizational committee
Program comittee
Topic areas
Basic dates
Registration and request
Competition
Contestworks
Organizational payment
Workshop program
Workshop materials
Workshop participants
Organizational information
Cultural program
Photos





Lost Password?
No account yet? Register
We have 1 guest online
RSS-feed
rss20.gif

The project is supported by the Russian Foundation for Basic Research, project #07-04-12140в

(c) "Information Technologies and Textual Heritage", 2008-2020

Электронное критическое издание средневекового текста: инструментальные средства визуализации соответствий и разночтений PDF Print E-mail
Written by: Сергей Викторович Дубовцев   
Пятница, 25 Сентябрь 2009
 
     Традиционное печатное критическое издание средневекового памятника письменности представляет собой научную публикацию, в которой особенности текста представлены его вариантами в дошедших до настоящего времени списках.

Нацеленное на сопоставление вариантов, издание структурировано таким образом, что позволяет увидеть различия между рукописями, возникшие в результате правки, редактирования, вставок, утрат, во время переписывания, в конечном счете - исследовать историю текста, текстологические, лингвистические и иные признаки каждого конкретного списка. А при наличии текста на разных языках - установить значимое для историка, лингвиста, культуролога соотношение перевода и оригинала.

Существующие критические издания, несмотря на значительную вариативность в способах подачи материала, устойчивы в основных своих чертах: наличие одного основного текста, подведение разночтений по отобранным для этого спискам, включение приложений в виде справочников, указателей, комментариев, а также, в случае переводности текста, оригинала на другом языке.

В то же время, если у читателя существует необходимость выборки лингвистических данных, не представленных в явном виде списка, печатная форма публикации требует дополнительной работы по отбору и перегруппировке материала.

В рамках проекта «Манускрипт» два года назад была начата работа по созданию электронного аналога печатного критического издания (далее - ЭКИ), которое должно предоставлять читателю (пользователю) и те возможности знакомства и работы с текстом, которые дает традиционная печатная публикация, и такие, которые в ней отсутствуют. Требования к ЭКИ были изложены в работе [Баранов-Гнутиков 2008].

В настоящее время на портале «Манускрипт: славянском письменное наследие» демонстрируется первая версия ЭКИ (URL: http://manuscripts.ru/mns/cred.cred_test), представляющая текст служебной минеи на май по славянским спискам XI-XIV вв.

С самого начала авторы (постановка задачи и лингвистическая подготовка данных - В. А. Баранов, разработка и создание веб-модулей - С. В. Дубовцев) при разработке пользовательских интерфейсов ориентировались на традиции печатных критических изданий (рис. 1). В то же время воспроизведение страницы печатного издания было лишь одной из задач при разработке интерфейса. Основной целью является предоставление пользователю развитого инструментария для отбора (выборки) материала, для его группировки (упорядочения) и для визуализации на экране.

dubovcev_izhevsk_fig1.jpg

Рис. 1: Демонстрация разночтений

Основные особенности подготовленного ЭКИ. ЭКИ, реализованное как ряд веб-интерфейсов для выборки, группировки и визуализации данных, доступно через Интернет (требуется регистрация на портале «Манускрипт: славянское письменное наследие). Формы запроса позволяют варьировать форму визуализации материала: выбирать количество рукописей и определять основную среди них, указывать единицы сравнения и формы их расположения, группировки, - получать в качестве результата выборку разного объема и количественных характеристик. Несколько параметров, определяемые пользователем при подготовке запроса, позволяют очень гибко настроить выборку и получить такой ее вид, который и по содержанию, и по форме удовлетворяет поставленной исследовательской задаче.

В основе подготовленного в настоящее время ЭКИ - полнотекстовая база данных нескольких списков майской служебной минеи, которая реализована на платформе СУБД Oracle, позволяющей легко производить необходимую обработку данных с последующим выводом отчета в виде веб-страницы. В основе отчета всех реализованных режимов лежит HTML-таблица, которая заполняется сверху вниз и слева направо. Заполнение в иной последовательности возможно, но затруднено и, на наш взгляд, противоречит самой идеологии таблицы. В связи с этим и некоторыми другими факторами после ряда экспериментов было решено разделить формирование отчета на несколько этапов.

На первом этапе строится структура данных, содержащая то, что может быть использовано на последующих этапах. Это позволяет единожды выбранные данные использовать многократно, не запрашивая их каждый раз из базы данных при необходимости. Также на первом этапе формируется видимое представление сложных единиц (например, сложных словоформ и синтаксических единиц), интерпретируемых как одно целое. Для единиц сравниваемых рукописей на этой стадии определяются соответствующие им единицы рукописи, выбранной в качестве основной. Для установки таких связей используется специальная структура - прототекст (прототекст - созданный автором электронного издания текст, единицам которого в рукописях соответствуют текстовые прецеденты). Нужно отметить, что связи между обрабатываемыми единицами могут проходить через разное число уровней иерархии, как, например, в случае простых и сложных единиц, в которых и в тексте, и в прототексте число «шагов» от единицы до единицы может быть разным. И для того, чтобы избежать привязки к одному конкретному варианту, функции, используемые для определения связей, были реализованы как рекурсивные.

На втором этапе единицы словаря фрагментов, на основе которого определяются связи между соответствующими друг другу фрагментами рукописей, обрабатываются уже поочередно. Порядок их обработки определяется порядком следования фрагментов в основной рукописи. На этом шаге при помощи специально разработанного алгоритма определяется оптимальное расположение единиц исходя из простого правила: все единицы, привязанные к одной единице прототекста, при визуализации должны находиться в одной строке таблицы. Если же по каким-либо причинам это сделать не удается, то соответствие показывается графически, в виде линий, соединяющих соответствующие словоформы. Главная из этих причин - различие порядка следования единиц в рукописях. В том случае, если в качестве единицы сравнения выступает фрагмент рукописи, то аналогичный алгоритм используется для установления соответствий между фрагментами на основе словаря фрагментов (рис. 2).

dubovcev_izhevsk_fig2.jpg

Рис. 2: Визуализация состава рукописей и порядка следования фрагментов

Отдельной задачей стала и обработка повторяющихся в одной рукописи фрагментов, содержащих один и тот же текст. Наличие повторяющихся фрагментов влечет за собой появление нескольких единиц документа, привязанных к одному фрагменту словаря. Задача визуализации такой ситуации была успешно решена при помощи дополнительных окон, содержащих информацию, отсутствующую в основном окне-отчете. Решение позволило отказаться от поиска путей совмещения в одной процедуре двух различных вариантов вывода - без повторяющихся фрагментов и с ними, а реализовать каждый из них по отдельности, и как следствие - предоставить пользователю понятный интерфейс, где на окна с дополнительной информацией даются ссылки в основном окне-отчете (рис. 3).

dubovcev_izhevsk_fig3.jpg

Рис. 3: Различные режимы визуализации повторяющихся фрагментов

В последнем этапе решалась задача графического показа соответствий.

Для реализации было решено использовать язык разметки масштабируемой векторной графики (SVG), так как векторные изображения при масштабировании не теряют качества. При помощи этого инструмента на уже сформированную страницу накладываются линии, соединяющие соответствующие друг другу единицы. Чтобы избежать избыточности, горизонтальные линии не показываются. На данный момент реализовано два способа вывода линий: соединение единицы основной рукописи с соответствующими единицами сравниваемых и соединение единицы с соответствующей в следующем столбце, что позволяет сформировать «путь» перемещения единицы.

Из-за того, что сам по себе браузер не имеет необходимых для решения данной задачи средств интерпретации, для работы с созданным ЭКИ необходимо установить соответствующий бесплатный плагин. Для удобства нахождения соответствующих друг другу единиц в различных областях окна отчета с помощью инструмента Javascript реализована подсветка связанных объектов и возможность фиксации выделения (рис. 4).

dubovcev_izhevsk_fig4.jpg

Рис. 4: Визуализация состава фрагментов и следования в них лингвистических единиц

В настоящий момент разработанный инструмент используется для подготовки еще двух электронных публикаций (ЭКИ «Евангелие», ЭКИ «Русские летописи»), которые после окончания лингвистической работы над ними будут представлены на портале «Манускрипт: славянское письменное наследие».

Благодарности

Работа выполняется при финансовой поддержке РГНФ (проект № 07-04-00369а).

Литература

Баранов-Гнутиков 2008 - Баранов, В. А. Электронное критическое издание средневекового текста: постановка задачи, основные требования и инструментальная подготовка / В. А. Баранов, Р. М. Гнутиков // Современные информационные технологии и письменное наследие: от древних текстов к электронным библиотекам [Текст] : материалы междунар. науч. конф. (Казань, 26-30 августа 2008 г.) / отв. ред. В. А. Баранов, В. Д. Соловьев. - Казань : Изд-во КГУ, 2008. - С 37-44.

 
< Prev   Next >