El'Manuscript '08
Конференция
Организационный комитет
Программный комитет
Направления работы конференции
Направления работы школы
Основные даты
Регистрация и заявка
Организационный взнос
Программа конференции
Список участников
Материалы конференции
Проекты и ресурсы
Организационная информация
Культурная программа
Фотоотчет





Забыли пароль?
Ещё не зарегистрированы? Регистрация
Сейчас на сайте находятся:
5 гостей
RSS-ленты новостей
rss20.gif

Портал был создан при финансовой поддержке Российского гуманитарного научного фонда (РГНФ), проект № 07-04-12140в.

(c) "Информационные технологии и письменное наследие", 2008-2020

Разработка и использование формата mnsXML для подготовки, обработки и обмена электронными текстами PDF Печать E-mail
Автор(ы): Виталий Александрович Романенко, Алексей Николаевич Желонкин   
30.06.2008 г.
 

     В мире существует уже несколько электронных полнотекстовых коллекций древних славянских письменных памятников, подготовленных в виде транскрипций. Пополнение каждой из них возможно как путем ввода новых текстов силами коллектива или отдельного ученого, поддерживающих коллекцию, так и путем взаимовыгодного обмена электронными наборами.

Трудоемкость первого пути – первичный ввод текста и его сверка – очень велика и требует привлечения высококвалифицированных специалистов. Второй путь позволяет конечному пользователю использовать различные технологические платформы для обработки и визуализации одного и того же материала (текстов, перечней, выборок), но требует создания форматов обмена данными между коллекциями и инструментов для «взаимодействия» коллекций.

В рамках проекта «Манускрипт» проводится работа по созданию формата обмена электронными текстами на основе универсального языка разметки XML и формата разметки текстов TEI (Text Encoding Initiative). Формат mnsXML предназначен для стандартизации загрузки транскрипций и сведений о текстологических и лингвистических единицах текстов и рукописей в информационно-аналитическую систему (ИАС) «Манускрипт», для хранения их вне базы данных и для обмена электронными текстами с другими полнотекстовыми коллекциями.

Основные характеристики формата mnsXML:

- обеспечение цикла загрузки-выгрузки текста через этот формат в неизменённом виде,

- возможность хранения текста вместе с несколькими вариантами его разметки, аналитическим описанием и ссылками на словари,

- возможность выгрузки, загрузки и хранения словарей,

- расширение формата mnsXML в связи с развитием формата представления текстов в ИАС «Манускрипт» и в связи с изменением форматов внешних коллекций.

Предполагается несколько схем использования формата mnxXML.

1. Загрузка данных. Исходные для загрузки тексты имеют разные форматы, которые можно отнести к одной из типовых групп. Формат текста включает в себя кодировку символов текста и структуру текста в виде одной или нескольких разметок. Основную трудность при загрузке представляет использование разных разметок в разных форматах. Использование единых принципов разметки на основе mnsXML позволит значительно снизить трудозатраты по загрузке новых текстов в ИАС «Манускрипт». Дополнительно появляется возможность дать авторизованный доступ к модулю загрузки внешним пользователям и возможность обмена текстами с другими коллекциями.

В настоящее время формат используется также для загрузки в базу данных «Манускрипт» текстов М. В. Ломоносова, предварительно подготовленных в формате ASCII, размеченных для сохранения оформления текста согласно печатному изданию (Полное собрание сочинений в 11 тт.).

2. Выгрузка данных. Выгруженные тексты могут быть переданы в другие коллекции или загружены повторно. Создание резервных копий текстов позволяет при необходимости вернуться к последнему выгруженному варианту текста и обеспечить дополнительную сохранность текстов и вносимых в них изменений.

Формат планируется использовать также для выгрузки из ИАС «Манускрипт» текстов М. В. Ломоносова для передачи их другим коллективам.

3. Обмен текстами и аналитической информацией между различными коллекциями может быть односторонним (передача текста в другую коллекцию) и двусторонним (совместная работа над текстом).

Одной из проблем при обмене текстами между коллекциями является использование в каждой коллекции собственных идентификаторов единиц текста (например, это может быть сквозной уникальный номер для всей коллекции, составной ключ из номера текста и номера единицы в тексте и др.), что делает необходимым сохранение идентификаторов единиц текста в исходной коллекции при передаче его в другую (целевую) коллекцию.

Другая проблема – согласование изменений, вносимых в разные копии одного текста. После изменения текста в целевой коллекции и при желании перенести эти изменения в исходную возникает проблема корректного слияния изменений. В такой ситуации оптимальным будет блокирование изменений текста в исходной коллекции, пока он передан для правки в целевую.

Сопоставление производится по идентификаторам единиц в обеих коллекциях. Если для существовавшей ранее единицы происходит просто обновление ее атрибутов, то для новой единицы, созданной в ходе редактирования текста в целевой коллекции, создается ее копия в исходной коллекции с включением ее во все разметки и восстановлением связей со словарями.

Обмен аналитическими данными о тексте особых сложностей не представляет, если для аналитических данных в разных коллекциях есть взаимнооднозначные соответствия. Достаточно полное описание структуры аналитических данных в формате TEI позволяет взять его за основу.

Обмен словарями и ссылками на них является наиболее сложным. Здесь сначала должна быть проведена синхронизация словарей (также с сохранением соответствия идентификаторов словарных единиц в разных коллекциях), и только потом возможен обмен текстами с сохранением ссылок на словарные единицы.

Благодарности

Работа поддержана Российским гуманитарным научным фондом (РГНФ), проект № 07-04-12147в («Большой корпус русского языка XVIII в.»).

 

The development and use of mnsXML for preparing, processing, and exchange of electronic texts

Vitaliy A. Pomanenko, Alexey N. Zhelonkin

Udmurtia State University, Izhevsk, Russia

The usage of mnsXML as a storage format for electronic text for the Manuscript information-analytical system and for interchange with other electronic full-text collections of ancient texts is described.
 
« Пред.   След. »