Использование формата TEI для обмена данными с полнотекстовой информационно-поисковой системой «Манускрипт» |
Автор(ы): Павел Анатольевич Вотинцев | |
18.07.2008 г. | |
Текст печатного издания в формате PDF Работа по созданию электронных изданий древних рукописных памятников в настоящее время ведется различными группами исследователей во многих странах мира. Использование компьютерных баз данных для анализа древних текстов представляется очень перспективным, особенно в связи с развитием Internet-технологий. Однако существует проблема преобразования данных разных форматов. Проект предусматривает разработку средств обмена данными между форматами хранения документов и их мета‑ и аналитического описания (на основе формата XML-TEI[1]) и полнотекстовыми базами данных, предоставляющими средства для многофункциональной обработки объектов документа и обеспечивающими создание электронных публикаций различного назначения в Интернете (ИПС «Манускрипт», http://manuscripts.ru/). Итогом выполнения проекта должны стать: – формат данных (на основе XML-TEI), адаптированный для описания древних текстов, рукописей и их фрагментов; при этом необходимо решить такие проблемы, как представление пересекающихся фрагментов в разметке XML, описание дат в неявном виде (например, первая половина XI века) и другие; – средства загрузки документов в ИПС «Манускрипт» для последующей работы с ними, а также возможность соединения с уже описанными фрагментами, организованными в иерархии и в некоторых случаях связанными со словарями; – возможность поиска по текстам, фрагментам, а затем и внутри фрагментов; – инструменты редактирования текстов (фрагментов, представленных в указанном формате с возможностью сохранения); – средства выгрузки документов. Выполненная работа позволит объединить усилия нескольких коллективов для более активного и глубокого исследования рукописных памятников славянской культуры. Благодарности Работа по созданию ИПС «Манускрипт» ведется при поддержке Российского фонда фундаментальных исследований (грант № 05-07-90217в). Summary The project contributes to the development of the means for the exchange of documents and their meta- and analytical description (under the XML-TEI format, http://www.tei-c.org/) with the full-text databases giving means for a multipurpose processing of the document objects and ensuring creation of electronic publications for various purposes on the Internet (Information Retrieval System "Manuscript", http://manuscripts.ru/). [1] The Text Encoding Initiative [Электронный ресурс]. ― Режим доступа: http://www.tei-c.org/, http://www.tei-c.org/release/doc/tei-p5-doc/html/, свободный. ― Загл. с экрана. |