ИСПОЛЬЗОВАНИЕ TEI И RDF В ИНФОРМАЦИОННО-ПОИСКОВОЙ СИС-ТЕМЕ «РУССКАЯ ЛИТЕРАТУРА XVIII века»

Выбрать

EnglishRussianBulgarianLithuanian

Сейчас на сайте находятся:
2 гостей

RSS-ленты новостей

Портал был создан при финансовой поддержке Российского гуманитарного научного фонда (РГНФ), проект № 07-04-12140в.

ИСПОЛЬЗОВАНИЕ TEI И RDF В ИНФОРМАЦИОННО-ПОИСКОВОЙ СИС-ТЕМЕ «РУССКАЯ ЛИТЕРАТУРА XVIII века»

Автор(ы): Артем Викторович Андреев

27.08.2012 г.

Summary. The conceptual data model of the information retrieval system «Russian Literature of XVIIIth century» challenges efficient indexing. The system is based on a set of TEI P4 conformant documents where available search criteria are derived from the mark-up. Initial relational approach proved to be very inadaequate and was replaced by a RDF-based system. Standard RDF schemata are used as much as possible but are too coarse-grained in many cases, so a custom schema was devised.

Информационно-поисковая система «Русская литература XVIII века» обеспечивает поиск текстов и фрагментов текстов по ряду параметров, как-то: элементы библиографического описания, упоминаемые имена собственные, стиховедческие параметры и т.п. [Андреев и др., 2009] Основой ИПС является корпус текстов, размеченных в соответствии с рекомендациями TEI P4 (нами используется SGML-версия, а не XML, чтобы облегчить ручную разметку). Концептуальной особенностью ИПС является то, что набор поисковых параметров не задан жестко, а определяется используемыми тегами TEI.

Несмотря на относительно небольшой объем корпуса, вопрос эффективной организации инвертированных индексов встал уже на ранних этапах разработки. Первоначально нами использовалась реляционная модель, как наиболее распространенная, однако опыт практического использования системы выявил следующие слабые места:

- требование нормализации модели накладывает ограничения на используемую разметку, либо приводит к чересчур громоздким схемам БД

- динамическая природа набора параметров плохо сочетается с необходимостью иметь жесткую схему БД

- областью действия параметра может быть как текст, так и произвольный его фрагмент, что также плохо выразимо в реляционной модели

- обновление поисковых индексов оказывается нетривиальной задачей.

Поэтому после ряда экспериментов было принято решения следовать подходу, намеченному в [Tummarello et al., 2005] и представлять поисковые индексы как набор RDF-троек. В отличие от указанной работы мы не ставили себе целью получить RDF-представление, полностью эквивалентное TEI-разметке, а только обеспечить возможность быстрого нахождения текстов/фрагментов по заданному поисковому предписанию.

Мы старались по возможности следовать существующим стандартам и рекомендациями в области метаданных, однако не для всех параметров это оказалось возможным. В принципе, использовались классы и свойства следующих схем:

Dublin Core Terms для представления библиографического описания и структурирования текстов

OAF для представления имен собственных

Для некоторых параметров, в первую очередь стиховедческих, готовых RDF-элементов, кажется, не существует вообще, а для некоторых ― стандартные элементы оказываются недостаточно детализованными. Так, в рамках принятой концептуальной модели, необходимо различать несколько видов имен собственных (например, имена исторических лиц vs имена мифологические). С другой стороны, отношение dcterms:isPartOf, естественным образом используемое нами для репрезентации структуры текста, не позволяет выразить существование особых частей текста, например, эпиграфов. Поэтому нами была разработана собственная RDF-схема, (a) реализующая недостающие элементы и (б) вводящая подклассы и подсвойства для интересующих нас категорий. Нами использовался метаязык RDFS, поскольку использование OWL в нашем случае приводило бы только к увеличению накладных расходов.

После определения модели данных встал вопрос о выборе платформы реализации, которая бы позволяла легко оперировать как SGML, так и RDF. Такая платформа была найдена ― ей оказалась система программирования SWI-Prolog, имеющая как встроенный SGML-парсер (реализующий подмножество полного SGML, достаточное для обработки документов TEI P4), так и развитые средства работы с RDF-тройками.

Благодарности

Работа выполнена при финансовой поддержке РФФИ, грант №–07–00493а.

Список литературы

Андреев и др., 2009 ― Андреев А. В., Бухаркин П. Е., Матвеев Е. М., Пономарева М. В. О разработке новой теоретической модели репрезентации истории литературы (на материале русской литературы XVIII века) // Литературная культура России XVIII века. Вып. 3. СПб, 2009. С. 303–310

Tummarello et al., 2005 ― Tummarello G., Morbidoni C., Pierazzo E. Toward textual encoding based on RDF // Proceedings of the 9th ICCC International Conference on Electronic Publishing. Leuven-Heverlee, 2005. Pp. 57–64.

« Пред.		След. »