Lost Password?
No account yet? Register
We have 2 guests online
RSS-feed
rss20.gif

The project is supported by the Russian Foundation for Basic Research, project #07-04-12140в

(c) "Information Technologies and Textual Heritage", 2008-2020

Морфо-синтаксическая разметка текстов корпуса СКАТ PDF Print E-mail
Written by: Ирина Владимировна Азарова, Елена Леонидовна Алексеева   
Понедельник, 27 Август 2012

Summary. SCAT, a digital corpus of Old Russian hagiographic texts, maintained by the Department of Mathematical Linguistics of Saint-Petersburg State University, contains texts published in PDF and XML formats. Work is under way to provide all texts with morphosyntactic tagging as recommended by TEI guidelines (P5).

icon Морфо-синтаксическая разметка...(pdf) (415.66 kB) 

На кафедре математической лингвистики Санкт-Петербургского государственного университета создан и постоянно пополняется корпус агиографических текстов (СКАТ)[1], в котором представлены тексты древнерусских житий по рукописям XVI–XVIII вв.

Тексты, представленные в корпусе, прошли через трудоемкую процедуру подготовки: предварительного анализа ее графемного состава, деления текста на слова, предполагающего морфо-синтаксический и семантический анализ текста, представления текста рукописи в электронной форме. Все эти этапы вызывают значительное количество проблем, которые решает исследовательский коллектив СКАТ. Результат анализа текста рукописи мы представляем в публикации, которая содержит текст рукописи с подстрочными примечаниями, комментирующими неясные места (они приводятся в тексте в оригинальном виде), что позволяет читателю понять смысл текста. На сайте СКАТ затем публикуются рукописи в виде pdf-файлов, они доступны для общего пользования. Кроме того, тексты рукописей представлены в xml-формате, который позволяет преобразовать их в другой формат, используемый сторонними пользователями.

Базовые xml-файлы включают воспроизведение графемного состава рукописи на том уровне, который коллектив СКАТ счел информативным [Алексеева, 2009]. Все выделенные слова рукописи снабжены числовыми идентификаторами, что позволяет однозначно определить вхождение слова в определенный текст. Помимо полного графемного представления xml-файл содержит представление слова в упрощенной графике, которое используется при поиске в словоуказателе по корпусу [Азарова и Алексеева, 2008].

С 2006 г. тексты рукописей СКАТ сопровождаются наборами морфологических характеристик. Для каждой словоформы текста указывается ее частеречная принадлежность и приводятся значения всех релевантных грамматических категорий. В формате грамматической разметки предусмотрена возможность отражения переходных явлений: через косую черту приводятся ожидаемое значение соответствующей категории (тип склонения, падеж и т.п.) и реально встретившееся в тексте. Например, тип склонения о/u для существительного доуховъ обозначает, что оно относится к типу склонения на *‑ŏ, но имеет окончание типа склонения на *‑ŭ.

В соответствии с рекомендациями TEI разработан и опробован шаблон представления морфологической аннотации слова в формате XML: используется атрибут ana, в котором указываются ссылки на идентификаторы соответствующих грамматических свойств из библиотеки свойств (например, ana="#noun #sing #feminine #genitive …").

Наличие морфологической разметки текстов корпуса позволяет расширить возможности поиска по корпусу: в качестве поискового запроса пользователь будет иметь теперь возможность задать любое сочетание признаков слова, имеющихся в системе.

Морфологическая разметка текстов проводится вручную, в рамках лингвистической практики студентов, и затем выверяется квалифицированным специалистом коллектива СКАТ. Мы исходим из того, что использование автоматической разметки при наличии неустойчивой орфографии и поэтому высокой вариативности написания слов не будет давать сколько-нибудь надежных результатов аннотации. Таким образом, морфологическая разметка текстов является однозначной.

С 2010 г. мы приступили к разработке формата представления в корпусе синтаксической информации, причем за основу нами был взят перечень синтаксических отношений, используемый в Национальном корпусе русского языка, (который, в свою очередь, был выработан в Лаборатории компьютерной лингвистики Института проблем передачи информации РАН). Анализ особенностей старославянского и древнерусского синтаксиса позволил ввести соответствующие коррективы: часть отношений была устранена, а целый ряд отношений был добавлен.

 

Список литературы

Азарова и Алексеева, 2008 ― Азарова И. В., Алексеева Е. Л. Санкт-Петербургский корпус агиографических текстов (СКАТ): формат XML-представления лингвистической информации и организация поиска данных на сайте // Современные информационные технологии и письменное наследие: от древних текстов к электронным библиотекам: Материалы международной научной конференции. Казань, 2008. С. 3–6.

Алексеева, 2009 ― Алексеева Е.Л. Состав графем древнерусских агиографических текстов // Стандардизација старословенског ћириличког писма и његова регистрација у Уникоду. Зборник радова са међународног научног скупа одржаног од 15. до 17. октобра 2007. године. Београд, 2009. С. 39–48.

 
< Prev   Next >