Забыли пароль?
Ещё не зарегистрированы? Регистрация
Сейчас на сайте находятся:
2 гостей
RSS-ленты новостей
rss20.gif

Портал был создан при финансовой поддержке Российского гуманитарного научного фонда (РГНФ), проект № 07-04-12140в.

(c) "Информационные технологии и письменное наследие", 2008-2020

КОРПУС ЦЕРКОВНОСЛАВЯНСКИХ ТЕКСТОВ В СОСТАВЕ НКРЯ, ПЕРВАЯ ВЕРСИЯ: ПРОБЛЕМЫ И РЕШЕНИЯ PDF Печать E-mail
Автор(ы): Алексей Евгеньевич Поляков, Екатерина Роландовна Добрушина, Татьяна Юрьевна Иванова-Алленова   
27.08.2012 г.
Summary. The paper discusses the issues of spelling, grammatical tagging and metatext markup for a pilot version of the Church Slavonic Corpus (started in 2011) and the prospects of its development.

1. Корпус церковнославянских текстов[1]. За 2011 год группой исследователей[2] создан и размещен в Интернете (пока идет отладка ― на адресе http://ruscorpora.ru/beta/search-orthlib.html) пилотный вариант представительного по объему корпуса специальным образом подготовленных церковнославянских текстов. Тексты снабжены специальной разметкой (метатекстовой и грамматической), их общий объем ― 1250 текстов, около 4,6 миллиона словоупотреблений, включающих около 150 тыс. различных словоформ. Данный корпус является новой частью проекта "Национальный корпус русского языка" (http://ruscorpora.ru/).

2. Тексты корпуса и метатекстовая разметка. Основу корпуса церковнославянских текстов в составе НКРЯ составляют современные богослужебные тексты (XIX–XX вв.) (60%). Кроме того, в корпусе представлены другие периоды (XVII–XVIII вв.) и жанры церковнославянских текстов: писание, святоотеческие, правовые, научные, и др.

Жанрово-тематическая классификация текстов, на основе которой пользователь может создать пользовательского подкорпус, адресована, в первую очередь, массовому пользователю, а не узкому специалисту, и строится исходя из принципов практического удобства и понятности. Метатекстовая разметка, основная концепция которой разработана А.Г. Кравецким, в настоящее время проводится только на уровне целого текста и состоит из следующих параметров (перечисляются корпусные «ярлыки»):

-                          «Писание» ― это Библия, Служебное евангелие и подборки паримий в богослужебных книгах, если они выделены в отдельную рубрику;

-                          «святоотеческий»;

-                          «типикон»;

-                          «служба» ― это все богослужебные чины и службы, а также подборки богослужебных текстов (богородичны, кондаки и т. д.) в составе разных сборников;

-                          «акафист»;

-                          «право» ― это тексты по церковному праву, например, «Книга Правил святых апостолов, святых соборов, вселенских и поместных, и святых отцов»;

-                          «научный» ― например «Ифика Иерополитика».

В будущем предполагается создать метаразметку на уровне отдельных фрагментов текста (например, кондаки, тропари), которые входят в состав больших текстов.

Также доступен отбор текстов по периоду создания, точнее, по следующим параметрам:

-                          «архаичный тип» ― например, «Добротолюбие»;

-                          «гибридный тип» ― например, «Алфавит Духовный»;

-                          «стандартный тип» ― это все тексты основных богослужебных книг, за исключением текстов XX века;

-                          «XX век» ― это, в первую очередь, акафисты, например «Всем святым, в земле Российской просиявшим».

К сожалению, нет поиска по конкретной дате создания или издания текста, так как определение таких дат для многих текстов требует кропотливой работы, а иногда и вовсе не представляется возможным, более того, для тех текстов, где даты ясны, невозможно определить, в какой момент ― в момент создания или в момент издания ― производилась последняя языковая правка.

3. Кодировка текста ― проблемы орфографии. В процессе подготовки были выработаны принципы и правила представления церковнославянских текстов в корпусе, а также решены практические проблемы, касающиеся разметки и кодировки текста. Каноническая церковнославянская орфография, ориентированная на типографское представление текста, включает много символов, которые фактически не несут смыслоразличительной функции. Для представления корпуса в интернете была выработана более простая орфографическая система, которая сохраняет существенные языковые различия, но не пытается имитировать точный типографский вид текста. В этой орфографии отсутствуют некоторые символы с малой или нулевой различительной способностью ― придыхания, различие оу/у, іа/я, ― однако сохраняются особенности, связанные с различением лексического значения о/омега, и/і/v, ф/фита, з/ѕ. Кроме того, были выработаны правила перевода текста из этой орфографической системы в современный вид для удобства поиска.

Словоформы в корпусе представлены так же, как в исходном тексте, а леммы даются в унифицированном написании, в котором не используются избыточные буквы, а титла раскрыты (например, слово млсть рассматривается как форма к лемме милость).

4. Грамматическое описание. Грамматическое описание церковнославянского словоизменения необходимо для работы лексико-грамматического поиска, а в перспективе и для создания автоматического морфологического анализатора церковнославянского языка.

Существующие грамматики и словари описывают некоторую идеальную картину, которая отражает нормализаторские устремления авторов, но часто не соответствует фактическому состоянию языка. Реально в церковнославянских текстах наблюдается множество орфографических и словоизменительных вариантов, обусловленных тем, что тексты создавались в разное время и в разной языковой среде. Поэтому, если исходить из изучения грамматик и словарей, часто нельзя понять, какие формы имеет некоторое слово. В таких случаях единственным достоверным источником является корпус.

Например, считается, что для отличия мн. и дв. числа от омонимичных форм ед. числа используется облеченное ударение (^) и замена о→w, е→є. Спрашивается, как будет им. мн. от высотавысоты^, высwты’ или высwты^ ? Оказывается, в корпусе встречаются все три формы, причем первая 9 раз, вторая ― 17, третья ― 1. Из анализа других аналогичных случаев мы можем сделать вывод, что при конкуренции правил замена о→w предпочтительнее, чем облеченное ударение.

К настоящему моменту была проделана значительная работа, результатом которой явилась пилотная версия грамматического словаря. Было проанализировано около 150 тыс. словоформ, большинству из них была приписана основная грамматическая информация: лемма, часть речи, грамматические признаки. Вначале была сделана ручная лемматизация для ряда словоформ, а затем на основе построенной модели словоизменения были проанализированы остальные словоформы. Часть словоформ была квалифицирована как ошибки (опечатки). Для некоторых редких форм лемму определить не удалось или она была определена гипотетически. Поиск по переменным характеристикам, таким как падеж или род (для прилагательного), работает, но без снятия грамматической омонимии.

Грамматические таблицы, на которые опирается автоматический анализатор, строятся на основе анализа корпуса текстов и существующих грамматик. Поскольку грамматики дают неполную и противоречивую картину словоизменения, то только корпус является окончательным критерием истины.

В отличие от традиционных грамматик, парадигмы не были заданы априорно, а выведены эмпирически на основе анализа множества словоформ, имеющих однотипное соотношение между грамматическими формами. Таким образом, номенклатура парадигм получается значительно более детальной, чем традиционная, и подчас существенно от таковой отличается. Например, традиционное первое склонение (рабъ) на самом деле распадается на 14 подтипов в зависимости от конечного согласного (парный твердый –мягкий, велярный, шипящий, йот), наличия беглого гласного и других особенностей (іерей – іереа,іереомъ, агарянинъ – агаряне).

5. Перспективы церковнославянского корпуса. Чтобы корпус мог в полной мере удовлетворять потребностям современной науки и образования в области исследования и преподавания церковнославянского языка, требуется значительная доработка и развитие. Хотелось бы в будущем сделать следующее:

-                          Снабдить корпус справочными материалами об особенностях корпуса и составе текстов, облегчающими пользователям работу с корпусом.

-                          Снабдить корпус кратким словарем, поясняющим термины, использованные в разметке текстов.

-                          Выверить грамматические характеристики словоформ, приписанные компьютерными методами, и устранить ошибки.

-                          Приписать леммы и грамматические характеристики словоформам, оставшимся неразобранными в результате программного анализа.

-                          Произвести путем анализа необработанных слов и их значений в текстах поиск ошибок, возникших при наборе текстов, и выправить эти ошибки.

-                          Проанализировать значение лемм, определенных разметчиками как имена нарицательные, и приписать тем из них, перевод которых на русский язык не ясен без привлечения специальных знаний, краткое толкование, доступное пользователю вместе с грамматической характеристикой при нажатии на выбранное слово на странице результатов поиска.

-                          Проанализировать значение лемм, определенных разметчиками как имена собственные, подтвердить или отвергнуть это решение и определить для каждого имени собственного лексико-семантический класс: имя, топоним и др. Такая работа позволит расширить представления о лексическом составе церковнославянского языка и употребляющихся в нем имен собственных, даст возможность ликвидировать ошибки массовой разметки, а также даст возможность пользователям легче понимать содержание полученного текста.

-                          Снабдить корпус списком основных лемм и создать для пользователя возможность переходить к поиску интересующей его леммы непосредственно из алфавитного списка, что во многом решит проблемы, связанные с вариативностью орфографии и наличием в запросах букв, требующих специальных шрифтов или использования виртуальной клавиатуры.


[1] Авторы выражают благодарность за помощь в создании церковнославянского корпуса РГНФ (проект 12-04-12045 «Электронная справочно-информационная система «Грамматический частотный словарь церковнославянского языка»») и Программе фундаментальных исследований Президиума РАН «Корпусная лингвистика». Также авторы благодарят за существенную помощь компанию Яндекс, в компьютерном пространстве которой существует весь Национальный корпус русского языка.

[2] Помимо авторов данных тезисов в создании церковнославянского корпуса на разных этапах его разработки в качестве создателей концепции, разработчиков и исполнителей технических задач, а также консультантов и вдохновителей работы принимали участие В.А.Плунгян, А.Г.Кравецкий, А.И.Зобнин, А.В.Жирова, А.А.Плетнева, Л.И.Маршева, свящ. Ф.Б.Людоговский, Р.Н.Кривко, И.В.Сегалович, свящ. К.О.Польсков.

 
« Пред.   След. »