Lost Password?
No account yet? Register
We have 2 guests online
RSS-feed
rss20.gif

The project is supported by the Russian Foundation for Basic Research, project #07-04-12140в

(c) "Information Technologies and Textual Heritage", 2008-2020

СИСТЕМА РАЗМЕТКИ ДРЕВНЕРУССКИХ ТЕКСТОВ MORPHY И ДРЕВНЕРУССКИЙ ПОДКОРПУС НАЦИОНАЛЬНОГО КОРПУСА РУССКОГО ЯЗЫКА PDF Print E-mail

© Анна Абрамовна Пичхадзе. Россия, Москва. Институт русского языка им. В. В. Виноградова Российской академии наук (РАН); Отдел лингвистического источниковедения и истории русского литературного языка 

На предстоящих занятиях будут рассмотрены две взаимосвязанные темы: система грамматической разметки древнерусских текстов Morphy и представление древнерусских текстов в Национальном корпусе русского языка (НКРЯ).

1. Система разметки древнерусских текстов Morphy. Будет продемонстрирована система грамматической разметки, разработанная в Институте русского языка им. В.В.Виноградова РАН с учетом специфики работы с древнерусскими текстами, т. е. с учетом зачастую плохой сохранности текстов, неполноты наших знаний о древнерусском языке, принципиальной невозможности в ряде случаев выбрать однозначную интерпретацию языковых фактов. Система отличается значительной гибкостью, позволяющей исследователю настраивать её в соответствии со своими взглядами и потребностями. Основу системы составляют словари лемм – славянских и иноязычных (для переводных текстов). Будут рассмотрены проблемы лемматизации применительно к древнерусскому языку и принципы, которыми руководствуются при решении этих проблем в Институте русского языка. Предполагается проиллюстрировать механизмы лемматизации в системе Morphy (автоматическая лемматизация, её ручная корректировка, ручная лемматизация, возможности получать подсказки с помощью самой системы). Будет показан набор используемых грамматических помет, включающий как обязательные, так и факультативные пометы, и способы пополнять набор грамматических помет в зависимости от нужд исследователя. Необходимой частью разметки является построение фрагментов, обеспечивающее корректный разбор разного рода сочетаний словоформ, в том числе аналитических форм и неоднословных соответствий иноязычному оригиналу. Будет обоснована необходимость альтернативных грамматических разборов и продемонстрировано, как они производятся в  системе Morphy. Система имеет инструменты автоматического извлечения вспомогательной информации (статистической и проч.), которые не только служат средством получения данных, но и помогают контролировать процесс аннотирования. Будет приведен в действие процесс автоматического построения словоуказателей – славянского и иноязычного (для переводных текстов). Особое внимание будет уделено созданию запросов в системе – простых, комбинированных и запросов с исключением – и их использованию как в ходе разметки памятников, так и для исследовательских целей.

2. Древнерусский подкорпус Национального корпуса русского языка (http://ruscorpora.ru/search-old_rus.html). Для характеристики  подкорпуса необходимо дать обзор включенных в него памятников и представить метаданные, содержащие сведения о памятниках и об источниках, из которых извлечены размеченные тексты. Чтобы начать работу с подкорпусом, нужно получить представление об устройстве сводного словаря лемм и о том, как решается в подкорпусе проблема омонимии. Кроме того, следует пояснить, как передаются в подкорпусе графические особенности древнерусских текстов и как ведется поиск в трех режимах орфографии: точном, упрощенном и модернизированном. Необходимо указать на вариативность грамматических помет в разных памятниках и объяснить причины её возникновения – как субъективные, так и объективные. Важно также знать об особенностях представления информации в древнерусском подкорпусе, отличающих его от других подкорпусов НКРЯ.

«Система разметки древнерусских текстов Morphy и древнерусский подкорпус Национального корпуса русского языка»

(6 часов лекционных занятий, 19-21 ноября 2015 г.) 

Лекция 1. Работа с древнерусскими текстами в системе Morphy  

Грамматическая разметка древнерусских текстов, принятая в Институте русского языка им. В.В.Виноградова РАН:

- словари лемм, грамматические пометы, альтернативные разборы, иноязычные соответствия (для переводных текстов), вспомогательная информация, построение словоуказателей,

- особенности ввода и поиска с учетом специфики древнерусских текстов.

Лекция 2. Древнерусский подкорпус Национального корпуса русского языка. Обзор

Состав памятников, входящих в древнерусский подкорпус. Представление метаданных.

Передача графических особенностей и три режима орфографии. Сводный словарь и проблема омонимии.

Вариативность грамматических помет в разных памятниках: субъективные и объективные факторы.

Особенности представления информации в результатах запросов.

Лекция 3. Древнерусский подкорпус Национального корпуса русского языка.

Построение морфологических и синтаксических запросовМорфологические запросы: простые и комбинированные.

Элементы синтаксической разметки в древнерусском подкорпусе и синтаксические запросы.

Запросы по нескольким словоформам. Запросы с исключением.

Литература

Кагарлицкий Ю. В., Пичхадзе А. А., Шаров С. А. Проблемы создания электронного корпуса переводных памятников древнерусской письменности XI-XII вв. // Научно-техническая информация. Серия 2. Информационные процессы и системы. М., 2003. № 10. С. 1-5.

А. И. Зобнин, А. А. Пичхадзе. Корпус древнерусских переводов XI–XII веков: результаты и перспективы // Научно-техническая информация. Информационные процессы и системы. Сер. 2, № 3. 2005. С. 44–47

А. А. Пичхадзе. Корпус древнерусских переводов XI–XII веков и изучение переводной письменности Древней Руси // Национальный корпус русского языка: 2003-2005. Результаты и перспективы. М., 2006. С. 251-262.

Т .А. Архангельский, Е. А. Мишина, А. А. Пичхадзе. Система электронной грамматической разметки древнерусских и церковнославянских текстов // Palaeobulgarica / Старобългаристика. Т. 38. 2014, № 4. С. 21-37. 

 
< Prev   Next >