El'Manuscript-2015
Школа
Организационный комитет
Programos komitetas
Mokyklos veiklos kryptys ir temos
Mokyklos Lektoriai
Pagrindinės datos
Registracija ir taikymas
Dalyvio mokestis
Программа школы
Mokyklos medžiaga
Organizacinė Infromacija





Lost Password?
No account yet? Register
RSS-ленты новостей
rss20.gif

Portalo kūrimą rėmė Rusijos humanitarinių mokslų fondas, projektas Nr. 07-04-12140в.

Портал зарегистрирован 05 августа 2010 г. в Федеральной службе по надзору в сфере связи, информационных технологий и массовых коммуникаций (Роскомнадзор) в качестве средства массовой информации, номер свидетельства ЭЛ № ФС 77 - 41581. Учредитель В. А. Баранов. 

(c) "Informacinės technologijos ir rašytinis palikimas", 2008-2016

СИСТЕМА РАЗМЕТКИ ДРЕВНЕРУССКИХ ТЕКСТОВ MORPHY И ДРЕВНЕРУССКИЙ ПОДКОРПУС НАЦИОНАЛЬНОГО КОРПУСА РУССКОГО ЯЗЫКА PDF Print E-mail

© Анна Абрамовна Пичхадзе. Россия, Москва. Институт русского языка им. В. В. Виноградова Российской академии наук (РАН); Отдел лингвистического источниковедения и истории русского литературного языка 

На предстоящих занятиях будут рассмотрены две взаимосвязанные темы: система грамматической разметки древнерусских текстов Morphy и представление древнерусских текстов в Национальном корпусе русского языка (НКРЯ).

1. Система разметки древнерусских текстов Morphy. Будет продемонстрирована система грамматической разметки, разработанная в Институте русского языка им. В.В.Виноградова РАН с учетом специфики работы с древнерусскими текстами, т. е. с учетом зачастую плохой сохранности текстов, неполноты наших знаний о древнерусском языке, принципиальной невозможности в ряде случаев выбрать однозначную интерпретацию языковых фактов. Система отличается значительной гибкостью, позволяющей исследователю настраивать её в соответствии со своими взглядами и потребностями. Основу системы составляют словари лемм – славянских и иноязычных (для переводных текстов). Будут рассмотрены проблемы лемматизации применительно к древнерусскому языку и принципы, которыми руководствуются при решении этих проблем в Институте русского языка. Предполагается проиллюстрировать механизмы лемматизации в системе Morphy (автоматическая лемматизация, её ручная корректировка, ручная лемматизация, возможности получать подсказки с помощью самой системы). Будет показан набор используемых грамматических помет, включающий как обязательные, так и факультативные пометы, и способы пополнять набор грамматических помет в зависимости от нужд исследователя. Необходимой частью разметки является построение фрагментов, обеспечивающее корректный разбор разного рода сочетаний словоформ, в том числе аналитических форм и неоднословных соответствий иноязычному оригиналу. Будет обоснована необходимость альтернативных грамматических разборов и продемонстрировано, как они производятся в  системе Morphy. Система имеет инструменты автоматического извлечения вспомогательной информации (статистической и проч.), которые не только служат средством получения данных, но и помогают контролировать процесс аннотирования. Будет приведен в действие процесс автоматического построения словоуказателей – славянского и иноязычного (для переводных текстов). Особое внимание будет уделено созданию запросов в системе – простых, комбинированных и запросов с исключением – и их использованию как в ходе разметки памятников, так и для исследовательских целей.

2. Древнерусский подкорпус Национального корпуса русского языка (http://ruscorpora.ru/search-old_rus.html). Для характеристики  подкорпуса необходимо дать обзор включенных в него памятников и представить метаданные, содержащие сведения о памятниках и об источниках, из которых извлечены размеченные тексты. Чтобы начать работу с подкорпусом, нужно получить представление об устройстве сводного словаря лемм и о том, как решается в подкорпусе проблема омонимии. Кроме того, следует пояснить, как передаются в подкорпусе графические особенности древнерусских текстов и как ведется поиск в трех режимах орфографии: точном, упрощенном и модернизированном. Необходимо указать на вариативность грамматических помет в разных памятниках и объяснить причины её возникновения – как субъективные, так и объективные. Важно также знать об особенностях представления информации в древнерусском подкорпусе, отличающих его от других подкорпусов НКРЯ.

«Система разметки древнерусских текстов Morphy и древнерусский подкорпус Национального корпуса русского языка»

(6 часов лекционных занятий, 19-21 ноября 2015 г.) 

Лекция 1. Работа с древнерусскими текстами в системе Morphy  

Грамматическая разметка древнерусских текстов, принятая в Институте русского языка им. В.В.Виноградова РАН:

- словари лемм, грамматические пометы, альтернативные разборы, иноязычные соответствия (для переводных текстов), вспомогательная информация, построение словоуказателей,

- особенности ввода и поиска с учетом специфики древнерусских текстов.

Лекция 2. Древнерусский подкорпус Национального корпуса русского языка. Обзор

Состав памятников, входящих в древнерусский подкорпус. Представление метаданных.

Передача графических особенностей и три режима орфографии. Сводный словарь и проблема омонимии.

Вариативность грамматических помет в разных памятниках: субъективные и объективные факторы.

Особенности представления информации в результатах запросов.

Лекция 3. Древнерусский подкорпус Национального корпуса русского языка.

Построение морфологических и синтаксических запросовМорфологические запросы: простые и комбинированные.

Элементы синтаксической разметки в древнерусском подкорпусе и синтаксические запросы.

Запросы по нескольким словоформам. Запросы с исключением.

Литература

Кагарлицкий Ю. В., Пичхадзе А. А., Шаров С. А. Проблемы создания электронного корпуса переводных памятников древнерусской письменности XI-XII вв. // Научно-техническая информация. Серия 2. Информационные процессы и системы. М., 2003. № 10. С. 1-5.

А. И. Зобнин, А. А. Пичхадзе. Корпус древнерусских переводов XI–XII веков: результаты и перспективы // Научно-техническая информация. Информационные процессы и системы. Сер. 2, № 3. 2005. С. 44–47

А. А. Пичхадзе. Корпус древнерусских переводов XI–XII веков и изучение переводной письменности Древней Руси // Национальный корпус русского языка: 2003-2005. Результаты и перспективы. М., 2006. С. 251-262.

Т .А. Архангельский, Е. А. Мишина, А. А. Пичхадзе. Система электронной грамматической разметки древнерусских и церковнославянских текстов // Palaeobulgarica / Старобългаристика. Т. 38. 2014, № 4. С. 21-37. 

 
< Prev   Next >