©
Анна Абрамовна Пичхадзе. Россия, Москва. Институт русского
языка им. В. В. Виноградова Российской академии наук (РАН); Отдел лингвистического источниковедения и истории
русского литературного языка
На
предстоящих занятиях будут рассмотрены две взаимосвязанные темы: система
грамматической разметки древнерусских текстов Morphy и представление
древнерусских текстов в Национальном корпусе русского языка (НКРЯ).
1. Система разметки древнерусских текстов Morphy. Будет продемонстрирована система грамматической разметки, разработанная в
Институте русского языка им. В.В.Виноградова РАН с учетом специфики работы с
древнерусскими текстами, т. е. с учетом зачастую плохой сохранности текстов,
неполноты наших знаний о древнерусском языке, принципиальной невозможности в
ряде случаев выбрать однозначную интерпретацию языковых фактов. Система
отличается значительной гибкостью, позволяющей исследователю настраивать её в
соответствии со своими взглядами и потребностями. Основу системы составляют словари лемм – славянских и иноязычных (для переводных текстов). Будут
рассмотрены проблемы лемматизации применительно к древнерусскому языку и
принципы, которыми руководствуются при решении этих проблем в Институте
русского языка. Предполагается проиллюстрировать механизмы лемматизации в
системе Morphy
(автоматическая лемматизация, её ручная корректировка, ручная лемматизация,
возможности получать подсказки с помощью самой системы). Будет показан набор
используемых грамматических помет, включающий как обязательные, так и
факультативные пометы, и способы пополнять набор грамматических помет в
зависимости от нужд исследователя. Необходимой частью разметки является
построение фрагментов, обеспечивающее корректный разбор разного рода сочетаний
словоформ, в том числе аналитических форм и неоднословных соответствий
иноязычному оригиналу. Будет обоснована необходимость альтернативных
грамматических разборов и продемонстрировано, как они производятся в системе Morphy. Система имеет инструменты
автоматического извлечения вспомогательной информации (статистической и проч.),
которые не только служат средством получения данных, но и помогают
контролировать процесс аннотирования. Будет приведен
в действие процесс автоматического построения словоуказателей – славянского и
иноязычного (для переводных текстов). Особое внимание будет уделено созданию
запросов в системе – простых, комбинированных и запросов с исключением – и их
использованию как в ходе разметки памятников, так и для исследовательских
целей.
2.
Древнерусский подкорпус Национального корпуса русского языка (http://ruscorpora.ru/search-old_rus.html).
Для характеристики подкорпуса необходимо дать обзор включенных в
него памятников и представить метаданные, содержащие сведения о памятниках и об
источниках, из которых извлечены размеченные тексты. Чтобы начать работу с
подкорпусом, нужно получить представление об устройстве сводного словаря лемм и
о том, как решается в подкорпусе проблема омонимии. Кроме того, следует
пояснить, как передаются в подкорпусе графические особенности древнерусских
текстов и как ведется поиск в трех режимах орфографии: точном, упрощенном и модернизированном. Необходимо
указать на вариативность грамматических помет в разных памятниках и объяснить
причины её возникновения – как субъективные, так и объективные. Важно также
знать об особенностях представления информации в древнерусском подкорпусе,
отличающих его от других подкорпусов НКРЯ.
«Система разметки древнерусских текстов Morphy и древнерусский
подкорпус Национального корпуса русского языка»
(6 часов лекционных занятий, 19-21
ноября 2015 г.)
Лекция 1. Работа
с древнерусскими текстами в системе Morphy
Грамматическая разметка древнерусских текстов, принятая в
Институте русского языка им. В.В.Виноградова РАН:
- словари лемм, грамматические пометы, альтернативные
разборы, иноязычные соответствия (для переводных текстов), вспомогательная
информация, построение словоуказателей,
- особенности ввода и поиска с учетом специфики
древнерусских текстов.
Лекция 2. Древнерусский подкорпус Национального корпуса русского
языка. Обзор
Состав памятников, входящих в древнерусский подкорпус. Представление
метаданных.
Передача графических особенностей и три режима орфографии.
Сводный словарь и проблема омонимии.
Вариативность грамматических помет в разных памятниках:
субъективные и объективные факторы.
Особенности представления информации в результатах запросов.
Лекция 3. Древнерусский
подкорпус Национального корпуса русского языка.
Построение
морфологических и синтаксических запросовМорфологические запросы: простые и
комбинированные.
Элементы
синтаксической разметки в древнерусском подкорпусе и синтаксические запросы.
Запросы
по нескольким словоформам. Запросы с исключением.
Литература
Кагарлицкий
Ю. В., Пичхадзе А. А., Шаров С. А. Проблемы создания электронного
корпуса переводных памятников древнерусской письменности XI-XII вв. //
Научно-техническая информация. Серия 2. Информационные процессы и системы. М.,
2003. № 10. С. 1-5.
А.
И. Зобнин, А. А. Пичхадзе. Корпус древнерусских переводов XI–XII
веков: результаты и перспективы // Научно-техническая информация.
Информационные процессы и системы. Сер. 2, № 3. 2005. С. 44–47
А.
А. Пичхадзе. Корпус древнерусских переводов XI–XII веков и изучение
переводной письменности Древней Руси // Национальный корпус русского языка:
2003-2005. Результаты и перспективы. М., 2006. С. 251-262.
Т
.А. Архангельский, Е. А. Мишина, А. А. Пичхадзе.
Система электронной грамматической разметки древнерусских и церковнославянских
текстов // Palaeobulgarica
/
Старобългаристика. Т. 38. 2014, № 4. С. 21-37.
|