ИСТОРИЧЕСКИЕ КОРПУСА И КОРПУСНЫЕ ДИАХРОНИЧЕСКИЕ ИССЛЕДОВАНИЯ

© Виктор Павлович Захаров. Россия. Санкт-Петербург. Кафедра математической лингвистики филологического факультета Санкт-Петербургского университета 

Язык, как известно, динамичная система; в исторические периоды разной продолжительности на всех его уровнях (в фонетике и письме, морфологии и лексике, синтаксисе и семантике) происходят изменения: частота встречаемости одних элементов, явлений уменьшается, а бывает, что явления, элементы полностью выходят из употребления, другие же возникают или становятся более частотными, чем прежде. Изменения обусловлены действием факторов различной природы – прежде всего психологических, социальных и культурных. Диахронические исследования языка позволяют выявить факты и закономерности не только лингвистического, но и историко-культурного значения. И не случайно в последние годы в рамках культурологии появилось направление научных исследований, называемое «культурометрия» (синоним «квантитативная культурология»). 

Еще недавно проведение таких исследований требовало больших усилий и затрат времени. Сегодня компьютерные технологии и корпусная лингвистика дают для них принципиально новые инструменты. Для этого создаются диахронические (исторические) корпуса. Можно сказать, что это корпуса, которые позволяют изучать развитие языка на протяжении какого-то (достаточно длинного) промежутка времени или изучать язык в его прежних состояниях. В числе диахронических корпусов можно назвать Санкт-Петербургский корпус диахронических текстов, Регенсбургский диахронический корпус русского языка (древнерусские тексты), Коллекцию древнейших и средневековых славянских и русских текстов "Манускрипт", Рукописные памятники Древней Руси (берестяные грамоты, летописи, рукописные книги) и др.

Понятие корпус подразумевает также инструмент для диахронических исследований. С точки зрения функциональности большой набор лингвистических модулей предлагает система «Манускрипт». В нашем курсе мы подробно остановимся на двух инструментах, находящихся непосредственно в рамках корпусной лингвистики и выполняющих статистическую обработку корпусных данных.

К таким инструментам относятся система Google Books Ngram Viewer и сервис «Графики» Национального корпуса русского языка (НКРЯ). База данных Google Books Ngram Viewer также представлена М. Дэвисом в составе его корпусов на сайте Brigham Young University

Google books Ngram Viewer в настоящее время содержит несколько корпусов размеченных текстов книг на 9 языках. На конец 2012 г. база данных насчитывала более 8 млн книг (текстов), что составляет около 6% всех когда-либо опубликованных печатных книг. Корпус книг на русском языке содержит 591 310 текстов общим объемом более 67 млрд. словоупотреблений.  Самые поздние публикации, доступные для пользователей в настоящее время, относятся к 2008 году.

Сервис «Графики» функционально подобен сервису Google Books N Gramm Viewer. Оба они показывают хронологическое распределение заданных и найденных лексических единиц в заданном временном промежутке.

Проблема, имеющая особую важность в диахронических исследованиях русского языка – это представление русских текстов в графике и орфографии, действовавшей до 1918 г. включительно. В Google books Ngram Viewer старая орфрграфия сохраняется. Следует сказать, что и в НКРЯ сейчас появился исторический подкорпус с оригинальной орфографией объемом более 7 млн словоупотреблений.

Программа к курсу

«Исторические корпуса и корпусные диахронические исследования»

(10 часов лекционных занятий и практикумов, сроки: 14-18 ноября 2015 г.)

Лекция 1: "Корпусная лингвистика в России"

1. Концепции корпусной лингвистики, место дисциплины и собственно корпусов в ряду лингвиcтических информационных технологий

2. Исторический экскурс и современное состояние российской корпусной лингвистики.

3. Обзор корпусов русского языка различных типов.

Лекция 2: Возможности корпусной лингвистики в проведении диахронических исследований

1. Обзор корпусов и корпусных инструментов, реализующих эти возможности

2. Вопросы разметки диахронических корпусов.

Семинар: обсуждение тем лекций 1 и 2 

Практические занятия

1) Работа с сервисом "Графики" Национального корпуса русского языка

2) Работа с сервисом Google Books Ngram Viewer

Литература

Захаров В.П., Масевич А.Ц. Диахронические исследования на основе корпуса русских текстов Google Books Ngram Viewer. // Структурная и прикладная лингвистика. Выпуск 10. СПб.: Изд-во С. Петерб. ун-та, 2014. С. 303-327.

Захаров В.П., Богданова С.Ю. Корпусная лингвистика: Учебник для студентов направления «Лингвистика». 2-е изд., перераб. и дополн., – СПб.: СПбГУ. РИО. Филологический факультет, 2013. – 148 с.

Захаров В. Corpora of the Russian Language // Text, Speech and Dialogue: Proceedings of the 16th International Conference, TSD 2013, Plzen, Czech Republic, September 1–5, 2013. (Lecture Notes in Artificial Intelligence, 8082) / Ivan Habernal, Václav Matoušek (Eds.). – Springer-Verlag, Berlin Heidelberg, 2013. – P. 1-13.

Webography

https://spbu.academia.edu/VictorZakharov.