© Виктор Павлович
Захаров. Россия. Санкт-Петербург. Кафедра математической
лингвистики филологического факультета Санкт-Петербургского
университета
Язык, как известно, динамичная система;
в исторические периоды разной продолжительности на всех его уровнях (в фонетике
и письме, морфологии и лексике, синтаксисе и семантике) происходят изменения:
частота встречаемости одних элементов, явлений уменьшается, а бывает, что
явления, элементы полностью выходят из употребления, другие же возникают или
становятся более частотными, чем прежде. Изменения обусловлены действием
факторов различной природы – прежде всего психологических, социальных и
культурных. Диахронические исследования языка позволяют выявить факты и
закономерности не только лингвистического, но и историко-культурного значения.
И не случайно в последние годы в рамках культурологии появилось направление
научных исследований, называемое «культурометрия» (синоним «квантитативная
культурология»).
Еще недавно проведение таких
исследований требовало больших усилий и затрат времени. Сегодня компьютерные
технологии и корпусная лингвистика дают для них принципиально новые
инструменты. Для этого создаются диахронические (исторические) корпуса. Можно
сказать, что это корпуса, которые позволяют изучать развитие языка на
протяжении какого-то (достаточно длинного) промежутка времени или изучать язык
в его прежних состояниях. В числе диахронических корпусов можно назвать
Санкт-Петербургский корпус диахронических текстов, Регенсбургский
диахронический корпус русского языка (древнерусские тексты), Коллекцию древнейших
и средневековых славянских и русских текстов "Манускрипт", Рукописные
памятники Древней Руси (берестяные грамоты, летописи, рукописные книги) и др.
Понятие корпус подразумевает также
инструмент для диахронических исследований. С точки зрения функциональности
большой набор лингвистических модулей предлагает система «Манускрипт». В нашем
курсе мы подробно остановимся на двух инструментах, находящихся непосредственно
в рамках корпусной лингвистики и выполняющих статистическую обработку корпусных
данных.
К таким инструментам относятся система
Google Books Ngram Viewer и сервис «Графики» Национального корпуса русского
языка (НКРЯ). База данных Google Books Ngram Viewer также
представлена М. Дэвисом в составе его корпусов на сайте Brigham Young University
Google books Ngram Viewer в настоящее
время содержит несколько корпусов размеченных текстов книг на 9 языках. На
конец 2012 г.
база данных насчитывала более 8 млн книг (текстов), что составляет около 6%
всех когда-либо опубликованных печатных книг. Корпус книг на русском языке
содержит 591 310 текстов общим объемом более 67 млрд. словоупотреблений. Самые поздние публикации, доступные для
пользователей в настоящее время, относятся к 2008 году.
Сервис «Графики» функционально подобен
сервису Google Books N Gramm Viewer.
Оба они показывают хронологическое распределение заданных и найденных
лексических единиц в заданном временном промежутке.
Проблема, имеющая особую важность в
диахронических исследованиях русского языка – это представление русских текстов
в графике и орфографии, действовавшей до 1918 г. включительно. В Google books Ngram
Viewer старая орфрграфия сохраняется. Следует сказать, что и в НКРЯ сейчас
появился исторический подкорпус с оригинальной орфографией объемом более 7 млн
словоупотреблений.
Программа
к курсу
«Исторические
корпуса и корпусные диахронические исследования»
(10
часов лекционных занятий и практикумов, сроки: 14-18 ноября 2015 г.)
Лекция 1:
"Корпусная лингвистика в России"
1. Концепции корпусной лингвистики, место дисциплины и
собственно корпусов в ряду лингвиcтических информационных технологий
2. Исторический экскурс и современное состояние российской
корпусной лингвистики.
3. Обзор корпусов русского языка различных типов.
Лекция 2:
Возможности корпусной лингвистики в проведении диахронических исследований
1. Обзор корпусов и корпусных инструментов, реализующих эти
возможности
2. Вопросы разметки диахронических корпусов.
Семинар:
обсуждение тем лекций 1 и 2
Практические занятия
1) Работа с сервисом "Графики" Национального корпуса русского языка
2) Работа с сервисом Google Books Ngram Viewer
Литература
Захаров В.П., Масевич А.Ц.
Диахронические исследования на основе корпуса русских текстов Google Books
Ngram Viewer. // Структурная и прикладная лингвистика. Выпуск 10. СПб.: Изд-во
С. Петерб. ун-та, 2014. С. 303-327.
Захаров В.П., Богданова С.Ю. Корпусная лингвистика: Учебник для студентов направления
«Лингвистика». 2-е изд., перераб. и дополн., – СПб.: СПбГУ. РИО. Филологический
факультет, 2013. – 148 с.
Захаров В. Corpora of the Russian Language //
Text, Speech and Dialogue: Proceedings of the 16th International Conference,
TSD 2013, Plzen, Czech Republic, September 1–5, 2013. (Lecture Notes in
Artificial Intelligence, 8082) / Ivan Habernal, Václav Matoušek (Eds.). – Springer-Verlag,
Berlin Heidelberg, 2013. – P. 1-13.
Webography
https://spbu.academia.edu/VictorZakharov.
|