El'Manuscript-2015
Школа
Организационный комитет
Programos komitetas
Mokyklos veiklos kryptys ir temos
Mokyklos Lektoriai
Pagrindinės datos
Registracija ir taikymas
Dalyvio mokestis
Программа школы
Mokyklos medžiaga
Organizacinė Infromacija





Lost Password?
No account yet? Register
RSS-ленты новостей
rss20.gif

Portalo kūrimą rėmė Rusijos humanitarinių mokslų fondas, projektas Nr. 07-04-12140в.

Портал зарегистрирован 05 августа 2010 г. в Федеральной службе по надзору в сфере связи, информационных технологий и массовых коммуникаций (Роскомнадзор) в качестве средства массовой информации, номер свидетельства ЭЛ № ФС 77 - 41581. Учредитель В. А. Баранов. 

(c) "Informacinės technologijos ir rašytinis palikimas", 2008-2016

ИСТОРИЧЕСКИЕ КОРПУСА И КОРПУСНЫЕ ДИАХРОНИЧЕСКИЕ ИССЛЕДОВАНИЯ PDF Print E-mail

© Виктор Павлович Захаров. Россия. Санкт-Петербург. Кафедра математической лингвистики филологического факультета Санкт-Петербургского университета 

Язык, как известно, динамичная система; в исторические периоды разной продолжительности на всех его уровнях (в фонетике и письме, морфологии и лексике, синтаксисе и семантике) происходят изменения: частота встречаемости одних элементов, явлений уменьшается, а бывает, что явления, элементы полностью выходят из употребления, другие же возникают или становятся более частотными, чем прежде. Изменения обусловлены действием факторов различной природы – прежде всего психологических, социальных и культурных. Диахронические исследования языка позволяют выявить факты и закономерности не только лингвистического, но и историко-культурного значения. И не случайно в последние годы в рамках культурологии появилось направление научных исследований, называемое «культурометрия» (синоним «квантитативная культурология»). 

Еще недавно проведение таких исследований требовало больших усилий и затрат времени. Сегодня компьютерные технологии и корпусная лингвистика дают для них принципиально новые инструменты. Для этого создаются диахронические (исторические) корпуса. Можно сказать, что это корпуса, которые позволяют изучать развитие языка на протяжении какого-то (достаточно длинного) промежутка времени или изучать язык в его прежних состояниях. В числе диахронических корпусов можно назвать Санкт-Петербургский корпус диахронических текстов, Регенсбургский диахронический корпус русского языка (древнерусские тексты), Коллекцию древнейших и средневековых славянских и русских текстов "Манускрипт", Рукописные памятники Древней Руси (берестяные грамоты, летописи, рукописные книги) и др.

Понятие корпус подразумевает также инструмент для диахронических исследований. С точки зрения функциональности большой набор лингвистических модулей предлагает система «Манускрипт». В нашем курсе мы подробно остановимся на двух инструментах, находящихся непосредственно в рамках корпусной лингвистики и выполняющих статистическую обработку корпусных данных.

К таким инструментам относятся система Google Books Ngram Viewer и сервис «Графики» Национального корпуса русского языка (НКРЯ). База данных Google Books Ngram Viewer также представлена М. Дэвисом в составе его корпусов на сайте Brigham Young University

Google books Ngram Viewer в настоящее время содержит несколько корпусов размеченных текстов книг на 9 языках. На конец 2012 г. база данных насчитывала более 8 млн книг (текстов), что составляет около 6% всех когда-либо опубликованных печатных книг. Корпус книг на русском языке содержит 591 310 текстов общим объемом более 67 млрд. словоупотреблений.  Самые поздние публикации, доступные для пользователей в настоящее время, относятся к 2008 году.

Сервис «Графики» функционально подобен сервису Google Books N Gramm Viewer. Оба они показывают хронологическое распределение заданных и найденных лексических единиц в заданном временном промежутке.

Проблема, имеющая особую важность в диахронических исследованиях русского языка – это представление русских текстов в графике и орфографии, действовавшей до 1918 г. включительно. В Google books Ngram Viewer старая орфрграфия сохраняется. Следует сказать, что и в НКРЯ сейчас появился исторический подкорпус с оригинальной орфографией объемом более 7 млн словоупотреблений.

Программа к курсу

«Исторические корпуса и корпусные диахронические исследования»

(10 часов лекционных занятий и практикумов, сроки: 14-18 ноября 2015 г.)

Лекция 1: "Корпусная лингвистика в России"

1. Концепции корпусной лингвистики, место дисциплины и собственно корпусов в ряду лингвиcтических информационных технологий

2. Исторический экскурс и современное состояние российской корпусной лингвистики.

3. Обзор корпусов русского языка различных типов.

Лекция 2: Возможности корпусной лингвистики в проведении диахронических исследований

1. Обзор корпусов и корпусных инструментов, реализующих эти возможности

2. Вопросы разметки диахронических корпусов.

Семинар: обсуждение тем лекций 1 и 2 

Практические занятия

1) Работа с сервисом "Графики" Национального корпуса русского языка

2) Работа с сервисом Google Books Ngram Viewer

Литература

Захаров В.П., Масевич А.Ц. Диахронические исследования на основе корпуса русских текстов Google Books Ngram Viewer. // Структурная и прикладная лингвистика. Выпуск 10. СПб.: Изд-во С. Петерб. ун-та, 2014. С. 303-327.

Захаров В.П., Богданова С.Ю. Корпусная лингвистика: Учебник для студентов направления «Лингвистика». 2-е изд., перераб. и дополн., – СПб.: СПбГУ. РИО. Филологический факультет, 2013. – 148 с.

Захаров В. Corpora of the Russian Language // Text, Speech and Dialogue: Proceedings of the 16th International Conference, TSD 2013, Plzen, Czech Republic, September 1–5, 2013. (Lecture Notes in Artificial Intelligence, 8082) / Ivan Habernal, Václav Matoušek (Eds.). – Springer-Verlag, Berlin Heidelberg, 2013. – P. 1-13.

Webography

https://spbu.academia.edu/VictorZakharov. 

 
< Prev   Next >