Целью
создания и использования текстового корпуса, как известно, является обнаружение
речевых и языковых закономерностей, подтверждение, отклонение или уточнение
гипотез, выдвинутых в ходе традиционных лингвистических исследований. В этом
отношении возможности современного корпуса существенно расширяются при
включении в него текстов предшествующих периодов. Создание диахронического или
исторического корпуса сопряжено с большим количеством проблем как собственно
лингвистического, так и технологического характера: проблема степени точности
передачи текстов с ненормализованной графикой и орфографией, проблема
унификации лингвистической, текстологической и аналитической разметки текстов
разного времени, проблема создания универсальных алгоритмов поиска единиц,
имеющих аналогичные, но не идентичные лингвистические значения, и многие
другие.
Часть задач решается с помощью
международных стандартов и рекомендаций, другая часть выполняется на основе
стандартов, средств и возможностей, зависящих от выбранной для реализации
корпуса технологической платформы, а также предшествующего опыта, традиций и
предпочтений коллектива.
Понятно, что разработка, создание и
технологическая, лингвистическая и методическая поддержка – это большая работа
по подготовке машиночитаемых копий средневековых письменных памятников и их
разметке, по созданию инструментов для обработки, анализа и демонстрации
данных, по поиску специальных методов анализа данных такого корпуса.
Впечатляющие успехи в области корпусной
лингвистики на основе современного текстового материала, а также понятные
многообещающие перспективы использования исторических корпусов для решения
фундаментальных и прикладных историко-лингвистических задач настолько очевидны,
что, несмотря на все сложности, массив машиночитаемых копий древнейших и
средневековых рукописей и текстов в разных странах год от года все более
увеличивается.
Проект
«Манускрипт». В рамках проекта «Манускрипт» (Ижевский государственный
технический университет, Удмуртский государственный университет; портал проекта
– «Манускрипт: славянское письменное наследие»; адрес – http://manuscrips.ru)
ведутся работы по созданию полнотекстового корпуса средневековых славянских
рукописей. Основными направлениями работы являются: (1) создание
машиночитаемых копий древнейших и средневековых славянских письменных памятников,
(2) разработка инструментов для автоматизированной и автоматической их
пред- и постобработки, анализа и публикации в Интернете, (3) апробация
методов анализа данных с помощью корпусных и лингвотекстологических методов.
Преимущества корпуса по сравнению с электронной библиотекой или печатными
изданиями очевидны: возможность нахождения необходимого для анализа текстового
материала за сравнительно небольшое количество времени, возможность отбора,
группировки и сортировки материала в зависимости от различных характеристик
текстов и/или рукописей, а также самих лингвистических данных, возможность
количественного анализа больших массивов текстовых фактов и другие. Корпус
также предоставляет пользователю инструменты для анализа данных
лингвотекстологическим методом, который предполагает лингвистическое
сопоставление не только разных списков одного и того же памятника, но и разных
частей одного списка или соответствующих друг другу фрагментов различных
списков одного текста.
Технологические
особенности. Архитектура корпуса,
функционирующего на базе информационно-аналитической системы «Манускрипт»
(далее – ИАС «Манускрипт»), включает (1) программно-инструментальные
средства хранения и администрирования полнотекстовой базы данных,
(2) модули ввода, редактирования рукописей и мета-, аналитической и
лингвистической разметки текстов, (3) модули доступа к корпусу через
Интернет.
Технология
подготовки корпуса.
Подготовка транскрипции текста непосредственно в базе данных (набор,
редактирование, словоделение текста) осуществляется с помощью редактора OldEd (см. рис. 1)
(возможна также подготовка транскрипции текста во внешнем редакторе (набор,
словоделение) и загрузка текста в базу данных при наличии таблиц
конвертирования), аналитическая разметка может быть осуществлена как с помощью
редактора, так и с помощью специализированного модуля фрагментирования.
Коллекции корпуса. Корпус разделен на отдельные коллекции, основными из
которых являются: коллекция глаголических текстов X-XI веков (несколько изданных печатно
и не публиковавшихся ранее рукописей), коллекция славяно-русских рукописей XI
века (22 древнерусских списка и отрывка), коллекция славянских Евангелий XI-XIV
веков (старославянские и древнерусские списки служебных Евангелий, Евангелие
тетр XII в.), коллекция славянских миней XI-XIV веков (служебные минеи на
некоторые месяцы года, праздничные минеи, Супрасльская рукопись), коллекция
славянских триодей XI-XIV веков (Постные и Цветные триоди), коллекция
славянских стихирарей XII-XIV веков (минейные стихирари), коллекция славянских
учительных произведений XI-XIV веков (Пандекты черноризца Антиоха, списки
Паренесиса Ефрема Сирина, Пар), коллекция русских летописей (Лаврентьевская,
Ипатьевская, Радзивиловская, Новгородская летописи) и некоторые другие. Часть коллекций создана на основе транскрипций,
предоставленных проекту другими коллективами: лингвистами Казанского
(Приволжского) федерального университета (рук. О. Ф. Жолобов), Венского
государственного университета (рук. Хайнц Миклас), Софийского государственного университета
(рук. † Румяна Павлова), Института русского языка им.
В. В. Виноградова (рук. А. А. Пичхадзе).
В ноябре 2011
года на портале открыт корпус М.В.Ломоносова (http://lomonosov.pro), который
содержит более 1150 текстов Полного собрания сочинений, включающих более 1 млн.
127 тыс. словоупотреблений.
Пользовательские модули корпуса. Поиск, получение материалов для анализа
осуществляется с помощью основных пользовательских модулей системы
«Манускрипт»:
– модуль запросов (простой и расширенный
поиск), обеспечивающий возможность получения сравнительных формо- и
словоуказателей и конкордансов нескольких рукописей, а также просмотр самих
текстов (http://manuscripts.ru/mns/srch.simple) (рис. 2);
– модуль параллельных корпусов и электронных
критических изданий, позволяющий демонстрировать в Интернете текстологические и
лингвистические соответствия списков одного текста; на базе этого модуля
создается электронное критическое издание текста майской служебной минеи в
Интернете на основе славянских списков XI-XIII вв. и греческого текста (http://manuscripts.ru/mns/cred.cred) (рис. 3), параллельные корпуса славянских Евангелий
(http://manuscripts.ru/mns/portal.main?p1=30) и русских летописей
(http://manuscripts.ru/mns/portal.main?p1=23);
– модуль статистики, дающий возможность
осуществлять количественный анализ графических и лингвистических единиц базы
данных «Манускрипт» и выявлять их распределение в пределах рукописей (http://manuscripts.ru/mns/cred.stat) (рис. 4);
–
модуль n-грамм,
позволяющий построить сортированные по частоте встречаемости перечни сочетаний
компонентов одного или нескольких текстов для нахождения устойчивых сочетаний (http://manuscripts.ru/mns/cred_ngr.stat), а также другие модули.
Аннотированный и размеченный
исторический корпус системы «Манускрипт», содержащий более 3,5 млн. текстовых форм, позволяет ставить и
решать разнообразные историко-лингвистические задачи, а разработанные
коллективом полнотекстовая база данных, технологии хранения, обработки и
визуализации данных, несомненно, являются необходимым шагом на пути создания
многофункциональных исторических корпусов славянских рукописей и старопечатных
книг.
Рис. 1. Интерфейс редактора Olded
Рис. 2. Визуализация обратного формоуказателя двух рукописей
Рис. 3. Параллельный корпус майской служебной минеи
Рис. 4. Распределение и десятеричного в
Остромировом (1056-1057 гг.) и Архангельском (1092 г.) Евангелиях (шаг подсчета
– 20 стихов).
Программа
курса
«Исторический корпус Манускрипт: особенности
источников, разметки, запросов и демонстрации данных»
(8 часов лекционных
занятий и практикумов, сроки: 11-14 2015 г.)
Лекция 1:
1) Исторический
и современный корпуса: соответствия, аналогии, различия.
Корпус
как цель и инструмент историко-лингвистических исследований. Проблема объема,
полноты и сбалансированности. Соотношение транскрипции и оригинала. Объекты
аннотирования: рукопись, текст, фрагмент, лингвистическая единица. Особенности
разметки единиц корпуса. Требования к запросным формам и формам вывода данных.
2)
Общая характеристика исторического корпуса Манускрипт: модель данных, принципы
и способы подготовки транскрипции и разметки.
Модель базы данных информационно-аналитической
системы «Манускрипт»: единицы, свойства, значения. Модули администрирования.
Инструментарий создания электронных копий документов: ввод, корректура и
разметка рукописи, текста, фрагментов и словоформ. Автоматический
морфологический анализатор: модель и единицы базы данных, способы снятия
вариативности, результаты лемматизации.
Практикум 1: Корпус как инструмент поиска данных и демонстрации данных:
простая и расширенные запросные формы.
Доступ
к корпусу. Однотекстовые и многотекстовые запросные формы: параметры запроса и
формы вывода данных. Простая и расширенная формы запроса. Виды маски искомых
лингвистических единиц: точный и неточный поиск, поиск на основе современных
соответствий и регулярных выражений. Демонстрация текста, конкордансов и
перечней словоформ и лемм.
Практикум 2. Модуль параллельных корпусов, модуль статистики и модуль n-грамм.
Параллельные
корпуса на основе средневековых рукописей: подготовка
запроса и демонстрация результатов.
Модуль
статистики: особенности подкорпуса, параметры запроса, форма вывода данных.
Выравнивание списков. Единицы выборки. Режимы демонстрации выборок. Абсолютные
и относительные данные. Демонстрация
текстовых примеров.
Модуль
n-грамм: параметры запроса и особенности вывода результатов.
Единицы выборки. Контактное и дистантное расположение компонентов.
Знаменательные и служебные слова. Нормализация единиц. Интерпретация выборки.
Литература. Webography
Баранов, В. А. От оцифрованных коллекций средневековых
рукописей к электронным многофункциональным интернет-библиотекам // Современные информационные
технологии и письменное наследие: от древних рукописей к электронным текстам :
материалы междунар. науч. конф. (Ижевск, 13–17 июля 2006 г.) /
отв. ред. В. А. Баранов. – Ижевск : Изд-во ИжГТУ,
2006. – С. 3-9. https://drive.google.com/file/d/0BwBejXXryRcRMzFkODY1MTUtNTBkOS00MWE4LTkzNWQtZWQ4MGUzNWJiZjAy/view?usp=sharing
Баранов В.А. Проект «Манускрипт»:
предварительные итоги // Современные информационные технологии и
письменное наследие: от древних текстов к электронным библиотекам [Текст] :
материалы междунар. науч. конф. (Казань, 26–30 августа 2008 г.) / отв. ред. В. А. Баранов,
В. Д. Соловьев. – Казань : Изд-во КГУ, 2008. – С. 32-36.
http://textualheritage.org/content/view/53/68/lang,russian/
Баранов В. А. Корпус средневековых рукописей на
портале "Манускрипт: славянское письменное наследие": стандартные
функции и новые возможности // Письменное наследие и современные информационные
технологии : Сб. статей лекторов международной научной школы для молодежи
(Ижевск, 12-15 октября 2009 г.)
/ отв. ред. В. А. Баранов. – Ижевск : Удмуртия, 2011. –
С. 5–36.
https://drive.google.com/file/d/0BwBejXXryRcROWQ5ODA4MDMtNDdkNi00MzM0LTg1N2UtZWZkNDZjMDEzMDE3/view?usp=sharing
Баранов В. А. Лингвистические, методические и
технологические вопросы создания и использования корпуса средневековых
славянских текстов // Русистика: язык, культура, перевод: сб. докладов
юбилейной междунар. науч. конф. (София, 23-25 ноября 2011 г.). – София :
Изток-Запад, 2012. – С. 404-414.
https://drive.google.com/file/d/0BwBejXXryRcRU0o4RHQ1Mk1fSDQ/view?usp=sharing
|