El'Manuscript-2015
Школа
Организационный комитет
Программный комитет
Направления работы школы
Лекторы школы
Основные даты
Регистрация и заявка
Организационный взнос
Программа школы
Материалы школы
Организационная информация





Забыли пароль?
Ещё не зарегистрированы? Регистрация
Сейчас на сайте находятся:
1 гость
RSS-ленты новостей
rss20.gif

Портал был создан при финансовой поддержке Российского гуманитарного научного фонда (РГНФ), проект № 07-04-12140в.

Портал зарегистрирован 05 августа 2010 г. в Федеральной службе по надзору в сфере связи, информационных технологий и массовых коммуникаций (Роскомнадзор) в качестве средства массовой информации, номер свидетельства ЭЛ № ФС 77 - 41581. Учредитель В. А. Баранов.

(c) "Информационные технологии и письменное наследие", 2008-2017

ИСТОРИЧЕСКИЙ КОРПУС МАНУСКРИПТ: ОСОБЕННОСТИ ИСТОЧНИКОВ, РАЗМЕТКИ, ЗАПРОСОВ И ДЕМОНСТРАЦИИ ДАННЫХ PDF Печать E-mail
Автор(ы): Виктор Аркадьевич Баранов   
25.10.2015 г.
Целью создания и использования текстового корпуса, как известно, является обнаружение речевых и языковых закономерностей, подтверждение, отклонение или уточнение гипотез, выдвинутых в ходе традиционных лингвистических исследований. В этом отношении возможности современного корпуса существенно расширяются при включении в него текстов предшествующих периодов. Создание диахронического или исторического корпуса сопряжено с большим количеством проблем как собственно лингвистического, так и технологического характера: проблема степени точности передачи текстов с ненормализованной графикой и орфографией, проблема унификации лингвистической, текстологической и аналитической разметки текстов разного времени, проблема создания универсальных алгоритмов поиска единиц, имеющих аналогичные, но не идентичные лингвистические значения, и многие другие.

Часть задач решается с помощью международных стандартов и рекомендаций, другая часть выполняется на основе стандартов, средств и возможностей, зависящих от выбранной для реализации корпуса технологической платформы, а также предшествующего опыта, традиций и предпочтений коллектива.

Понятно, что разработка, создание и технологическая, лингвистическая и методическая поддержка – это большая работа по подготовке машиночитаемых копий средневековых письменных памятников и их разметке, по созданию инструментов для обработки, анализа и демонстрации данных, по поиску специальных методов анализа данных такого корпуса.

Впечатляющие успехи в области корпусной лингвистики на основе современного текстового материала, а также понятные многообещающие перспективы использования исторических корпусов для решения фундаментальных и прикладных историко-лингвистических задач настолько очевидны, что, несмотря на все сложности, массив машиночитаемых копий древнейших и средневековых рукописей и текстов в разных странах год от года все более увеличивается.

Проект «Манускрипт». В рамках проекта «Манускрипт» (Ижевский государственный технический университет, Удмуртский государственный университет; портал проекта – «Манускрипт: славянское письменное наследие»; адрес – http://manuscrips.ru) ведутся работы по созданию полнотекстового корпуса средневековых славянских рукописей. Основными направлениями работы являются: (1) создание машиночитаемых копий древнейших и средневековых славянских письменных памятников, (2) разработка инструментов для автоматизированной и автоматической их пред- и постобработки, анализа и публикации в Интернете, (3) апробация методов анализа данных с помощью корпусных и лингвотекстологических методов. Преимущества корпуса по сравнению с электронной библиотекой или печатными изданиями очевидны: возможность нахождения необходимого для анализа текстового материала за сравнительно небольшое количество времени, возможность отбора, группировки и сортировки материала в зависимости от различных характеристик текстов и/или рукописей, а также самих лингвистических данных, возможность количественного анализа больших массивов текстовых фактов и другие. Корпус также предоставляет пользователю инструменты для анализа данных лингвотекстологическим методом, который предполагает лингвистическое сопоставление не только разных списков одного и того же памятника, но и разных частей одного списка или соответствующих друг другу фрагментов различных списков одного текста.

Технологические особенности. Архитектура корпуса, функционирующего на базе информационно-аналитической системы «Манускрипт» (далее – ИАС «Манускрипт»), включает (1) программно-инструментальные средства хранения и администрирования полнотекстовой базы данных, (2) модули ввода, редактирования рукописей и мета-, аналитической и лингвистической разметки текстов, (3) модули доступа к корпусу через Интернет.

Технология подготовки корпуса. Подготовка транскрипции текста непосредственно в базе данных (набор, редактирование, словоделение текста) осуществляется с помощью редактора OldEd (см. рис. 1) (возможна также подготовка транскрипции текста во внешнем редакторе (набор, словоделение) и загрузка текста в базу данных при наличии таблиц конвертирования), аналитическая разметка может быть осуществлена как с помощью редактора, так и с помощью специализированного модуля фрагментирования.

Коллекции корпуса. Корпус разделен на отдельные коллекции, основными из которых являются: коллекция глаголических текстов X-XI веков (несколько изданных печатно и не публиковавшихся ранее рукописей), коллекция славяно-русских рукописей XI века (22 древнерусских списка и отрывка), коллекция славянских Евангелий XI-XIV веков (старославянские и древнерусские списки служебных Евангелий, Евангелие тетр XII в.), коллекция славянских миней XI-XIV веков (служебные минеи на некоторые месяцы года, праздничные минеи, Супрасльская рукопись), коллекция славянских триодей XI-XIV веков (Постные и Цветные триоди), коллекция славянских стихирарей XII-XIV веков (минейные стихирари), коллекция славянских учительных произведений XI-XIV веков (Пандекты черноризца Антиоха, списки Паренесиса Ефрема Сирина, Пар), коллекция русских летописей (Лаврентьевская, Ипатьевская, Радзивиловская, Новгородская летописи) и некоторые другие. Часть коллекций создана на основе транскрипций, предоставленных проекту другими коллективами: лингвистами Казанского (Приволжского) федерального университета (рук. О. Ф. Жолобов), Венского государственного университета (рук. Хайнц Миклас), Софийского государственного университета (рук. † Румяна Павлова), Института русского языка им. В. В. Виноградова (рук. А. А. Пичхадзе).

В ноябре 2011 года на портале открыт корпус М.В.Ломоносова (http://lomonosov.pro), который содержит более 1150 текстов Полного собрания сочинений, включающих более 1 млн. 127 тыс. словоупотреблений.

Пользовательские модули корпуса. Поиск, получение материалов для анализа осуществляется с помощью основных пользовательских модулей системы «Манускрипт»:

– модуль запросов (простой и расширенный поиск), обеспечивающий возможность получения сравнительных формо- и словоуказателей и конкордансов нескольких рукописей, а также просмотр самих текстов (http://manuscripts.ru/mns/srch.simple) (рис. 2);

– модуль параллельных корпусов и электронных критических изданий, позволяющий демонстрировать в Интернете текстологические и лингвистические соответствия списков одного текста; на базе этого модуля создается электронное критическое издание текста майской служебной минеи в Интернете на основе славянских списков XI-XIII вв. и греческого текста (http://manuscripts.ru/mns/cred.cred) (рис. 3), параллельные корпуса славянских Евангелий (http://manuscripts.ru/mns/portal.main?p1=30) и русских летописей (http://manuscripts.ru/mns/portal.main?p1=23);

– модуль статистики, дающий возможность осуществлять количественный анализ графических и лингвистических единиц базы данных «Манускрипт» и выявлять их распределение в пределах рукописей (http://manuscripts.ru/mns/cred.stat) (рис. 4);

– модуль n-грамм, позволяющий построить сортированные по частоте встречаемости перечни сочетаний компонентов одного или нескольких текстов для нахождения устойчивых сочетаний (http://manuscripts.ru/mns/cred_ngr.stat), а также другие модули.

Аннотированный и размеченный исторический корпус системы «Манускрипт», содержащий более 3,5 млн. текстовых форм, позволяет ставить и решать разнообразные историко-лингвистические задачи, а разработанные коллективом полнотекстовая база данных, технологии хранения, обработки и визуализации данных, несомненно, являются необходимым шагом на пути создания многофункциональных исторических корпусов славянских рукописей и старопечатных книг.

   baranov2.png

Рис. 1. Интерфейс редактора Olded

baranov3.png

Рис. 2. Визуализация обратного формоуказателя двух рукописей

baranov4.png 

 Рис. 3. Параллельный корпус майской служебной минеи

baranov5.png

Рис. 4. Распределение и десятеричного в Остромировом (1056-1057 гг.) и Архангельском (1092 г.) Евангелиях (шаг подсчета – 20 стихов).

 

Программа курса

«Исторический корпус Манускрипт: особенности источников, разметки, запросов и демонстрации данных»

(8 часов лекционных занятий и практикумов, сроки: 11-14  2015 г.)

Лекция 1:

1) Исторический и современный корпуса: соответствия, аналогии, различия.

Корпус как цель и инструмент историко-лингвистических исследований. Проблема объема, полноты и сбалансированности. Соотношение транскрипции и оригинала. Объекты аннотирования: рукопись, текст, фрагмент, лингвистическая единица. Особенности разметки единиц корпуса. Требования к запросным формам и формам вывода данных.

2) Общая характеристика исторического корпуса Манускрипт: модель данных, принципы и способы подготовки транскрипции и разметки.

 Модель базы данных информационно-аналитической системы «Манускрипт»: единицы, свойства, значения. Модули администрирования. Инструментарий создания электронных копий документов: ввод, корректура и разметка рукописи, текста, фрагментов и словоформ. Автоматический морфологический анализатор: модель и единицы базы данных, способы снятия вариативности, результаты лемматизации.

Практикум 1: Корпус как инструмент поиска данных и демонстрации данных: простая и расширенные запросные формы.

Доступ к корпусу. Однотекстовые и многотекстовые запросные формы: параметры запроса и формы вывода данных. Простая и расширенная формы запроса. Виды маски искомых лингвистических единиц: точный и неточный поиск, поиск на основе современных соответствий и регулярных выражений. Демонстрация текста, конкордансов и перечней словоформ и лемм.

Практикум 2. Модуль параллельных корпусов, модуль статистики и модуль n-грамм.

Параллельные корпуса на основе средневековых рукописей: подготовка запроса и демонстрация результатов.

Модуль статистики: особенности подкорпуса, параметры запроса, форма вывода данных. Выравнивание списков. Единицы выборки. Режимы демонстрации выборок. Абсолютные и относительные данные. Демонстрация текстовых примеров.

Модуль n-грамм: параметры запроса и особенности вывода результатов. Единицы выборки. Контактное и дистантное расположение компонентов. Знаменательные и служебные слова. Нормализация единиц. Интерпретация выборки.

Литература. Webography 

Баранов, В. А. От оцифрованных коллекций средневековых рукописей к электронным многофункциональным интернет-библиотекам // Современные информационные технологии и письменное наследие: от древних рукописей к электронным текстам : материалы междунар. науч. конф. (Ижевск, 13–17 июля 2006 г.) / отв. ред. В. А. Баранов. – Ижевск : Изд-во ИжГТУ, 2006. – С. 3-9. https://drive.google.com/file/d/0BwBejXXryRcRMzFkODY1MTUtNTBkOS00MWE4LTkzNWQtZWQ4MGUzNWJiZjAy/view?usp=sharing

Баранов В.А. Проект «Манускрипт»: предварительные итоги // Современные информационные технологии и письменное наследие: от древних текстов к электронным библиотекам [Текст] : материалы междунар. науч. конф. (Казань, 26–30 августа 2008 г.) / отв. ред. В. А. Баранов, В. Д. Соловьев. – Казань : Изд-во КГУ, 2008. – С. 32-36. 

http://textualheritage.org/content/view/53/68/lang,russian/

Баранов В. А. Корпус средневековых рукописей на портале "Манускрипт: славянское письменное наследие": стандартные функции и новые возможности // Письменное наследие и современные информационные технологии : Сб. статей лекторов международной научной школы для молодежи (Ижевск, 12-15 октября 2009 г.) / отв. ред. В. А. Баранов. – Ижевск : Удмуртия, 2011. – С. 5–36. 

https://drive.google.com/file/d/0BwBejXXryRcROWQ5ODA4MDMtNDdkNi00MzM0LTg1N2UtZWZkNDZjMDEzMDE3/view?usp=sharing

Баранов В. А. Лингвистические, методические и технологические вопросы создания и использования корпуса средневековых славянских текстов // Русистика: язык, культура, перевод: сб. докладов юбилейной междунар. науч. конф. (София, 23-25 ноября 2011 г.). – София : Изток-Запад, 2012. – С. 404-414. 

https://drive.google.com/file/d/0BwBejXXryRcRU0o4RHQ1Mk1fSDQ/view?usp=sharing
 
« Пред.   След. »