El'Manuscript-2015
Research School
Organizational committee
Program Committee
Topic areas
Lecturers of the school
Important Dates
Registration and request
The registration fee
School program
School content
School Information





Lost Password?
No account yet? Register
RSS-feed
rss20.gif

The project is supported by the Russian Foundation for Basic Research, project #07-04-12140в

Портал зарегистрирован 05 августа 2010 г. в Федеральной службе по надзору в сфере связи, информационных технологий и массовых коммуникаций (Роскомнадзор) в качестве средства массовой информации, номер свидетельства ЭЛ № ФС 77 - 41581. Учредитель В. А. Баранов. 

(c) "Information Technologies and Textual Heritage", 2008-2016

ИСТОРИЧЕСКИЙ КОРПУС МАНУСКРИПТ: ОСОБЕННОСТИ ИСТОЧНИКОВ, РАЗМЕТКИ, ЗАПРОСОВ И ДЕМОНСТРАЦИИ ДАННЫХ PDF Print E-mail
Written by: Виктор Аркадьевич Баранов   
Воскресенье, 25 Октябрь 2015
Целью создания и использования текстового корпуса, как известно, является обнаружение речевых и языковых закономерностей, подтверждение, отклонение или уточнение гипотез, выдвинутых в ходе традиционных лингвистических исследований. В этом отношении возможности современного корпуса существенно расширяются при включении в него текстов предшествующих периодов. Создание диахронического или исторического корпуса сопряжено с большим количеством проблем как собственно лингвистического, так и технологического характера: проблема степени точности передачи текстов с ненормализованной графикой и орфографией, проблема унификации лингвистической, текстологической и аналитической разметки текстов разного времени, проблема создания универсальных алгоритмов поиска единиц, имеющих аналогичные, но не идентичные лингвистические значения, и многие другие.

Часть задач решается с помощью международных стандартов и рекомендаций, другая часть выполняется на основе стандартов, средств и возможностей, зависящих от выбранной для реализации корпуса технологической платформы, а также предшествующего опыта, традиций и предпочтений коллектива.

Понятно, что разработка, создание и технологическая, лингвистическая и методическая поддержка – это большая работа по подготовке машиночитаемых копий средневековых письменных памятников и их разметке, по созданию инструментов для обработки, анализа и демонстрации данных, по поиску специальных методов анализа данных такого корпуса.

Впечатляющие успехи в области корпусной лингвистики на основе современного текстового материала, а также понятные многообещающие перспективы использования исторических корпусов для решения фундаментальных и прикладных историко-лингвистических задач настолько очевидны, что, несмотря на все сложности, массив машиночитаемых копий древнейших и средневековых рукописей и текстов в разных странах год от года все более увеличивается.

Проект «Манускрипт». В рамках проекта «Манускрипт» (Ижевский государственный технический университет, Удмуртский государственный университет; портал проекта – «Манускрипт: славянское письменное наследие»; адрес – http://manuscrips.ru) ведутся работы по созданию полнотекстового корпуса средневековых славянских рукописей. Основными направлениями работы являются: (1) создание машиночитаемых копий древнейших и средневековых славянских письменных памятников, (2) разработка инструментов для автоматизированной и автоматической их пред- и постобработки, анализа и публикации в Интернете, (3) апробация методов анализа данных с помощью корпусных и лингвотекстологических методов. Преимущества корпуса по сравнению с электронной библиотекой или печатными изданиями очевидны: возможность нахождения необходимого для анализа текстового материала за сравнительно небольшое количество времени, возможность отбора, группировки и сортировки материала в зависимости от различных характеристик текстов и/или рукописей, а также самих лингвистических данных, возможность количественного анализа больших массивов текстовых фактов и другие. Корпус также предоставляет пользователю инструменты для анализа данных лингвотекстологическим методом, который предполагает лингвистическое сопоставление не только разных списков одного и того же памятника, но и разных частей одного списка или соответствующих друг другу фрагментов различных списков одного текста.

Технологические особенности. Архитектура корпуса, функционирующего на базе информационно-аналитической системы «Манускрипт» (далее – ИАС «Манускрипт»), включает (1) программно-инструментальные средства хранения и администрирования полнотекстовой базы данных, (2) модули ввода, редактирования рукописей и мета-, аналитической и лингвистической разметки текстов, (3) модули доступа к корпусу через Интернет.

Технология подготовки корпуса. Подготовка транскрипции текста непосредственно в базе данных (набор, редактирование, словоделение текста) осуществляется с помощью редактора OldEd (см. рис. 1) (возможна также подготовка транскрипции текста во внешнем редакторе (набор, словоделение) и загрузка текста в базу данных при наличии таблиц конвертирования), аналитическая разметка может быть осуществлена как с помощью редактора, так и с помощью специализированного модуля фрагментирования.

Коллекции корпуса. Корпус разделен на отдельные коллекции, основными из которых являются: коллекция глаголических текстов X-XI веков (несколько изданных печатно и не публиковавшихся ранее рукописей), коллекция славяно-русских рукописей XI века (22 древнерусских списка и отрывка), коллекция славянских Евангелий XI-XIV веков (старославянские и древнерусские списки служебных Евангелий, Евангелие тетр XII в.), коллекция славянских миней XI-XIV веков (служебные минеи на некоторые месяцы года, праздничные минеи, Супрасльская рукопись), коллекция славянских триодей XI-XIV веков (Постные и Цветные триоди), коллекция славянских стихирарей XII-XIV веков (минейные стихирари), коллекция славянских учительных произведений XI-XIV веков (Пандекты черноризца Антиоха, списки Паренесиса Ефрема Сирина, Пар), коллекция русских летописей (Лаврентьевская, Ипатьевская, Радзивиловская, Новгородская летописи) и некоторые другие. Часть коллекций создана на основе транскрипций, предоставленных проекту другими коллективами: лингвистами Казанского (Приволжского) федерального университета (рук. О. Ф. Жолобов), Венского государственного университета (рук. Хайнц Миклас), Софийского государственного университета (рук. † Румяна Павлова), Института русского языка им. В. В. Виноградова (рук. А. А. Пичхадзе).

В ноябре 2011 года на портале открыт корпус М.В.Ломоносова (http://lomonosov.pro), который содержит более 1150 текстов Полного собрания сочинений, включающих более 1 млн. 127 тыс. словоупотреблений.

Пользовательские модули корпуса. Поиск, получение материалов для анализа осуществляется с помощью основных пользовательских модулей системы «Манускрипт»:

– модуль запросов (простой и расширенный поиск), обеспечивающий возможность получения сравнительных формо- и словоуказателей и конкордансов нескольких рукописей, а также просмотр самих текстов (http://manuscripts.ru/mns/srch.simple) (рис. 2);

– модуль параллельных корпусов и электронных критических изданий, позволяющий демонстрировать в Интернете текстологические и лингвистические соответствия списков одного текста; на базе этого модуля создается электронное критическое издание текста майской служебной минеи в Интернете на основе славянских списков XI-XIII вв. и греческого текста (http://manuscripts.ru/mns/cred.cred) (рис. 3), параллельные корпуса славянских Евангелий (http://manuscripts.ru/mns/portal.main?p1=30) и русских летописей (http://manuscripts.ru/mns/portal.main?p1=23);

– модуль статистики, дающий возможность осуществлять количественный анализ графических и лингвистических единиц базы данных «Манускрипт» и выявлять их распределение в пределах рукописей (http://manuscripts.ru/mns/cred.stat) (рис. 4);

– модуль n-грамм, позволяющий построить сортированные по частоте встречаемости перечни сочетаний компонентов одного или нескольких текстов для нахождения устойчивых сочетаний (http://manuscripts.ru/mns/cred_ngr.stat), а также другие модули.

Аннотированный и размеченный исторический корпус системы «Манускрипт», содержащий более 3,5 млн. текстовых форм, позволяет ставить и решать разнообразные историко-лингвистические задачи, а разработанные коллективом полнотекстовая база данных, технологии хранения, обработки и визуализации данных, несомненно, являются необходимым шагом на пути создания многофункциональных исторических корпусов славянских рукописей и старопечатных книг.

   baranov2.png

Рис. 1. Интерфейс редактора Olded

baranov3.png

Рис. 2. Визуализация обратного формоуказателя двух рукописей

baranov4.png 

 Рис. 3. Параллельный корпус майской служебной минеи

baranov5.png

Рис. 4. Распределение и десятеричного в Остромировом (1056-1057 гг.) и Архангельском (1092 г.) Евангелиях (шаг подсчета – 20 стихов).

 

Программа курса

«Исторический корпус Манускрипт: особенности источников, разметки, запросов и демонстрации данных»

(8 часов лекционных занятий и практикумов, сроки: 11-14  2015 г.)

Лекция 1:

1) Исторический и современный корпуса: соответствия, аналогии, различия.

Корпус как цель и инструмент историко-лингвистических исследований. Проблема объема, полноты и сбалансированности. Соотношение транскрипции и оригинала. Объекты аннотирования: рукопись, текст, фрагмент, лингвистическая единица. Особенности разметки единиц корпуса. Требования к запросным формам и формам вывода данных.

2) Общая характеристика исторического корпуса Манускрипт: модель данных, принципы и способы подготовки транскрипции и разметки.

 Модель базы данных информационно-аналитической системы «Манускрипт»: единицы, свойства, значения. Модули администрирования. Инструментарий создания электронных копий документов: ввод, корректура и разметка рукописи, текста, фрагментов и словоформ. Автоматический морфологический анализатор: модель и единицы базы данных, способы снятия вариативности, результаты лемматизации.

Практикум 1: Корпус как инструмент поиска данных и демонстрации данных: простая и расширенные запросные формы.

Доступ к корпусу. Однотекстовые и многотекстовые запросные формы: параметры запроса и формы вывода данных. Простая и расширенная формы запроса. Виды маски искомых лингвистических единиц: точный и неточный поиск, поиск на основе современных соответствий и регулярных выражений. Демонстрация текста, конкордансов и перечней словоформ и лемм.

Практикум 2. Модуль параллельных корпусов, модуль статистики и модуль n-грамм.

Параллельные корпуса на основе средневековых рукописей: подготовка запроса и демонстрация результатов.

Модуль статистики: особенности подкорпуса, параметры запроса, форма вывода данных. Выравнивание списков. Единицы выборки. Режимы демонстрации выборок. Абсолютные и относительные данные. Демонстрация текстовых примеров.

Модуль n-грамм: параметры запроса и особенности вывода результатов. Единицы выборки. Контактное и дистантное расположение компонентов. Знаменательные и служебные слова. Нормализация единиц. Интерпретация выборки.

Литература. Webography 

Баранов, В. А. От оцифрованных коллекций средневековых рукописей к электронным многофункциональным интернет-библиотекам // Современные информационные технологии и письменное наследие: от древних рукописей к электронным текстам : материалы междунар. науч. конф. (Ижевск, 13–17 июля 2006 г.) / отв. ред. В. А. Баранов. – Ижевск : Изд-во ИжГТУ, 2006. – С. 3-9. https://drive.google.com/file/d/0BwBejXXryRcRMzFkODY1MTUtNTBkOS00MWE4LTkzNWQtZWQ4MGUzNWJiZjAy/view?usp=sharing

Баранов В.А. Проект «Манускрипт»: предварительные итоги // Современные информационные технологии и письменное наследие: от древних текстов к электронным библиотекам [Текст] : материалы междунар. науч. конф. (Казань, 26–30 августа 2008 г.) / отв. ред. В. А. Баранов, В. Д. Соловьев. – Казань : Изд-во КГУ, 2008. – С. 32-36. 

http://textualheritage.org/content/view/53/68/lang,russian/

Баранов В. А. Корпус средневековых рукописей на портале "Манускрипт: славянское письменное наследие": стандартные функции и новые возможности // Письменное наследие и современные информационные технологии : Сб. статей лекторов международной научной школы для молодежи (Ижевск, 12-15 октября 2009 г.) / отв. ред. В. А. Баранов. – Ижевск : Удмуртия, 2011. – С. 5–36. 

https://drive.google.com/file/d/0BwBejXXryRcROWQ5ODA4MDMtNDdkNi00MzM0LTg1N2UtZWZkNDZjMDEzMDE3/view?usp=sharing

Баранов В. А. Лингвистические, методические и технологические вопросы создания и использования корпуса средневековых славянских текстов // Русистика: язык, культура, перевод: сб. докладов юбилейной междунар. науч. конф. (София, 23-25 ноября 2011 г.). – София : Изток-Запад, 2012. – С. 404-414. 

https://drive.google.com/file/d/0BwBejXXryRcRU0o4RHQ1Mk1fSDQ/view?usp=sharing
 
< Prev   Next >