Модуль статистики информационно-аналитической системы "Манускрипт": функции и демонстрация данных

Summary. The statistics module is intended for the analysis of a corpus of medieval Slavic manuscripts on the manuscripts.ru portal using frequency and distribution of graphic and orthographic facts and of linguistic units in the transcriptions. The prototype can prepare a multi-parameter query, compare multiple copies from a parallel corpus, and find and display data in a text.

1. В [Баранов, 2012] впервые было рассказано о создании в рамках информационно-аналитической системы «Манускрипт» (портал проекта http://manuscripts.ru) прототипа второго варианта модуля статистики, предназначенного для анализа рукописей с точки зрения встречаемости и распределения в них лингвистических единиц ― частей словоформ, отдельных словоформ и их сочетаний, а также отдельных символов (http://manuscripts.
ru/mns/cred.stat/). Особое внимание в публикации было обращено на возможность подготовки гибкого запроса на основе нескольких параметров и на использование модуля для анализа параллельных корпусов, содержащих списки одного текста.

Необходимость создания подобного инструмента для корпуса, содержащего средневековые письменные памятники, понятна: значительная формальная вариативность лингвистических единиц, наличие взаимозаменяемых средств выражения морфологического, словообразовательного, лексического значения, их различная частотность в рукописях заставляют исследователей ставить и решать задачи выявления факторов, влияющих как на активность использования альтернативных лингвистических единиц в различных памятниках, так и на их распределение в пределах одного памятника. Одним из эффективных путей решения подобного рода задач является использование метода лингвотекстологии, который понимается нами как способ поиска лингвистических (как текстовых, так и системно-языковых) закономерностей на основе учета характеристик рукописей и их текстологически значимых частей[1]. Из работ последнего времени, выполненных в рамках этого метода, назовем анализ А.А.Гиппиусом форм рѣхъ, рѣша vs. рекохъ, рекоша в Повести временных лет [Гиппиус, 2001] и создание Д.А.Добровольским и С.М.Михеевым компьютерной программы выявления словоформ, «распределение которых оказывается тождественным или сходным» в пределах некоторых фрагментов текста [Добровольский и Михеев, 2010: 79].

2. Созданный статистический модуль системы «Манускрипт» позволяет выбрать один или несколько документов корпуса, ввести образец анализируемой словоформы, используя маски % (любое количество знаков) и _ (один любой знак), или отдельный символ, указать шаг подсчета и длину шага. В качестве единицы шага используются знаки, словоформы, страницы, листы, фрагменты, на которые размечен документ (например, стихи Евангелий, погодные записи летописей и др.). При необходимости могут быть применены дополнительные параметры запроса: поиск по точному или неточному совпадению с образцом словоформы и поиск с учетом морфологических значений текстовых прецедентов. Эти параметры запросной формы обеспечены имеющимися в системе «Манускрипт» процедурами а) построения условных форм (устраняется диакритика, лигатуры и др.), б) снятия графико-орфографической вариативности (см. правила устранения вариативности на http://manuscripts.ru/mns/slov.list_preobr) и в) автоматического присвоения текстовым прецедентам морфологических значений (выполняется с помощью лемматизатора системы «Манускрипт», http://manuscripts.ru/
apex/f?p=104:1). Запросная форма позволяет также задать несколько словоформ, указав расстояние между ними в контексте.

Результатом выполнения запроса является график пошагового абсолютного или относительного количества искомой единицы в пределах одного или нескольких документов.

Предусмотренные возможности изменять параметры запроса призваны обеспечить сопоставимость данных текстов, содержащихся в различных по количеству листов и исполнению рукописях: между объемами текстов и объемами рукописей нет прямой корреляции вследствие разного размера листов, количества строк, величины почерка и других причин. Поэтому запрос по нескольким текстам одного объема с шагом в листах может дать не совпадающие по длине графики, что затрудняет сопоставление участков, расположенных на одном расстоянии от начала рукописи. Для устранения этого неудобства предусмотрена возможность указания шага в словоформах или знаках.

Одним из наиболее показательных режимов работы модуля является сравнение между собой рукописей, содержащих одни и те же тексты (например, Евангелия или Повесть временных лет), выровненные по фрагментам (стихам или погодным записям). Наложенные друг на друга графики позволяют искать соответствующие друг другу диапазоны текстов с одинаковой или близкой частотой использования некоторой единицы и части, которыми списки существенно различаются между собой при использовании альтернативных единиц.

3. Понятно, что анализ и интерпретация полученных графиков, позволяющих увидеть общую картину количественных аналогий или расхождений, требует дополнительной информации для идентификации данных и удобных интерфейсов, обеспечивающих просмотр единиц в контекстах.

Особое значение имеет информация о причинах отсутствия искомых единиц. Так, например, нулевое значение на некотором участке одного из сравниваемых списков параллельного корпуса при наличии искомой единицы в другом может быть вызвано несколькими причинами: пропуском искомой единицы, использованием альтернативной формы, а также отсутствием контекста вследствие иного состава списка или утраты части листов. Желательно уже на этапе просмотра результатов выборки различать эти случаи: об отсутствии некоторых частей текста в сравниваемом списке по сравнению с основным свидетельствуют отрицательные значения частей графика.

Большое количество фрагментов в рукописи (до 1000 и более) и выбор при запросе маленькой величины шага приводит к получению результатов, в которых достаточно сложно на относительно небольшом экране рассмотреть участки графика. Для решения этой проблемы реализована возможность увеличения размера (растягивания) графика по горизонтали и по вертикали.

Предусмотрено два способа идентификации количественных данных относительно текста: а) указание места данных в рукописи ― визуализация адресов единиц, б) демонстрация фрагментов текста, в которых представлены данные. При первом способе каждая точка графика получает подпись, содержащую номера первого и конечного фрагментов и их имена, диапазон адресов шага и количество искомых единиц в нем. При втором данные выводятся в виде таблицы, в которой запись соответствует шагу и содержит, кроме сведений подписи к точке графика, и контексты, в которых используются найденные единицы.

К запросной форме прототипа модуля дан свободный доступ из раздела «Инструменты» портала «Манускрипт», ее поля снабжены контекстными подсказками.

В настоящее время осуществляется тестирование режимов работы, обсуждается совершенствование компоновки элементов интерфейса и их дизайна. Но уже сейчас модуль предоставляет возможность осуществить анализ распределения лингвистических единиц или отдельных символов в рукописях корпуса, при этом демонстрируя иной порядок, методику и скорость работы. Традиционно при количественном анализе сначала осуществляется отбор, паспортизация и подсчет данных в явных или предполагаемых текстологически значимых фрагментах документа или в соответствующих друг другу частях списков одного произведения, а затем выполняется анализ их распределения и интерпретация результатов. С помощью компьютерных средств выборки и визуализации количественных данных после постановки задачи и определения факторов, предположительно влияющих на распределение материала, создается запрос с соответствующими задаче параметрами, по выборке которого автоматически строится диаграмма, а затем осуществляется анализ распределения (при необходимости ― идентификация данных) и предлагается интерпретация выявленных закономерностей и отклонений от них.

Работа выполняется при финансовой поддержке Министерства образования и науки РФ в рамках государственного задания на выполнение работ ФГБОУ ВПО «Ижевский государственный технический университет» (проект № 8.1613.2011 «Средневековый славянский текст как объект текстологического, лингвистического и структурного моделирования: обеспечение миграции полнотекстовых машиночитаемых исторических документов»).

Баранов, 2010 ― Баранов В.А. Корпус средневековых славянских письменных памятников и лингвотекстологические исследования в области исторической морфологии русского языка // Информационные технологии и письменное наследие. Материалы междунар. науч. конф. (Уфа, 28–31 октября 2010 г.) / отв. ред. В.А.Баранов. Уфа; Ижевск, 2010. С. 21–27.

Баранов, 2012 ― Баранов В.А. Лингвистические, методические и технологические вопросы создания и использования корпуса средневековых славянских текстов // Русистика: язык, культура, перевод. Сб. докладов юбилейной междунар. науч. конф. (София, 23–25 ноября 2011 г.). София, 2012. С. 404–414.

Гиппиус, 2001 ― Гиппиус А.А. Рекоша дружина Игореви...: к лингвотекстологической стратификации Начальной летописи // Russian Linguistics. 2001. Vol. 25. Pp. 147–181.

[1] «Лингвотекстология – это комплекс взаимосвязанных теоретических и прикладных научно-исследовательских методик систематизации, анализа и интерпретации лингвистических данных корпуса списков одного текста и их фрагментов, а также произведений, содержащих генетически и/или типологически соответствующие друг другу фрагменты, направленный на выявление общих и частных, обусловленных текстологическими, территориально-временными, культурно-историческими и иными факторами закономерностей в функционировании и изменении формальных и содержательных характеристик языковых единиц» [Баранов, 2010: 27].