Подходы к построению древнерусского тезауруса (на материалах Словаря русского языка XI–XVII вв.)

Избор

EnglishRussianBulgarianLithuanian

El'Manuscript '06

Конференция

Организационный комитет

Программный комитет

Направления работы конференции

Направления работы школы

Основные даты

Регистрация и заявка

Организационный взнос

Программа конференции

Список участников

Материалы конференции

Проекты и ресурсы

Организационная информация

Культурная программа

В момента 2 госта онлайн

RSS-емисии

Порталът е създаден с финансовата подкрепа на Руската хуманитарна фондация (RHF), номер на проекта 07-04-12140v.

(с) "Информационните технологии и писменото наследство", 2008-2020 г.

Подходы к построению древнерусского тезауруса (на материалах Словаря русского языка XI–XVII вв.)

Автор: Ольга Васильевна Колобкова

18 Июль 2008

Любая лексикографическая работа сопряжена с привлечением огромных ресурсов времени и труда лексикографов. Современные вычислительные средства дают возможность автоматизировать лексикографическую работу практически на всех этапах — от выбора цитат до редактирования словаря и его издания. В этой связи основным направлением предстоящего исследования будет поиск и создание инструментов, обеспечивающих высокую эффективность получения данных об исторической лексике древнерусского языка. Работа будет вестись на базе материалов Словаря русского языка XI–XVII вв. (далее ― СЛРЯ).

СЛРЯ по жанру исторический, он основан на выборке лексики из памятников письменности древне‑ и старорусского периода. В список источников Словаря входят также «Словарь церковнославянского языка» А. Х. Востокова (т. I–II. СПб., 1858–1861 гг.) и «Материалы для Словаря древнерусского языка» И. И. Срезневского (т. I–III. М., 1958 г.; переиздание 1989 г.). Круг памятников ограничен хронологическими рамками, а для лексики XV–XVII вв. ― принадлежностью русскому языку. За двадцать лет издано 27 выпусков, охватывающих отрезок от А до С. За это время сложились определенные традиции, приемы в подаче лексического материала. Сейчас этот словарь представляется наиболее полным историческим словарем русского языка XI–XVII вв. [Историко-лексикографические 1997, № 23–24: 3].

Поскольку сейчас не существует томов, охватывающих отрезок от Т до Я, то последующая разработка древнерусского тезауруса на материалах СЛРЯ будет актуальна. Она даст возможность как доработать эти тома, так и решить еще определенный круг задач.

Выбор тезауруса как основного репрезентатора обусловлен несколькими причинами:

тенденцией к лексикографическому представлению лексической информации;

актуальностью использования тезаурусов в практике;

необходимостью доработки материалов на недостающие буквы.

Итак, одной из тенденций современной лингвистики является представление данных о языке в лексикографической форме. Другой важной тенденцией является стремление к формализации лингвистических описаний. С одной стороны, стремление к формализации является следствием внутренней логики развития лингвистики, пришедшей к необходимости инвентаризации фактов языка и приведения собственной методологии в соответствие с общенаучным требованием воспроизводимости результатов. С другой же стороны, только формализованный материал может быть обработан машинными методами, открывающими перед лингвистикой в целом и лексикографией в частности совершенно новые возможности. Современный уровень развития вычислительной техники, открывший для лексикографии новую область корпусной лингвистики, позволяет извлекать обширные массивы нетривиальных языковых фактов из первичных текстов.

Таким образом, можно определить методологические установки исследования:

– основной единицей изучения является словоформа (слово), а основной формой представления практических результатов исследования — словарная;

– предпочтительными методами исследования являются такие, которые поддаются формализации и автоматизации;

– из всего многообразия машинных методов приоритет у методов корпусной лингвистики.

Рассмотрим некоторые подходы к формированию лингвистических баз знаний (далее ― ЛБЗ), а именно:

– статистические;

– использующие эвристики, специфичные для конкретных предметных областей;

– использующие явную (созданную автором документа) структуру анализируемой информации;

– лингвистические (грамматические).

Статистические методы обычно подразумевают анализ специально подобранных текстов с целью выявления статистических характеристик определенных языковых явлений (например, частотности отдельных слов, цепочек слов и их взаимной встречаемости). Эти методы используются в основном при формировании частотных компонентов ЛБЗ, таких, как частотные словари словоформ или словари лексических n‑грамм.

Методы, которые используют различные эвристики, отражающие особенности, специфичные для конкретных предметных областей и источников данных, обычно применяются в совокупности с другими методами в целях улучшения качества обработки.

Методы, использующие структурную разметку обрабатываемого текста, можно в свою очередь разделить на две подкатегории. Во-первых, это методы, которые следует, вероятно, отнести к одной из разновидностей эвристических подходов, позволяющих, например, учитывать различное расположение терминов в анализируемом тексте (в заголовке, в первом абзаце и т. д.), приписывая им затем различную значимость при обработке. Во-вторых, это методы, использующие обработку структурной разметки как основное средство, применяемое при анализе.

Лингвистические методы являются наиболее универсальными и могут использоваться при формировании словарных компонентов практически любого уровня. Однако качество существующих методов обработки естественного языка не позволяет использовать их в полностью автоматических системах, поэтому сегодня участие человека-эксперта является непременным условием. Кроме того, применение лингвистических методов обычно требует наличия вспомогательных компонентов ЛБЗ (например, тезауруса), необходимых для их успешного функционирования.

Применение лингвистических методов совместно со статистическими позволяет компенсировать недостаточную репрезентативность исследуемого корпуса текста и тем самым устранить или уменьшить влияние одного из основных недостатков, присущих статистическим методам, сохранив при этом их преимущества (эффективность и простоту реализации), являющиеся весьма важными.

Сформулируем требования к подобной системе.

Общие требования. Система должна подчиняться ясно сформулированной концепции, в которой отражаются цели и задачи системы, круг ее потенциальных потребителей и способ распространения информации. Система должна включать вспомогательный справочный аппарат, упрощающий доступ к информации. В архитектонике системы следует предусмотреть дальнейшее развитие ее информационной базы и функциональных возможностей.

К информационным требованиям принадлежат: системность комплектования, исключающая произвол и стихийность в отборе информации; структурность информационной базы; полнота представления информации, необходимой и достаточной для научных исследований; идентифицируемость информационных объектов; точность воспроизведения информации (при электронном воспроизведении печатного текста должны быть адекватно отражены структура и пагинация оригинального издания, правописание и пунктуация источника, расположение текста на странице, шрифтовое оформление и ряд других особенностей).

Функциональные требования предполагают наличие развитых функциональных возможностей, к числу которых относятся: навигация (возможность получать сведения о составе и структуре информационной базы и иметь доступ к ее компонентам); лексический поиск; атрибутный поиск (то есть поиск информационных объектов по значениям их формальных характеристик); комбинированные поиски; сортировка результатов поиска по заданному параметру; просмотр содержания информационного объекта — последовательный (страница за страницей), выборочный (переход на заданную страницу), параллельный (одновременный просмотр нескольких документов).

Summary

The solutions of elaboration of thesauruses and linguistic knowledge bases are illustrated in the article. The texts of the Russian Language dictionary of XI–XVII centuries were used in the work as a source of terminological information. The system requirements and the methodological goals of investigation were also formulated.

Список литературы

Инструкция 1988 ― Инструкция для составителей Словаря русского языка XI–XVII вв. ― М., 1988.

Гендина 1991 ― Гендина, Н. И. Лингвистическое обеспечение автоматизированных библиотечных систем / Н. И. Гендина. ― Алма-Ата, 1991.

Краткий 1995 ― Краткий словарь лингвистических терминов. — М., 1995.

Никитина 1978 ― Никитина, С. Е. Тезаурус по теоретической и прикладной лингвистике: (Автоматическая обработка текста) / С. Е. Никитина. ― М., 1978.

Словарь 1975 ― Словарь русского языка XI–XVII вв. ― Вып. 1 (А–Б) / С. Г. Бархударов. ― 1975.

Словарь 1976. ― Словарь русского языка XI–XVII вв. ― Вып. 3 (ВОЛОДЕНЬЕ–ВЯЩЬШИНА) / С. Г. Бархударов. ― 1976.

Державина 1997 ― Державина, Е. И. Историко-лексикографические исследования и компьютер (на материале Словаря русского языка XI–XVII вв.) / Е. И. Державина [и др.] // Новая деловая книга. ― 1997. ― № 23–24.

< Предишна		Следваща >