Тезаурус по корпусной лингвистике - Сообщество "Письменное наследие"

Select

EnglishRussianBulgarianLithuanian

El'Manuscript-10

Konferencijos

Организационный комитет

Programos komitetas

Konferencijos darbo kryptys

Mokyklos veiklos kryptys ir temos

Pagrindinės datos

Registracija ir taikymas

Dalyvio mokestis

Программа конференции

Список участников

Konferencijos medžiaga

Проекты и ресурсы

Organizacinė Infromacija

Kultūrinė programa

RSS-ленты новостей

Portalo kūrimą rėmė Rusijos humanitarinių mokslų fondas, projektas Nr. 07-04-12140в.

Тезаурус по корпусной лингвистике

Written by: Виктор Павлович Захаров

Четверг, 02 Сентябрь 2010

The paper is devoted to the construction of the Russian thesaurus on Corpus Linguistics. Linguistic resource involved in research is the Russian corpus on Corpus Linguistics developed in St.-Petersburg State University and Institute of Linguistic Studies and different vocabularies. Semi-automatic terminology extraction is performed with the help of linguistic and statistical tools which allow to generate lists of single-word and multi-word terms supplied with frequency data and lexical-syntactic patterns. Lexical-syntactic patterns are used in the analysis of contexts which contain definitions of terms, expose interrelations between terms, provide their synonyms, translation equivalents, etc.

В настоящее время в области корпусной лингвистики отсутствует четкая система научной терминологии. Корпусная лингвистика – раздел компьютерной лингвистики, занимающийся разработкой общих принципов построения и использования лингвистических корпусов с использованием компьютерных технологий. Под названием лингвистический корпус текстов понимается большой, размеченный массив языковых данных, представленный в электронном виде и предназначенный для решения конкретных лингвистических задач. Корпусная лингвистика находится на пересечении задач теоретической и прикладной лингвистики. Терминология ее еще не установилась, и вдвойне это верно для русскоязычной терминологии. Во-первых, это естественно, учитывая ее недавнее происхождение. Во-вторых, корпусная лингвистика как отдельная ветвь лингвистики сложилась в первую очередь в США и в Великобритании. И, соответственно, ее терминология складывалась и продолжает складываться в недрах английского языка. Поэтому, разрабатывая тезаурус по корпусной лингвистике, естесственно задуматься над созданием двуязычного тезауруса. Тезаурус будет включать множество русскоязычных терминов, связанных традиционными тезаурусными отношениями, и их английские эквиваленты. В настоящее время таких тезаурусов не существует.

Круг лексики, относящейся к сфере корпусной лингвистики и подлежащей формализации, очерчен имеющимися энциклопедическими словарями и другими словарными пособиями по лингвистике вообще и по смежным направлениям. Поэтому п ри разработке тезауруса мы исходим из наличия ряда пособий, которые могут быть использованы, а именно: [Никитина 1978, Демьянков 1982, Прикладное 1996, Баранов 2001, The Oxford 2003, Лингвистический 2005, Языкознание 2007 и др.].

При построении тезаурусов используются различные подходы. Один из способов изучения терминологии подразумевает предварительный логико-понятийный анализ этой терминологии, т.е. выделение понятий данной науки и установление между ними логических отношений. В данной работе производится описание терминологии корпусной лингвистики именно на основании логико-понятийного анализа с использованием автоматизированных методов. Заметим, что здесь методология корпусной лингвистики применяется к ней самой. То есть, необходимо составить корпус текстов по корпусной лингвистике и создавать словник тезауруса непосредственно на живом текстовом материале. Нами собран большой массив текстов по корпусной лингвистике и смежным областям на русском и английском языках, который периодически пополняется новыми документами.

Разработан подход к построению тезаурусов предметных областей, предполагающий выделение ключевых понятий из множества из корпуса текстов [Виноградова 2008, Митрофанова 2009]. На первом этапе формирования тезауруса создается иерархия понятий, которые представлены терминами-дескрипторами, извлеченными из учебных пособий по корпусной лингвистике, в частности [Захаров 2005]. На втором этапе проводилась обработка материалов из корпуса текстов по корпусной лингвистике, в состав которого входят научные тексты (прежде всего, публикации конференций по корпусной лингвистике: «Корпусная лингвистика и лингвистические базы данных – 2002», «Корпусная лингвистика – 2004, 2006, 2008» и др.). На базе этого корпуса создается первая версия тезауруса по корпусной лингвистике. Ядром этого тезауруса является формальная онтология, включающая более 300 понятий (терминов-дескрипторов), характеризующих область «корпусная лингвистика» и отличающихся высокой информативностью и частотностью. Для построения иерархии терминов-дескрипторов разработан компьютерный инструментарий автоматической классификации лексики, учитывающий логико-понятийные схемы предметной области, представленные в экспертных описаниях. Для автоматизированного отбора терминоподобных словосочетаний используются статистические методы выявления коллокаций, основывающиеся на известных мерах ассоциации (MI, T-score, Log-Likelihood).

Тезаурус будет базироваться на онтологии корпусной лингвистики, разрабатываемой на кафедре математической лингвистики СПбГУ под руководством автора. При разработке тезауруса по корпусной лингвистике будет использоваться также онтология компьютерной лингвистики, разработанная в Новосибирске в рамках проекта по созданию Портала знаний по компьютерной лингвистике (http://uniserv.iis.nsk.su/cl/) [Боровикова 2008, Соколова 2008].

Разрабатываемый тезаурус должен обеспечить систематизированное представление терминологии в области корпусной лингвистики. Он приведет терминологию в систему, создаст базу для систематизации знаний и информационных ресурсов по корпусной лингвистике и обеспечит удобный доступ к ним. Двуязычность тезауруса позволит отечественным ученым и специалистам быстрее и эффективнее ориентироваться в мировой ситуации в данной области, использовать тезаурус при написании и переводе статей.

Тезаурус будет представлять собой электронную базу данных, обеспечивающую пользователям доступ к нему. Кроме того, будет создано представление тезауруса в печатном виде в соответствии со стандартами для описания одноязычных (ISO 2788-1986 , ГОСТ 7.25-2001) и многоязычных (ISO 5964-1985, ГОСТ Р 7.24-2007) тезаурусов.

Литература

Баранов А.Н. Введение в прикладную лингвистику. Серия "Новый лингвистический учебник". М.: Эдиториал УРРС. 2001.

Боровикова О.И., Загорулько Ю.А., Загорулько Г.Б., Кононенко И.С., Соколова Е.Г. Разработка портала знаний по компьютерной лингвистике // Труды 11-ой национальной конференции по искусственному интеллекту с международным участием КИИ-2008 (г.Дубна, Россия). –М.: ЛЕНАНД, 2008. –Т.3. –С.380-388.

Виноградова Н.В., Митрофанова О.А. Формальная онтология как инструмент систематизации данных в русскоязычном корпусе текстов по корпусной лингвистике // Тр. междунар. конф. «Корпусная лингвистика–2008». – СПб.: СПбГУ, 2008. – C. 113-121.

Демьянков В.З. Англо-русские термины по прикладной лингвистике и автоматической переработке текста. Вып. 2. Методы анализа текста // Тетради новых терминов. № 39. -М.: ВЦП, 1982.

Захаров В.П. Корпусная лингвистика: Учебно-методическое пособие. – СПб.: СПбГУ, 2005. – 48 с.

Лингвистический энциклопедический словарь. М.: Сов. Энциклопедия, 1990.

Митрофанова О.А., Захаров В.П. Автоматизированный анализ терминологии в русскоязычном корпусе текстов по корпусной лингвистике // Компьютерная лингвистика и интеллектуальные технологии. Труды международной конференции «Диалог–2009». М.: 2009.

Никитина С.Е. Тезаурус по теоретической и прикладной лингвистике. - М., 1978.

Прикладное языкознание. Учебник (ред. А.С.Герд). СПб., 1996.

Соколова Е.Г., Кононенко И.С., Загорулько Ю.А. Проблемы описания компьютерной лингвистики в виде онтологии для портала знаний // Компьютерная лингвистика и интеллектуальные технологии: По материалам Междунар. конф. «Диалог». Вып. 7 (14). – М.: 2008. – С.482-487.

Языкознание. Информационно-поисковый тезаурус ИНИОН РАН. – М., 2007.

The Oxford handbook of computational linguistics // Mitkov Ruslan (ed.). N.Y.: Oxford university press, 2003.

< Prev		Next >