The paper is devoted to the construction of the Russian thesaurus on Corpus Linguistics. Linguistic resource involved in research is the Russian corpus on Corpus Linguistics developed in St.-Petersburg State University and Institute of Linguistic Studies and different vocabularies. Semi-automatic terminology extraction is performed with the help of linguistic and statistical tools which allow to generate lists of single-word and multi-word terms supplied with frequency data and lexical-syntactic patterns. Lexical-syntactic patterns are used in the analysis of contexts which contain definitions of terms, expose interrelations between terms, provide their synonyms, translation equivalents, etc.
В настоящее время в области корпусной лингвистики отсутствует четкая система научной терминологии. Корпусная лингвистика – раздел компьютерной лингвистики, занимающийся разработкой общих принципов построения и использования лингвистических корпусов с использованием компьютерных технологий. Под названием лингвистический корпус текстов понимается большой, размеченный массив языковых данных, представленный в электронном виде и предназначенный для решения конкретных лингвистических задач. Корпусная лингвистика находится на пересечении задач теоретической и прикладной лингвистики. Терминология ее еще не установилась, и вдвойне это верно для русскоязычной терминологии. Во-первых, это естественно, учитывая ее недавнее происхождение. Во-вторых, корпусная лингвистика как отдельная ветвь лингвистики сложилась в первую очередь в США и в Великобритании. И, соответственно, ее терминология складывалась и продолжает складываться в недрах английского языка. Поэтому, разрабатывая тезаурус по корпусной лингвистике, естесственно задуматься над созданием двуязычного тезауруса. Тезаурус будет включать множество русскоязычных терминов, связанных традиционными тезаурусными отношениями, и их английские эквиваленты. В настоящее время таких тезаурусов не существует.
Круг лексики, относящейся к сфере корпусной лингвистики и подлежащей формализации, очерчен имеющимися энциклопедическими словарями и другими словарными пособиями по лингвистике вообще и по смежным направлениям. Поэтому п ри разработке тезауруса мы исходим из наличия ряда пособий, которые могут быть использованы, а именно: [Никитина 1978, Демьянков 1982, Прикладное 1996, Баранов 2001, The Oxford 2003, Лингвистический 2005, Языкознание 2007 и др.].
При построении тезаурусов используются различные подходы. Один из способов изучения терминологии подразумевает предварительный логико-понятийный анализ этой терминологии, т.е. выделение понятий данной науки и установление между ними логических отношений. В данной работе производится описание терминологии корпусной лингвистики именно на основании логико-понятийного анализа с использованием автоматизированных методов. Заметим, что здесь методология корпусной лингвистики применяется к ней самой. То есть, необходимо составить корпус текстов по корпусной лингвистике и создавать словник тезауруса непосредственно на живом текстовом материале. Нами собран большой массив текстов по корпусной лингвистике и смежным областям на русском и английском языках, который периодически пополняется новыми документами.
Разработан подход к построению тезаурусов предметных областей, предполагающий выделение ключевых понятий из множества из корпуса текстов [Виноградова 2008, Митрофанова 2009]. На первом этапе формирования тезауруса создается иерархия понятий, которые представлены терминами-дескрипторами, извлеченными из учебных пособий по корпусной лингвистике, в частности [Захаров 2005]. На втором этапе проводилась обработка материалов из корпуса текстов по корпусной лингвистике, в состав которого входят научные тексты (прежде всего, публикации конференций по корпусной лингвистике: «Корпусная лингвистика и лингвистические базы данных – 2002», «Корпусная лингвистика – 2004, 2006, 2008» и др.). На базе этого корпуса создается первая версия тезауруса по корпусной лингвистике. Ядром этого тезауруса является формальная онтология, включающая более 300 понятий (терминов-дескрипторов), характеризующих область «корпусная лингвистика» и отличающихся высокой информативностью и частотностью. Для построения иерархии терминов-дескрипторов разработан компьютерный инструментарий автоматической классификации лексики, учитывающий логико-понятийные схемы предметной области, представленные в экспертных описаниях. Для автоматизированного отбора терминоподобных словосочетаний используются статистические методы выявления коллокаций, основывающиеся на известных мерах ассоциации (MI, T-score, Log-Likelihood).
Тезаурус будет базироваться на онтологии корпусной лингвистики, разрабатываемой на кафедре математической лингвистики СПбГУ под руководством автора. При разработке тезауруса по корпусной лингвистике будет использоваться также онтология компьютерной лингвистики, разработанная в Новосибирске в рамках проекта по созданию Портала знаний по компьютерной лингвистике (http://uniserv.iis.nsk.su/cl/) [Боровикова 2008, Соколова 2008].
Разрабатываемый тезаурус должен обеспечить систематизированное представление терминологии в области корпусной лингвистики. Он приведет терминологию в систему, создаст базу для систематизации знаний и информационных ресурсов по корпусной лингвистике и обеспечит удобный доступ к ним. Двуязычность тезауруса позволит отечественным ученым и специалистам быстрее и эффективнее ориентироваться в мировой ситуации в данной области, использовать тезаурус при написании и переводе статей.
Тезаурус будет представлять собой электронную базу данных, обеспечивающую пользователям доступ к нему. Кроме того, будет создано представление тезауруса в печатном виде в соответствии со стандартами для описания одноязычных (ISO 2788-1986 , ГОСТ 7.25-2001) и многоязычных (ISO 5964-1985, ГОСТ Р 7.24-2007) тезаурусов.
Литература
Баранов А.Н. Введение в прикладную лингвистику. Серия "Новый лингвистический учебник". М.: Эдиториал УРРС. 2001.
Боровикова О.И., Загорулько Ю.А., Загорулько Г.Б., Кононенко И.С., Соколова Е.Г. Разработка портала знаний по компьютерной лингвистике // Труды 11-ой национальной конференции по искусственному интеллекту с международным участием КИИ-2008 (г.Дубна, Россия). –М.: ЛЕНАНД, 2008. –Т.3. –С.380-388.
Виноградова Н.В., Митрофанова О.А. Формальная онтология как инструмент систематизации данных в русскоязычном корпусе текстов по корпусной лингвистике // Тр. междунар. конф. «Корпусная лингвистика–2008». – СПб.: СПбГУ, 2008. – C. 113-121.
Демьянков В.З. Англо-русские термины по прикладной лингвистике и автоматической переработке текста. Вып. 2. Методы анализа текста // Тетради новых терминов. № 39. -М.: ВЦП, 1982.
Захаров В.П. Корпусная лингвистика: Учебно-методическое пособие. – СПб.: СПбГУ, 2005. – 48 с.
Лингвистический энциклопедический словарь. М.: Сов. Энциклопедия, 1990.
Митрофанова О.А., Захаров В.П. Автоматизированный анализ терминологии в русскоязычном корпусе текстов по корпусной лингвистике // Компьютерная лингвистика и интеллектуальные технологии. Труды международной конференции «Диалог–2009». М.: 2009.
Никитина С.Е. Тезаурус по теоретической и прикладной лингвистике. - М., 1978.
Прикладное языкознание. Учебник (ред. А.С.Герд). СПб., 1996.
Соколова Е.Г., Кононенко И.С., Загорулько Ю.А. Проблемы описания компьютерной лингвистики в виде онтологии для портала знаний // Компьютерная лингвистика и интеллектуальные технологии: По материалам Междунар. конф. «Диалог». Вып. 7 (14). – М.: 2008. – С.482-487.
Языкознание. Информационно-поисковый тезаурус ИНИОН РАН. – М., 2007.
The Oxford handbook of computational linguistics // Mitkov Ruslan (ed.). N.Y.: Oxford university press, 2003.
|