El'Manuscript-10
Конференция
Организационный комитет
Программный комитет
Направления работы конференции
Направления работы школы
Основные даты
Регистрация и заявка
Организационный взнос
Программа конференции
Список участников
Материалы конференции
Проекты и ресурсы
Организационная информация
Культурная программа





Забыли пароль?
Ещё не зарегистрированы? Регистрация
Сейчас на сайте находятся:
6 гостей
RSS-ленты новостей
rss20.gif

Портал был создан при финансовой поддержке Российского гуманитарного научного фонда (РГНФ), проект № 07-04-12140в.

(c) "Информационные технологии и письменное наследие", 2008-2020

Тезаурус по корпусной лингвистике PDF Печать E-mail
Автор(ы): Виктор Павлович Захаров   
02.09.2010 г.

       The paper is devoted to the construction of the Russian thesaurus on Corpus Linguistics. Linguistic resource involved in research is the Russian corpus on Corpus Linguistics developed in St.-Petersburg State University and Institute of Linguistic Studies and different vocabularies. Semi-automatic terminology extraction is performed with the help of linguistic and statistical tools which allow to generate lists of single-word and multi-word terms supplied with frequency data and lexical-syntactic patterns. Lexical-syntactic patterns are used in the analysis of contexts which contain definitions of terms, expose interrelations between terms, provide their synonyms, translation equivalents, etc.

        В настоящее время в области корпусной лингвистики отсутствует четкая система научной терминологии. Корпусная лингвистика – раздел компьютерной лингвистики, занимающийся разработкой общих принципов построения и использования лингвистических корпусов с использованием компьютерных технологий. Под названием лингвистический корпус текстов понимается большой, размеченный массив языковых данных, представленный в электронном виде и предназначенный для решения конкретных лингвистических задач. Корпусная лингвистика находится на пересечении задач теоретической и прикладной лингвистики. Терминология ее еще не установилась, и вдвойне это верно для русскоязычной терминологии. Во-первых, это естественно, учитывая ее недавнее происхождение. Во-вторых, корпусная лингвистика как отдельная ветвь лингвистики сложилась в первую очередь в США и в Великобритании. И, соответственно, ее терминология складывалась и продолжает складываться в недрах английского языка. Поэтому, разрабатывая тезаурус по корпусной лингвистике, естесственно задуматься над созданием двуязычного тезауруса. Тезаурус будет включать множество русскоязычных терминов, связанных традиционными тезаурусными отношениями, и их английские эквиваленты. В настоящее время таких тезаурусов не существует.

Круг лексики, относящейся к сфере корпусной лингвистики и подлежащей формализации, очерчен имеющимися энциклопедическими словарями и другими словарными пособиями по лингвистике вообще и по смежным направлениям. Поэтому п ри разработке тезауруса мы исходим из наличия ряда пособий, которые могут быть использованы, а именно: [Никитина 1978, Демьянков 1982, Прикладное 1996, Баранов 2001, The Oxford 2003, Лингвистический 2005, Языкознание 2007 и др.].

При построении тезаурусов используются различные подходы. Один из способов изучения терминологии подразумевает предварительный логико-понятийный анализ этой терминологии, т.е. выделение понятий данной науки и установление между ними логических отношений. В данной работе производится описание терминологии корпусной лингвистики именно на основании логико-понятийного анализа с использованием автоматизированных методов. Заметим, что здесь методология корпусной лингвистики применяется к ней самой. То есть, необходимо составить корпус текстов по корпусной лингвистике и создавать словник тезауруса непосредственно на живом текстовом материале. Нами собран большой массив текстов по корпусной лингвистике и смежным областям на русском и английском языках, который периодически пополняется новыми документами.

Разработан подход к построению тезаурусов предметных областей, предполагающий выделение ключевых понятий из множества из корпуса текстов [Виноградова 2008, Митрофанова 2009]. На первом этапе формирования тезауруса создается иерархия понятий, которые представлены терминами-дескрипторами, извлеченными из учебных пособий по корпусной лингвистике, в частности  [Захаров 2005]. На втором этапе проводилась обработка материалов из корпуса текстов по корпусной лингвистике, в состав которого входят научные тексты (прежде всего, публикации конференций по корпусной лингвистике: «Корпусная лингвистика и лингвистические базы данных – 2002», «Корпусная лингвистика – 2004, 2006, 2008» и др.).  На базе этого корпуса создается первая версия тезауруса по корпусной лингвистике. Ядром этого тезауруса является формальная онтология, включающая более 300 понятий (терминов-дескрипторов), характеризующих область «корпусная лингвистика» и отличающихся высокой информативностью и частотностью. Для построения иерархии терминов-дескрипторов разработан компьютерный инструментарий автоматической классификации лексики, учитывающий логико-понятийные схемы предметной области, представленные в экспертных описаниях. Для автоматизированного отбора терминоподобных словосочетаний используются статистические методы выявления коллокаций, основывающиеся на известных мерах ассоциации (MI, T-score, Log-Likelihood).

Тезаурус будет базироваться на онтологии корпусной лингвистики, разрабатываемой на кафедре математической лингвистики СПбГУ под руководством автора. При разработке тезауруса по корпусной лингвистике будет использоваться также онтология компьютерной лингвистики, разработанная в Новосибирске в рамках проекта по созданию Портала знаний по компьютерной лингвистике (http://uniserv.iis.nsk.su/cl/) [Боровикова 2008, Соколова 2008].

Разрабатываемый тезаурус должен обеспечить систематизированное представление терминологии в области корпусной лингвистики. Он приведет терминологию в систему, создаст базу для систематизации знаний и информационных ресурсов по корпусной лингвистике и обеспечит удобный доступ к ним. Двуязычность тезауруса позволит отечественным ученым и специалистам быстрее и эффективнее ориентироваться в мировой ситуации в данной области, использовать тезаурус при написании и переводе статей.

Тезаурус будет представлять собой электронную базу данных, обеспечивающую пользователям доступ к нему. Кроме того, будет создано представление тезауруса в печатном виде в соответствии со стандартами для описания одноязычных (ISO 2788-1986 , ГОСТ 7.25-2001) и многоязычных (ISO 5964-1985, ГОСТ Р 7.24-2007) тезаурусов.

Литература

Баранов А.Н. Введение в прикладную лингвистику. Серия "Новый лингвистический учебник". М.: Эдиториал УРРС. 2001.

Боровикова О.И., Загорулько Ю.А., Загорулько Г.Б., Кононенко И.С., Соколова Е.Г. Разработка портала знаний по компьютерной лингвистике // Труды 11-ой национальной конференции по искусственному интеллекту с международным участием КИИ-2008 (г.Дубна, Россия). –М.: ЛЕНАНД, 2008. –Т.3. –С.380-388.

Виноградова Н.В., Митрофанова О.А. Формальная онтология как инструмент систематизации данных в русскоязычном корпусе текстов по корпусной лингвистике // Тр. междунар. конф. «Корпусная лингвистика–2008». – СПб.: СПбГУ, 2008. – C. 113-121.

Демьянков В.З. Англо-русские термины по прикладной лингвистике и автоматической переработке текста. Вып. 2. Методы анализа текста // Тетради новых терминов. № 39. -М.: ВЦП, 1982.

Захаров В.П. Корпусная лингвистика: Учебно-методическое пособие. – СПб.: СПбГУ, 2005. – 48 с.

Лингвистический энциклопедический словарь. М.: Сов. Энциклопедия, 1990.

Митрофанова О.А., Захаров В.П. Автоматизированный анализ терминологии в русскоязычном корпусе текстов по корпусной лингвистике // Компьютерная лингвистика и интеллектуальные технологии. Труды международной конференции «Диалог–2009». М.: 2009.

Никитина С.Е. Тезаурус по теоретической и прикладной лингвистике. - М., 1978.

Прикладное языкознание. Учебник (ред. А.С.Герд). СПб., 1996.

Соколова Е.Г., Кононенко И.С., Загорулько Ю.А. Проблемы описания компьютерной лингвистики в виде онтологии для портала знаний // Компьютерная лингвистика и интеллектуальные технологии: По материалам Междунар. конф. «Диалог». Вып. 7 (14). – М.: 2008. – С.482-487.

Языкознание. Информационно-поисковый тезаурус ИНИОН РАН. – М., 2007.

The Oxford handbook of computational linguistics // Mitkov Ruslan (ed.). N.Y.: Oxford university press, 2003.

 
« Пред.   След. »