Разработка мультиязычного электронного словаря-тезауруса предметной области проектирования (на приме

Select

EnglishRussianBulgarianLithuanian

El'Manuscript-10

Konferencijos

Организационный комитет

Programos komitetas

Konferencijos darbo kryptys

Mokyklos veiklos kryptys ir temos

Pagrindinės datos

Registracija ir taikymas

Dalyvio mokestis

Программа конференции

Список участников

Konferencijos medžiaga

Проекты и ресурсы

Organizacinė Infromacija

Kultūrinė programa

RSS-ленты новостей

Portalo kūrimą rėmė Rusijos humanitarinių mokslų fondas, projektas Nr. 07-04-12140в.

Разработка мультиязычного электронного словаря-тезауруса предметной области проектирования (на приме

Written by: Иветта Вячеславовна Арзамасцева

Пятница, 09 Июль 2010

Современные САПР обладают развитым лингвистическим обеспечением, традиционной частью которого стали тезаурусы. Тезаурусы позволяют достичь унификации терминологии на этапе проектирования. Но при условии быстрой смены вариантов изделий встает и задача быстрого и эффективного формирования тезаурусов. Другой особенностью современного лингвистического обеспечения САПР является мультиязычность, для которой характерно использование ряда языков, например, английского, русского, немецкого.

В ФНПЦ ОАО «НПО "МАРС"» (г. Ульяновск) используется программноесредство собственной разработки для автоматизации деятельности архивной службы электронных информационных ресурсов (ЭИР). Однако функционал этогосредства недостаточно широк. Требуется доработка данной системы с целью автоматизациичасти функций архивариусов и интеллектуализации частипроцессов по управлению информацией. Расширением функционала данной системы является разработанный интеллектуальный сетевойархив электронных информационных ресурсов (ИСА ЭИР).

Ранее в подсистемах индексации применялись следующие модели:

• взвешивание терминов;

• «стоп-листы» – механизм уменьшенияразмерности индекса и шума вносимого в индекс документа за счет удаления наиболеечасто употребляемыми терминами, предлогами;

• «stemming» – приведение термов косновной форме;

• «soundex» – механизмы, учитывающие опечаткии орфографические ошибки;

• устранение проблем синонимии и омонимии. [Наместников2009: 31]

Одной из подсистем интеллектуального проектного репозитария являетсяиндексатор. Он отбирает из текста стоп-слова и на основе оставшихся терминов частичноопределяет предметную область документа.

Мы заменили в индексаторесловарь со стоп-словами на словарь-тезаурус, сформированный на основе анализа ТС.Тезаурус− это терминологический ресурс, реализованный в виде словаря понятий и терминовсо связями между ними. Согласно ГОСТу многоязычный информационно-поисковый тезаурус(МИПТ) – согласованная совокупность одноязычных информационно-поисковых тезаурусов,содержащая эквивалентные дескрипторы на языках-компонентах МИПТ, необходимые и достаточныедля межъязыкового обмена, и включающая средства для указания их эквивалентности.[ГОСТ 7.24-90]

Основное назначение тезауруса в нашей системе −определение предметной области (ПО): на основе связей тезауруса можно построитьтерминосистему (ТС), а навигация по связям тезаурусапомогает получать на базе ТС точную идентификацию предметнойобласти документа.

Для исследования была выбрана предметная область«Нечеткая логика», во-первых, потому, что данная терминосистема является мезотерминосистемой(т.е. относится к ТС среднего уровня) и возможно осуществить ее построение вручную.Во-вторых, данная предметная область развивается очень быстро, появляется большоеколичество документов по нечетким контроллерам, а полного словаря не существует.

Методика составления тезауруса включала выполнениеследующих операций:

1. Создание корпуса текстов по ПО;

2. Первичный отбор терминов;

3. Составление словарных статей;

4. Объединение терминов в классы и установлениесвязей между ними;

5. Вторичный отбор терминов, расширение словаря;

6. Создание логико-понятийной схемы ТС;

7. Определение иерархической структуры тезаурусаТС;

8. Проверка тезауруса на полноту;

9. Экспериментальная проверка соответствия полученногопродукта поставленным целям.

Первыйэтап состоял в сборе информации и ее накоплении в базе данных. Сбор информации включалсоздание массива полных текстов. Материалом нашего исследования являются научныетексты: научные и научно-популярные статьи, дипломные работы, монографии, учебникипо нечеткой логике. Всего было отобрано 300 текстов, общим объемом 832 154 слов.

Отбортерминов из текстов осуществлялся с учетом вопросов об отношении терминов к другимпластам лексики, о частеречной принадлежности терминов, о терминологических словосочетаниях,о варьировании терминов в тексте. Общенаучная, общетехническая, межотраслевая лексикане представляют самостоятельного интереса при моделировании терминосистемы, посколькуне несут специальной отраслевой понятийной информации. Данная лексика рассматриваетсялишь в составе терминологических словосочетаний отрасли, в формировании которыхона активно участвует. В плане частеречной принадлежности из текстов отбирались,в основном, существительные и образованные на их базе словосочетания, которые являютсяглавным способом выражения понятий в моделируемой терминосистеме.

Отбортерминов осуществлялся интуитивно на основе сплошной выборки из специальных текстов.Был использован также метод экспертных оценок.

Входе работы выяснилось, что ТС НЛ (которая на данном этапе состоит из 1048 терминов)использует не только термины подъязыка НЛ, но и других подъязыков, поэтому, мы условно(применяя метод экспертных оценок) разделили ее на 6 подсловарей:

1.Нечеткая логика (Fuzzy)– 586 терминов;

2.Логика (Logik)– 231;

3.Математика (Mathematik)– 135;

4.Управляющие системы (Leitungstechnik) – 66;

5.Искусственный интеллект (Künstliche Intelligenz) – 12;

6.Компьютерные технологии (Computer) – 18.

Подобноеразделение представляется нам целесообразным, поскольку на основе этих данных вдальнейшем возможно осуществить идентификацию предметной области.

Словарисоставлялись следующим образом:

1. Немецкое слово и все его формы (которыене задавались автоматически из-за большого количества исключений), разделенные междусобой точкой с запятой);

2. Русский перевод (близкие значения разделенызапятой, более общие – точкой с запятой, полисемические – цифрами, абсолютно несоотносительныхслов (омонимов) не встречалось);

3. Английское соответствие.

Примерсловарной статьи:

[das] Fuzzy-Inferenzbild;[des] Fuzzy-Inferenzbildes; [des] Fuzzy-Inferenzbilds; [die]Fuzzy-Inferenzbilder; [den] Fuzzy-Inferenzbildern – протокол (ход) нечеткого вывода – fuzzy inference model

Найденные документы классифицировались вручнуюэкспертом и были разделены на обучающую, настроечную и рабочую выборки. При сортировкедокументов они подвергались обработке программой Fuzzy-Base [Арзамасцева 2008],в которую были загружен тезаурус. Программа составляла частотные словари по каждомудокументу и находила новые термины, на основе уже имеющихся в базе. В итоге тезаурусбыл расширен до 1048 терминов.

Определение ПО осуществляется на основе статистическойобработки текстов, т.е. на основе наибольшего веса терминов определенного подсловаря.

Затемданные подсловаря «НЛ» были распределены по фреймам, была построена логико-понятийнаясхема терминосистемы «Нечеткая логика», а на ее основе был создан иерархическийсловарь-тезаурус по нечетким системам:

........Нечеткиесистемы

................I.Теория

........................Теориянечетких множеств

................................1.Определениемножеств

........................................1а.Визуальные графики

................................2.Виды алгебр

........................................2а.Операции

........................Теориянечетких систем

................................3.Нечеткиеправила (базы)

................................4.Схемывывода по нечетким правилам

................II.Приложения

........................5.Нечеткийконтроль

........................6.Роботика

........................7.Экспертные системы

........................8.Информационные системы

................................8c.Нечеткие временные ряды

................................8а.Интернет

................................8б.Базы данных

........................9.Нечеткая кластеризация

................III.Гибриды

........................10.Нечеткие системы + нейронные сети

........................11.Нечеткие системы + вероятностные сети

........................12.Нечеткие системы + генетические алгоритмы

Послеобработки документов программой Fuzzy-Base мы получаем следующие данные:

C:\IVP\FUZZY.BASE\Текстына обработку\NeueTexte\199. Bratz.doc

1.Определениемножеств 72

10.Нечеткие системы + нейронные сети 14

11.Нечеткие системы + вероятностные сети 2

2.Виды алгебр 4

2а.Операции 14

3.Нечеткиеправила (базы) 32

4.Схемывывода по нечетким правилам 16

5.Нечеткийконтроль 10

7.Экспертные системы 3

8.Информационные системы 1

9.Нечеткая кластеризация 4

I.Теория 21

II.Приложения 1

____________________________________________________________

Итого: 72

Определениемножеств

Этопозволяет не только отнести документы к определенной предметной области, распределитьтексты внутри ПО.

Автоматизированныеметоды определения предметной области документов существенно облегчают формированиесложных специализированных запросов, повышают удобство поиска и распределение информациив интеллектуальном архиве. Ручные процедуры составления тезауруса могут быть узкимместом предлагаемого подхода. Поэтому в дальнейшем планируется полуавтоматическоепостроение тезаурусов.

Литература

[Арзамасцева 2008] Свидетельство о государственной регистрации программыдля ЭВМ №2008615366 от 10.11.2008г. / Арзамасцева И.В., Подгорный И.В. // М.: Федеральнаяслужба по интеллектуальной собственности, патентам и товарным знакам.

[Наместников 2009] Наместников А.М. Интеллектуальные проектные репозитории/ А.М.Наместников. – Ульяновск : УлГТУ, 2009. – 110 с.

[ГОСТ 7.24-90]ГОСТ 7.24-90. Система стандартов по информации, библиотечному и издательскому делу.Тезаурус информационно-поисковый многоязычный. Состав, структура и основные требованияк построению.

< Prev		Next >