(c) "Informacinės technologijos ir rašytinis palikimas", 2008-2020
Разработка мультиязычного электронного словаря-тезауруса предметной области проектирования (на приме
Written by: Иветта Вячеславовна Арзамасцева
Пятница, 09 Июль 2010
Современные САПР обладают развитым лингвистическим обеспечением, традиционной частью которого стали тезаурусы. Тезаурусы позволяют достичь унификации терминологии на этапе проектирования. Но при условии быстрой смены вариантов изделий встает и задача быстрого и эффективного формирования тезаурусов. Другой особенностью современного лингвистического обеспечения САПР является мультиязычность, для которой характерно использование ряда языков, например, английского, русского, немецкого.
В ФНПЦ ОАО «НПО "МАРС"» (г. Ульяновск) используется программноесредство собственной разработки для автоматизации деятельности архивной службы электронных информационных ресурсов (ЭИР). Однако функционал этогосредства недостаточно широк. Требуется доработка данной системы с целью автоматизациичасти функций архивариусов и интеллектуализации частипроцессов по управлению информацией. Расширением функционала данной системы является разработанный интеллектуальный сетевойархив электронных информационных ресурсов (ИСА ЭИР).
Ранее в подсистемах индексации применялись следующие модели:
•взвешивание терминов;
•«стоп-листы» – механизм уменьшенияразмерности индекса и шума вносимого в индекс документа за счет удаления наиболеечасто употребляемыми терминами, предлогами;
• устранение проблем синонимии и омонимии. [Наместников2009: 31]
Одной из подсистем интеллектуального проектного репозитария являетсяиндексатор. Он отбирает из текста стоп-слова и на основе оставшихся терминов частичноопределяет предметную область документа.
Мы заменили в индексаторесловарь со стоп-словами на словарь-тезаурус, сформированный на основе анализа ТС.Тезаурус− это терминологический ресурс, реализованный в виде словаря понятий и терминовсо связями между ними. Согласно ГОСТу многоязычный информационно-поисковый тезаурус(МИПТ) – согласованная совокупность одноязычных информационно-поисковых тезаурусов,содержащая эквивалентные дескрипторы на языках-компонентах МИПТ, необходимые и достаточныедля межъязыкового обмена, и включающая средства для указания их эквивалентности.[ГОСТ 7.24-90]
Основное назначение тезауруса в нашей системе −определение предметной области (ПО): на основе связей тезауруса можно построитьтерминосистему (ТС), а навигация по связям тезаурусапомогает получать на базе ТС точную идентификацию предметнойобласти документа.
Для исследования была выбрана предметная область«Нечеткая логика», во-первых, потому, что данная терминосистема является мезотерминосистемой(т.е. относится к ТС среднего уровня) и возможно осуществить ее построение вручную.Во-вторых, данная предметная область развивается очень быстро, появляется большоеколичество документов по нечетким контроллерам, а полного словаря не существует.
Первыйэтап состоял в сборе информации и ее накоплении в базе данных. Сбор информации включалсоздание массива полных текстов. Материалом нашего исследования являются научныетексты: научные и научно-популярные статьи, дипломные работы, монографии, учебникипо нечеткой логике. Всего было отобрано 300 текстов, общим объемом 832 154 слов.
Отбортерминов из текстов осуществлялся с учетом вопросов об отношении терминов к другимпластам лексики, о частеречной принадлежности терминов, о терминологических словосочетаниях,о варьировании терминов в тексте. Общенаучная, общетехническая, межотраслевая лексикане представляют самостоятельного интереса при моделировании терминосистемы, посколькуне несут специальной отраслевой понятийной информации. Данная лексика рассматриваетсялишь в составе терминологических словосочетаний отрасли, в формировании которыхона активно участвует. В плане частеречной принадлежности из текстов отбирались,в основном, существительные и образованные на их базе словосочетания, которые являютсяглавным способом выражения понятий в моделируемой терминосистеме.
Отбортерминов осуществлялся интуитивно на основе сплошной выборки из специальных текстов.Был использован также метод экспертных оценок.
Входе работы выяснилось, что ТС НЛ (которая на данном этапе состоит из 1048 терминов)использует не только термины подъязыка НЛ, но и других подъязыков, поэтому, мы условно(применяя метод экспертных оценок) разделили ее на 6 подсловарей:
Подобноеразделение представляется нам целесообразным, поскольку на основе этих данных вдальнейшем возможно осуществить идентификацию предметной области.
Словарисоставлялись следующим образом:
1.Немецкое слово и все его формы (которыене задавались автоматически из-за большого количества исключений), разделенные междусобой точкой с запятой);
2.Русский перевод (близкие значения разделенызапятой, более общие – точкой с запятой, полисемические – цифрами, абсолютно несоотносительныхслов (омонимов) не встречалось);
Найденные документы классифицировались вручнуюэкспертом и были разделены на обучающую, настроечную и рабочую выборки. При сортировкедокументов они подвергались обработке программой Fuzzy-Base [Арзамасцева 2008],в которую были загружен тезаурус. Программа составляла частотные словари по каждомудокументу и находила новые термины, на основе уже имеющихся в базе. В итоге тезаурусбыл расширен до 1048 терминов.
Определение ПО осуществляется на основе статистическойобработки текстов, т.е. на основе наибольшего веса терминов определенного подсловаря.
Затемданные подсловаря «НЛ» были распределены по фреймам, была построена логико-понятийнаясхема терминосистемы «Нечеткая логика», а на ее основе был создан иерархическийсловарь-тезаурус по нечетким системам:
Этопозволяет не только отнести документы к определенной предметной области, распределитьтексты внутри ПО.
Автоматизированныеметоды определения предметной области документов существенно облегчают формированиесложных специализированных запросов, повышают удобство поиска и распределение информациив интеллектуальном архиве. Ручные процедуры составления тезауруса могут быть узкимместом предлагаемого подхода. Поэтому в дальнейшем планируется полуавтоматическоепостроение тезаурусов.
Литература
[Арзамасцева 2008]Свидетельство о государственной регистрации программыдля ЭВМ №2008615366 от 10.11.2008г. / Арзамасцева И.В., Подгорный И.В. // М.: Федеральнаяслужба по интеллектуальной собственности, патентам и товарным знакам.
[ГОСТ 7.24-90]ГОСТ 7.24-90. Система стандартов по информации, библиотечному и издательскому делу.Тезаурус информационно-поисковый многоязычный. Состав, структура и основные требованияк построению.