Построение вероятностной модели для слоговой структуры текста.

Избор

EnglishRussianBulgarianLithuanian

El'Manuscript-10

Конференция

Организационный комитет

Программный комитет

Направления работы конференции

Направления работы школы

Основные даты

Регистрация и заявка

Организационный взнос

Программа конференции

Список участников

Материалы конференции

Проекты и ресурсы

Организационная информация

Культурная программа

В момента 6 госта онлайн

RSS-емисии

Порталът е създаден с финансовата подкрепа на Руската хуманитарна фондация (RHF), номер на проекта 07-04-12140v.

(с) "Информационните технологии и писменото наследство", 2008-2020 г.

Построение вероятностной модели для слоговой структуры текста.

Автор: Михаил Александрович Шаронов

11 Июль 2010

The objects of study are the statistics of Russian text, which obtained from informants for the syllabic markup and programmatically for characters of the text. The text is submitted as sequences that consist from random variables - characters of the text. The main order of research is the influence statistical characteristics of chars to the statistical characteristics of composite events presented as sequences of letters, which in linguistics can be defined through the notion of syllable. The main idea of that study is identifying influence chars statistic's, for statistic's of composite events, such as syllables. Established regularities proposed to use in applied problems of speech's modeling, in particular, in defining the boundaries between syllables.

При работе в пограничных с лингвистическими направлениями областях знаний часто приходится сталкиваться с проблемами толкования общеупотребительных лингвистических терминов, таких как слово, морфема, слог, фонема, буква. Существуют различные утверждения о каждом из этих понятий, что указывает на наличие множественной и важной проблематики, часто понимаемой неоднозначно. Для большей определённости в данной работе используются определения, приведённые в работе А.В. Корочкова [Компьютерное 2009: 9] как наиболее подходящие, по нашему мнению, для анализа слоговой организации текста.

Рассмотрим эти основные определения.

Слово (в графическом аспекте) – последовательность знаков, ограниченная пробелами;

Морфема – элементарная двусторонняя часть (компонент) слова, «в которой за определенной фонетической формой (означающим) закреплено определённое содержание (означаемое) и которая не членится на более простые единицы того же рода»;

Определение для понятия слог ещё более неоднозначно. По сведениям [Вестник 2010, 1/1: 100] видно, что такое явление как слог, несмотря на кажущуюся простоту, является довольно сложным в лингвистике. Описания слога могут даваться в различных аспектах: акустических, артикуляционных, функциональных. Для удобства в дальнейшем используется следующая интерпретация понятия «слог».

«Слог – это объединение согласных и гласных в группу. Слог как фонологическая единица определяется как минимальная группа фонем с гласным, составляющим ядро группы, окруженным согласными в сочетаниях, допустимых структурой изучаемого языка» [Вестник 2010, 1/1: 101].

Буква – элементарная (далее неделимая) единица графической системы языка, представляющая собой класс графически сходных написаний, или, в другой терминологии, буква - есть элемент алфавита языка.

Фонема – (по аналогии с буквой) это такая единица звуковой системы языка, которая представляет собой класс фонетически сходных звуков.Следует понимать, что текст «… как объект изучения для лингвистов, специфичен и, вообще говоря, неоднозначен. Если иметь в виду «чистого» лингвиста — в качестве «крайнего случая» возьмем языковеда, изучающего структуру мертвого языка, — то единственный материал такого лингвиста — это тексты. Однако даже применительно к данной ситуации нельзя сказать, что тексты и являются подлинным объектом лингвистического исследования. Лингвист анализирует текст, но изучает язык, т. е. систему абстрактных, общих для всех текстов элементов и закономерностей их функционирования в текстах. Так можно описать собственно лингвистическое понимание языка. Задача лингвиста при данном подходе состоит, следовательно, в том, чтобы описать язык по данным текста» [Щерба 1974].

Как упоминается в [Фонологические 1983], «…в русском языке членение слова на минимальные значимые единицы (морфемы) и на слоги слабо скоррелировано. Например, морфологическое и слоговое строение русского слова ‘отыскалась’: ‘от-иск-а-л-а-сь’; ‘/а-тыc-ка-лас/’. Границы морфем и слогов здесь не соотнесены: части одной морфемы оказываются внутри разных слогов, соединяясь с частями соседних морфем, т.е. имеет место слоговое переразложение морфем».

Важным этапом в конструировании систем обработки речи является этап проектирования механизма определения границ между слогами. Понимание работы механизма распознания таких границ, в частности, его моделирование является промежуточным этапом в достижении результатов для стратегически важных направлений наук, изучающих речевые механизмы. С классификацией стратегически важных направлений можно ознакомиться в [Основы 2001: 515].

Для решения задачи построения интерфейса системы адекватного общения (далее САО) [Письменное 2009: 71] также необходимо правильное понимание и выделение границ между слогами, из которых состоят слова. Так, в большинстве случаев правильная постановка таких границ помогает в определении смысловой нагрузки слова.

На практике границы между слогами неоднозначны и внутри одного и того же слова могут выглядеть, например, следующим образом: ‘О-сле-пи-тель-ный’, ‘по-смат-ри-вал’ или ‘ос-ле-пи-тель-ный’, ‘пос-мат-ри-вал’. Правая часть данного примера демонстрирует границы слоговой разметки без учёта морфологической структуры слов, левая демонстрирует границы слогов и учитывает морфологическую конструкцию слов.

Переходя к конструированию интерфейса САО, необходимо определить, каким образом неформализованная информация должна представляться машине, каким образом необходимо хранить данные, чтобы обеспечить своевременный доступ к нужной информации, как сопоставлять представленную информацию с уже имеющейся в памяти и т.п.

Кроме того, при разработке алгоритма работы интерфейса САО необходимо учесть, что речевые сообщения должны представляться в интерфейсе САО с учётом психофизиологических принципов, наблюдаемых в механизмах обработки информации, свойственных человеку.

В данной работе механизм разграничения слогов в тексте исследовался методом экспертных оценок. В качестве материала для исследования использовался отрывок из повести А.С. Пушкина «Капитанская дочка». Экспертам было предложено разделить отрывок из повести объёмом более 3000 символов на слоги, руководствуясь личным опытом.

Были подсчитаны частотные характеристики слогов, выделенных экспертами. Сводная таблица выборочных сведений по двум экспертам представлена в приложении 1. Результаты демонстрируют существенные различия в наблюдениях экспертов.

Можно отметить, что в некоторых случаях вероятности деления слов на слоги оказались разными. Например: один из экспертов смог распознать в тексте 112 типов двух буквенных слогов, в то время как другой распознал только 109, что говорит о разном подходе экспертов при делении слов на слоги [см. Приложение 1].

Анализ всех типов слогов, показал наличие большого количества различных типов слогов с одинаковыми вероятностями появления [см. Приложение 1]. Это множество имеет достаточно большую мощность, и тем самым существенно затрудняет дальнейшее решение задачи выделения слогов на основе вероятностей их появления. В дальнейшем при построении статистических моделей текстов использовались условные вероятности последовательностей слогов в тексте.

Следует отметить, что приведённые в таблице приложения 1 варианты слогов характеризуются, в первую очередь, удобством звучания (произношения), а это может быть связанно с минимизацией энергетических затрат при конструировании речевых сообщений человеком, а также удобством соединения разных типов слогов в речевые цепочки [Вестник 2010, 1/1: 102].

Таким образом, моделирование языковых процессов позволяет выявить основные требования к интерфейсу САО, ориентируясь на слоговую организацию человеческой речи.

Наряду с буквенным алфавитом, в работе предлагается использовать алфавит, состоящий из слоговых структур, отождествляя его с рядом традиционных фонетических конструкций изучаемого языка. Такой конструктивный базис может рассматриваться как основа для построения языковой модели, учитывающей критерии интуитивного образования речевых сообщений. В этом случае следует принимать во внимание условную вероятность появления конкретных слогов, следующих друг за другом.

При разграничении слогов целесообразно учитывать смысловые нагрузки, которые переданы в морфемах. При разрыве морфемы слоговой границей смысловая нагрузка в частных случаях может быть утрачена.

Использование вероятностных характеристик букв, приведённых в приложении 2, для вычисления условной вероятности последовательности букв, входящих в слог, даёт возможность расширить представление об информации, передаваемой в тексте. Последовательность букв в слоге определена конкретными особенностями изучаемого языка, и в часных случаях, её можно рассматривать как некоторую условную вероятностную последовательность.

Литература

Вестник 2010 - Вестник МГОУ «Лингвистика». М: Нуака, 2010;
Компьютерное 2009 – Корочков А.В. Компьютерное моделирование графемно-фонемного преобразования в английском языке. Саранск: Мордов. ун-та, 2009;
Общая 2001 – Кодзасов С.В. Общая фонетика. М: рос. гос. гуманит. ун-т, 2001;
Письменное 2009 – Баранов В.А. Письменное наследие и современные информационные технологии. Ижевск, 2009;
Фонологические 1983 – Касевич В.Б. Фонологические проблемы общего и восточного языкознания. М., 1983;
Щерба 1974 - Щерба Л. В. Языковая система и речевая деятельность. М.: Наука, 1974.

< Предишна		Следваща >