Школа 2009
Школа
Организационный комитет
Программный комитет
Направления работы школы
Основные даты
Регистрация и заявка
Конкурс
Конкурсные работы
Организационный взнос
Программа школы
Материалы школы
Участники школы
Организационная информация
Культурная программа
Фотогалерея





Забыли пароль?
Ещё не зарегистрированы? Регистрация
Сейчас на сайте находятся:
4 гостей
RSS-ленты новостей
rss20.gif

Портал был создан при финансовой поддержке Российского гуманитарного научного фонда (РГНФ), проект № 07-04-12140в.

(c) "Информационные технологии и письменное наследие", 2008-2020

К вопросу о синхронизации лингвистических словарей диахронических корпусов: правила установления соответствий PDF Печать E-mail
Автор(ы): Ольга Викторовна Гулина, Анастасия Андреевна Соколова   
19.09.2009 г.

This article is about grammar dictionaries of the IAS “Manuscript” (the Old Russian grammar dictionary, the modern Russian grammar dictionary). There are their synchronization  rules provided with the search for units of one dictionary on the basis of units of another one and with the transliteration of the medieval Slavonic texts for their presentation in the electronic edition by tools of the modern graphic and orthography.

1. Информационно-аналитическая система «Манускрипт» (далее – ИАС), ориентированная на автоматизированную обработку, исследование и публикацию средневековых славянских текстов в Интернете, позволяет осуществить различные операции с документом, такие как ввод, редактирование, фрагментирование, осуществление выборки данных, создание формоуказателей к тексту, получение сравнительных характеристик единиц текста и т.д. [Баранов 2003: 234].

Помимо текстовых модулей в ИАС создан модуль грамматических словарей, который является основой механизма лемматизации древнерусских текстов и обеспечивает:

«- создание и редактирование единиц словаря - основ, типов изменения и окончаний, их значений - лексико-семантических, грамматических  классифицирующих и словоизменительных;

- установление и редактирование связей между единицами одного словаря и единицами разных словарей: основа - вариантные основы с чередованием; основа-тип изменения с перечнем окончаний, основа - эквивалентная основа другого словаря;

- визуализацию результатов в виде парадигм» [Баранов 2008: 53].

Словарная база данных представляет комплекс грамматических словарей:

- грамматический словарь древнерусского языка (ГСДЯ),

- грамматический словарь старославянского языка (ГССЯ),

    - грамматический словарь современного русского языка (ГССРЯ), подготовленный на основе электронного грамматического словаря А.А.Зализняка и А.Сокирко.

Цель данной работы - описать правила установления соответствий между единицами разных словарей (ГСДЯ и ГССРЯ). Наличие таких соответствий должно позволить осуществлять поиск единиц одного словаря на основе единиц другого.

Процедуру установления соответствий между единицами лингвистических словарей одного языка в разные периоды его существования, использующих различные графико-орфографические системы для кодировки словоформ, мы называем синхронизацией словарей. Наличие правил синхронизации позволяет достичь и другой цели - транслитерации средневековых славянских текстов для представления их в электронном издании средствами современной графики и орфографии.
2. В истории публикации древнерусских памятников уже накоплен значительный опыт транслитерации текстов. Транслитерация использовалась при издании исторических документов, произведений древнерусских авторов учеными XIX-XX вв. Во многих публикациях древнерусский или старорусский текст передается согласно следующим правилам:

отсутствующие в гражданском шрифте буквы, такие как , , , , , , , , , , , , заменялись соответствующими буквами и сочетаниями я, е, у, ю , о, ф, кс, пс, и, з;

-  буква ѹ передается как у, но есть издания, где = оу, например, “Псковские летописи” [Псковские 2003];

буква передается, как и, но аналогично пункту с буквой ѹ = i в издании “Софийской первой летописи” [Софийская 2000]. Сохраняется  в “Древнерусских княжеских уставах XI-XV вв.” [Древнерусские 1976];

-  начертания под титлами передаются полностью;

          -выносные буквы вносятся в строку;

буква , как правило, сохраняется, но в некоторых изданиях заменяется на е, например, в “Соборном уложении 1649 года” [Тихомиров 1961].

Существенные расхождения встречаются при передаче , . Некоторые издания передают буквы и в соответствии с текстом памятника, например, издания “Новгородской первой летописи старшего и младшего изводов” [Новгородская 2000], “Летописи по Воскресенскому списку” [Летопись 2001], “Древнерусских княжеских уставов XI-XV вв.” [Древнерусские 1976], “Пособия для изучения Русской правды” [Тихомиров 1953], “Актов Феодального землевладения и хозяйства XIV‑ XVI вв.” [Акты 1951]. В издании “Актов Социально-Экономической истории Северо-Восточной Руси конца XIV - начала XV вв.” [Акты 1952] буква употребляется лишь в середине слов перед гласными. Опущен в конце слов в “Соборном Уложении 1649 года” М. П. Тихомирова и П. П. Епифанова [Тихомиров 1961] и др.

3. При транслитерации единиц грамматического словаря древнерусского языка мы аналогичным образом приравниваем друг другу отсутствующие буквы и их сочетания современного и старославянского/древнерусского алфавитов:

= = = я, = е, = у, = ю, = о, = ф, = кс, = пс, = з, ѹ = у, = ѹ = = = = и в заимствованных словах, например , ,  = миро,  = мирра, , = тимпан,  = Египет,  = Вавилон,  = идол.

При установлении соответствий между элементами ГСДЯ и ГССРЯ мы учитываем следующие правила:

А) Если в современном языке есть слово, соответствующее по графико-орфографическим, грамматическим и/или словообразовательным особенностям древнерусскому, то связываем его со всеми имеющимися соответствиями, например,   =  1. скотина,  2. скотина, 3. скотина.

B) Если в современном языке нет слова, соответствующего по графико-орфографическим, грамматическим и/или словообразовательным особенностям древнерусскому, то вводим слово в современный словарь в адаптированном для современного русского языка графико-орфографическом виде, по правилам, указанным ниже.

C) Если в современном языке нет точного графико-орфографического, грамматического и/или словообразовательного соответствия, то связываем с современным словом, имеющим аналогичное значение, аналогичный морфемный состав, но иное написание, включая следующие случаи:

·             // ( -  = вождение,  -  = рождение);

·             // ( = свеча);

·             //( = бесчиние);

·             // ( -  = лай);

·             // ( = дыра);

·             // ( = легион);

·             // ( = луч);

·             //// ( = 1. преношение, 2. приношение,  = 1.  пременение, 2. применение);

·             протетическое «» (= ус);

·             вставочное «» ( = алелилуиарь);

·             вставочное «» ( = боярин);

·             вставочное «» (= возраст);

·             диссимиляция (= верблюд);

·             // (= схимник);

·             // ( = аромат).

4. В следующих случаях вводим единицы с заменой на й, на и:

·              На конце существительных мужского рода - = -й ( = бой).

·              На конце существительных - = -ийца ( = убийца).

·              В суффиксах существительных  - = ‑ейство, ‑ = ‑ийство ( = прелюбодейство,  = убийство).

·              В суффиксах существительных -  = -ейник ( = прелюбодейник).

·              На конце существительных мужского рода - = -ей, -ий (по современному слову), например,  = воробей,  = ручей.

·              На конце существительных женского рода - = -ия, например,  = молния.

 На конце существительных женского рода - = -иня (после заднеязычных –  , , , шипящих – , , , аффрикат – , ) // -ыня (после остальных согласных), например   = богиня,  = рабыня.

·              На конце существительных мужского рода - = -ец ( = благодеец).

·              В суффиксах наречий - = -йно ( = достойно).

 На конце местоимений - = -й ( = мой).

Исключение:  = кровопийца (в соответствии с современным написанием).

5. В случаях с полногласием (первым, вторым)/неполногласием учитываем следующие правила:

Если в современном языке есть полногласный и неполногласный вариант, то вводим оба, причем в качестве первого варианта дается форма, максимально совпадающая в написании:  - :  = 1. сторона, 2. страна;  = 1. страна, 2. сторона.

·             Если в современном языке есть только один вариант, то вводим недостающий вариант в ГССРЯ, затем связываем исходный вариант с двумя, причем в качестве первого соответствия даем форму, максимально совпадающую в написании, например,  - : добавляем в ГССРЯ блато (тип изменения – болото), затем:  = 1. болото, 2. блато;  = 1. блато, 2. болото.

·             Если в современном языке нет ни полногласного, ни неполногласного вариантов, то вводим оба в ГССРЯ и связываем каждое слово с двумя вариантами, причем в качестве первого соответствия дается форма, максимально совпадающая в написании.

Исключения:  - :

 = 1. гражанин, 2. горожанин, 3. гражданин,

 = 1. гражданин, 2. гражанин, 3. горожанин.

6. Единицы с начальными сочетаниями типа &#-*335;lt, &#-*335;rt вводим аналогично единицам с полногласием/неполногласием, например:

 - : = 1. лакоть (вводим это слово в ГССРЯ, тип изменения – локоть), 2. локоть;  = 1. локоть, 2. лакоть;

 -  (вводим оба слова в ГССРЯ, тип изменения – помощник):  = 1. ладейник, 2. лодийник,  = 1. лодийник, 2. ладейник.

В случаях, если слово могло употребляться как с начальным - , так и с -, вводим единицы аналогично единицам с полногласием/неполногласием, например:

  - :  =1. одва, 2. едва; =1. едва, 2. одва.

Этот пункт распространяется только на те слова, которые имели двоякое написание.

7. Для единиц с приставкой - устанавливаем соответствия по следующим правилам:

·              В случаях типа ,  связываем единицы согласно пункту “C” правил установления соответствий (сюда относятся такие слова, как , , , , );

·              Во всех остальных случаях даем два соответствия: пре-, пере-, например,  = 1. преполовление, 2. переполовление.

Исключения:  = преграда,  = прегрешение,  = предание,  = пределие,  = пресвитер,  = преклонение,  = 1. преложение, 2. переложение, 3. приложение,  = прелесть,  = прелестник,  = прельщение,  = прелюбодей,  = прелюбодейник,  = прелюбодейство,  = прелюбодеяние,  = премудрость,  = 1. премедление. 2. промедление, 3. промедленье,  = преображение,  = преподобие,  = преподобник,  = переселение,  = преставление,  = престол,  = преступление,  = преступник,  = пресыщение,  = переход.

·              Для единиц с приставкой - во всех случаях даем одно соответствие – пред-, например,  = предстатель.

Исключение:  = 1. пред, 2. перед.

8. Для случаев употребления редуцированных гласных используем следующие правила:

·              Если редуцированный гласный находится в сильной позиции, то тогда  = о, = е (ё – по современному слову), в слабой – нуль звука (рот, = лён).

·              Если редуцированный находится в приставках -, - перед согласным корня или приставки, тогда вводим невокализованный и вокализованный варианты написания, например:

 = 1. вздание, 2. воздание;

= 1. встание, 2. восстание.

Исключения:  = возвращение,  = возвышение,  = воздаяние,  = воздух,  = воздержание,  = воздыхание,  = возраст,  = возраст,  = воссияние,  = 1. воскресение, 2. воскресенье,  = воскрешение,  = воспоминание,  = воспевание,  = восхищение.

·              Если редуцированный встречается в сочетаниях с плавными, то вводим в соответствии с современным эквивалентом ( = слеза,  = болван). В случаях типа  с «русской» реализацией группы *tьrt вводим современный вариант: 1. поуверзение, 2. поуверзенье.

·              В случаях написания на конце слов мужского и женского рода вводим в соответствии с современной орфографией, например  = мовь (т.к. третье склонение), = предстоятель (как, например, учитель – м.р., первое академическое склонение).

·              В случая написания , на конце приставок вводим единицу в соответствии с современной орфографией.

·              В случаях написания , в суффиксах вводим единицу в зависимости от позиции,

а также:

-() (+ алломорф -()) = -ник (-ниц(а)), но после , , , = -еник, например,   = воздерженик;

- (+ алломорф -()) = -льник (-льница), например,  = посольник,  = стрельник, но  = сдумник;

- = -ство, но после , , , , ,  = -ество, например, убожество, = умничество,  = вазнество, но –  = уродство.

Примечание: сочетание - = -стьство, например:

 = четверовластьство,    = 1. уностьство, 2. юностьство.

Исключения:  = 1. всхищник, 2. восхищник,

 = гостиница,

 = 1. лествичник, 2. лестничник,

 = 1. ремественик, 2. ремесленник.

9. В древнерусском языке наблюдается чередование // в корневой морфеме. В таких случаях вводим единицу по современной орфографии либо по современному соответствию, например,  -  = вопрошать (по современному соответствию).

Исключения:    = покланятель,

 = поклонятель.

10. В древнерусском языке наблюдается мена // в корневой морфеме. Аналогично случаям // вводим единицу по современной орфографии либо по современному соответствию, например,  -  = посмехатель (по современной орфографии – морфологический принцип).

11. В древнерусском языке в качестве соединительного гласного наблюдается //. Вводим единицу по современной орфографии и/или по современному соответствию, например:

 = градовзимание (по современной орфографии),

 -  = телохранитель (по современному соответствию),

 = двуязычник, т.к. однокоренное к   =  двуязычие (по современному соответствию).

12. Для имен существительных с типом основы на *-r, &#-*363; даем грамматическое соответствие, например,  = дочь,  = свекровь,  = смоква и др.

13. В односложных словах типа  = стыд,  = тыл и однокоренных образованиях от них = ы.

14. Случаи типа  - ,  ‑ :

 = 1. приелепсия, 2. приелипсия.

 = 1. приелипсия, 2. приелепсия.

 = 1. пентикостия, 2. пятикостия.

 = 1. пятикостия, 2. пентикостия.

Таким образом, описанные нами правила позволяют установить соответствия между единицами разных словарей (ГСДЯ и ГССРЯ), что в свою очередь способствует организации поиска и подготовки выборок данных в различных словарях модуля.
 
Литература
 

     Акты социально-экономической истории Северо-Восточной Руси конца XIV – начала XVI вв.: в 3 Т. / сост. С. Б. Веселовский; [отв. ред. Б. Д. Греков]. М. : Изд-во АН СССР, 1952. – Т. 1. - 804 с.

     Акты феодального землевладения и хозяйства XIV - XVI веков: в 3 Ч. / подгот. к печ. Л. В. Черепнин; [отв. ред. С. В. Бахрушин]. - М. : Изд-во АН СССР, 1951. – Ч.1. - 400 с.

      Баранов, В. А. Полнотекстовые базы данных как основа для электронных изданий средневековых рукописей в Интернете: требования, реализация, перспективы / Виктор Баранов // Scripta & e-Scripta : The Journal of Interdisciplinary Mediaeval Studies. Vol. 6. – Sofia : “Boyan Penev” Publishing Center ; Institute of Literature, BAS, 2008. – 434 с. – C. 47-64, 422. – ISSN 1312-238X.

       Баранов, В.А. Электронные издания древних письменных памятников и технология создания полнотекстовых баз данных / В. А. Баранов, А. А. Вотинцев, Р. М. Гнутиков, О. В. Зуга, А. Н. Миронов, С. А. Никифорова, С. В. Ощепков, В. А. Романенко, Е. В. Рябова // Круг идей: электронные ресурсы исторической информатики: Труды VIII конференции Ассоциации "История и компьютер" / Под ред. Л.И. Бородкина, В.Н. Владимирова. – М.; Барнаул: Изд-во Алт. ун-та, 2003. – С. 234–270.

Древнерусские княжеские уставы XI - XV вв. / изд. подгот. Я. Н. Щапов, М. : Наука, 1976. - 241 с.

Летопись по Воскресенскому списку // Полное собрание русских летописей, М. : Языки русской культуры, 2001. – Т. 7. – 360 с.

Новгородская первая летопись старшего и младшего изводов // Полное собрание русских летописей, М. : Языки русской культуры, 2000.- Т. 3. - 720 с.

Псковские летописи // Полное собрание русских летописей, М. : Языки русской культуры, 2003. – Т. 5. Вып. 1. – 147 с.

Софийская первая летопись старшего извода // Полное собрание русских летописей, М. : Языки русской культуры, 2000. – Т. 6. Вып. 1.- 312 с.

Тихомиров, М. Н. Пособие  для  изучения  Русской Правды / М. Н. Тихомиров. ‑ М.: Изд-во МГУ,  1953. – 192 с.

         Тихомиров, М. Н. Епифанов, П. П. Соборное уложение 1649 года: Учеб. пос. для высш. школы / М. Н. Тихомиров, П. П. Епифанов. – М. : Изд-во Моск. ун-та, 1961. – 444 с.
 
« Пред.