Забравена парола
Нямате достъп?
Регистрирайте се!!!
В момента 3 госта онлайн
RSS-емисии
rss20.gif

Порталът е създаден с финансовата подкрепа на Руската хуманитарна фондация (RHF), номер на проекта 07-04-12140v.

(с) "Информационните технологии и писменото наследство", 2008-2020 г.

Разметка корпуса Азбуковника 1596 г. на основе рекомендаций TEI PDF Печат Е-мейл
Автор: Кира Иосифовна Коваленко   
03 Август 2012

Summary. The paper deals with the problems of Russian manuscript dictionary digitalising. The dictionary has a complicated entry structure, which combines different types of information: word origin, definitions, quotations from literary texts, references to other words, etc. It is supposed to use the TEI encoding scheme, as it provide a wide variety of tags for manuscripts and dictionaries encoding. The digitalising would provide more effective access to the information and accelerate linguistic researches.

Создание корпусов текстов — одно из наиболее перспективных направлений современной лингвистики. В настоящее время в нашей стране активно развивается проект Национального корпуса русского языка, одно из направлений которого предполагает расширение корпуса за счет включения текстов, отражающих историю русского языка, — от берестяных грамот и летописей до текстов XVIII – начала XIX вв. В частности, предполагается создать Корпус старорусских текстов XV–XVII вв., в рамках которого ожидается пополнение корпуса непосредственно за счет текстов в электронном виде, а также разработка компьютерной морфологии и словаря старорусских текстов (http://www.corpling-ran.ru/n2.html). Можно предположить, что корпус среднерусских текстов стал бы более репрезентативным, если бы в него были включены тексты азбуковников XVIXVII вв. — предшественников современных словарей.

Азбуковник как лексикографический жанр сложился к середине XVI в. на основе более ранних словарных сводов — ономастиконов (глоссариев имен библейских персонажей и наименований библейских мест), приточников (перечней символов Псалтири), глоссариев к «Лествице» Иоанна Синайского и словарей-разговорников [История, 2001: 40–49]. В дальнейшем азбуковники активно пополнялись новыми статьями, источником которых служили глоссы на полях рукописей, пояснения непонятных читателю реалий в текстах литературных произведений. Поэтапный характер формирования азбуковников, разнородные сведения, представленные в нем, являются причиной того, что статья азбуковника включает в себя достаточно разнородную информацию и далеко не всегда имеет четко выстроенную линейную структуру.

Азбуковник, выбранный для разметки, является типичным представителем своего жанра. Он был создан в Новгороде в 1596 г. в монастыре Антония Римлянина и сохранился до настоящего времени в единственном списке начала XVII в. (РНБ, собр. Погодина, № 1642). В нем содержится более 6000 статей, которые организованы по первой букве и по следующей гласной. В отличие от своих предшественников, в нем представлена не только лексика греческого, латинского, старославянского и тюркского происхождения, но имеется значительный пласт лексических единиц из польского языка.

Структура статьи азбуковника имеет достаточно сложную организацию. Так, в заголовочной части статьи может быть слово, словосочетание или целая фраза (например: Кеси е̓ро́тисон а̓паоу̓тонъ или Что ес пѧть чювьствъ дше҃вных и̓ пѧть тѣле́сныхъ). Зона толкования может содержать объяснение сразу нескольких слов (Житїе и жизнь (т) житїе нарицает е̓же кто какова ѿц҃а и̓ кое̓го̀ града и̓ кое̓ѧ̀ вѣ́ры. жи́знь же се ес каковыми дѣлы бг҃у оу̓годѝ, Ї кои̓ми дарова́нїи ѿ га҃ прославлен, и̓ ка́ко теченїе подвига сконча̀), указание на паронимы (Гранограѳ (т) гране́и писец землемѣ́рных. їно бо ес гранограѳ. ї и́но хронограѳ), а также дополнительную информацию, относящуюся к толкованию данного слова опосредованно (Всепло́дїе (т) в̾ ветхом законѣ прїведе́ное о̓вча. и̓ли волъ на жр҃тву вг҃ви. е̓гда̀ закла́вше всесо́жгут, т̑о всепло́дїе їменуетсѧ. а̓ е̓гда̀ заклавше, нѣ́кїѧ ча́стї бг҃у ѿдѣлат нѣкїѧ же їе̓реwм ї народом на снѣденїе, то наричетсѧ же́ртва). Как правило, над заготовочным словом указывается предполагаемый язык-источник, однако данная помета может присутствовать и над любым другим словом в любой части статьи (Салафѳа {ж}, и̓ри́на {г}, ̓е́же ес мирнаѧ). В некоторых случаях на полях указываются литературный источник (источники), из которых данная статья попала в азбуковник. Но иногда ссылка на источник оказывается без пометы, и остается только догадываться, к какой же статье азбуковника она относится.

Разметку корпуса словаря предполагается осуществить на основе рекомендаций TEI Text Encoding Initiative (версия P5). На базе рекомендаций TEI уже были реализованы и продолжают функционировать более 150 проектов (http://www.tei-c.org/Activities/Projects). Среди отечественных проектов можно отметить информационно-поисковую систему «Русская литература XVIII века» (http://antology-xviii.spb.ru), также выдвинут ряд предложений по использованию TEI в работах [Вадяев, 2005; Вотинцев, 2006; Бабалык и др., 2010; Захаров и др., 2011].

Все более широкое распространение стандартов TEI обусловлено тем, что рекомендации по разметке рассчитаны на разные типы текстов: прозаические и стихотворные произведения, словари, транскрипцию разговорной речи. Отдельное внимание уделяется электронному представлению текстов рукописных источников. Необходимо также отметить, что рекомендуемая разметка рассчитана в том числе и на словари со сложной структурной организацией, что дает возможность пользоваться исключительно предложенными тегами и атрибутами, не усложняя код разметки дополнительными нововведениями.

В качестве примера использования предлагаемых TEI тегов возьмем статью азбуковника Кида́ръ {ж} {ѱл҃ом рѳi҃} (т) тма. и̓лѝ клобукъ а̓рхїе̓ре́искїи.  ̓и́же и̓ митра гл҃е/тсѧ. Ї па́ки кидар нарица́ет и̓ до́мы татар̾скїѧ. о̓вы бо  ̓и́хъ в землѝ и̓ско́паны, и̓ того рад“ те́м̾ныи; о̓вы на колесни́цах, полстмѝ о̓гражде́ны;  ̓е́сть же и̓ град нарица́емъ кида́ръ о̓ нем̾же пи́шетъ, всели́хсѧ с селы кидаръскїми. Разметка данной статьи, ориентированная на структурную организацию, будет выглядеть следующим образом:

<entryFree>

            <form><w>Кида́ръ<note><lang>ж</lang><bibl><title>ѱл҃ом рѳi҃</title></bibl> </note></w></form>

            <sense> (т) <def n="1">тма.</def> и̓ли <def n="2"> клобукъ а̓рхїе̓ре́искїи. ̓и́же и̓ <mentioned>митра</mentioned> гл҃етсѧ.</def> Ї па́ки кидар нарица́ет и̓ <def n="3">до́мы татар̾скїѧ. о̓вы бо ̓и́хъ в землѝ и̓ско́паны, и̓ того радте́мныи; о̓вы на колесни́цах, полстмѝ о̓гражде́ны;</def> <def n="4">̓е́сть же и̓ град нарица́емъ кида́ръ о̓ нем̾же пи́шетъ, <cit> <quote>всели́хсѧ с селы кидаръскїми</quote> </cit></def></sense>

</entryFree>

Кроме разметки текста в соответствии со структурой статьи, предполагается ввести дополнительные сведения: по возможности определить иноязычное слово в языке-источнике, лексикографический или литературный источник и контекст, послуживший материалом для создания той или иной статьи, тематическая разбивка лексики по группам. Это должно значительно облегчить лингвистическое исследование корпуса азбуковника, в частности, поможет точнее определить, из каких языков лексика той или иной тематической группы наиболее активно проникала в русский язык, а также выявить фонетические и графические приемы передачи иноязычных слов.

 

Список литературы

Бабалык и др., 2010 — Бабалык М.Г., Варфоломеев А.Г., Пигин А.В. Использование формата TEI для публикации и анализа списков произведений вопросо-ответного жанра // Информационные технологии и письменное наследие: Материалы междунар. науч. конф. (Уфа, 28–31 октября 2010 г.) / Отв. ред. В.А. Баранов. Уфа; Ижевск: Вагант, 2010. С. 17–20.

Вадяев, 2005 — Вадяев С.Е. Лингвистические принципы построения и использования корпуса текстов для исследования официально-делового стиля современного немецкого языка (на материале электронного корпуса «DER»). Автореф. дис. на соиск. учен. степ. к.филол.н. Н. Новгород, 2005.

Вотинцев, 2006 Вотинцев П.А. Использование формата TEI для обмена данными с полнотекстовой информационно-поисковой системой «Манускрипт» // Современные информационные технологии и письменное наследие: от древних рукописей к электронным текстам: Материалы междунар. науч. конф. (Ижевск, 13–17 июля 2006 г.) / Отв. ред. В.А.Баранов. Ижевск, 2006. С. 30–31.

Захаров и др., 2011 — Захаров В.П., Митрофанова О.А., Михайлова В.Д. Разметка словарей в соответствии со стандартом TEI // Информационные технологии в лексикографии. СПб., 2011. С. 61–69.

История, 2001 — История русской лексикографии / Отв. ред. Ф.П. Сороколетов. СПб., 2001.
 
< Предишна   Следваща >