El'Manuscript '08
Конференция
Организационный комитет
Программный комитет
Направления работы конференции
Направления работы школы
Основные даты
Регистрация и заявка
Организационный взнос
Программа конференции
Список участников
Материалы конференции
Проекты и ресурсы
Организационная информация
Культурная программа
Фотоотчет





Забравена парола
Нямате достъп?
Регистрирайте се!!!
В момента 2 госта онлайн
RSS-емисии
rss20.gif

Порталът е създаден с финансовата подкрепа на Руската хуманитарна фондация (RHF), номер на проекта 07-04-12140v.

(с) "Информационните технологии и писменото наследство", 2008-2020 г.

Новые модули в составе НКРЯ: текущее состояние и перспективы развития PDF Печат Е-мейл
Автор: Елена Александровна Гришина   
30 Июнь 2008
Итак, моя лекция посвящена новым модулям, или новым подкорпусам в составе Национального корпуса русского языка. Я буду рассказывать о них, исходя из того, что базовые возможности Корпуса и его структура хорошо известны аудитории, чтобы не повторять всем известные банальности. Корпусу в этом году исполнилось пять лет, и мы рассчитываем на то, что он уже в достаточной степени закрепился в исследовательском узусе лингвистов.

На ранних этапах создания Корпуса, когда не только перспективы его развития, но и сам факт его существования были далеко не очевидны, в качестве названия сайта В. Плунгяном и И. Сегаловичем было предложено множественное число от латинского corpus corpora, и это, как теперь совершенно ясно, оказалось элементом предвидения. Корпус превращается в некоторый конгломерат корпусов, в центре которого, естественно, находится Основной корпус (корпус прозаических письменных текстов в двух разновидностях – корпус со снятой грамматической омонимией и корпус с автоматически размеченной грамматикой и, следовательно, с неснятой морфологической неоднозначностью), а вокруг Основного корпуса группируются более мелкие по объему корпуса со специфическим материалом. На сегодняшний день таких дополнительных корпусов 6 – синтаксический, поэтический, устный, обучающий, диалектный, параллельный. К концу 2008 г. мы планируем открыть акцентологический корпус, а в ближайшие три года намереваемся приступить к созданию мультимедийного подкорпуса.

Говорить я буду не обо всех подкорпусах – во-первых, для подробного рассказа о каждом из них не хватит и двух лекций, а во-вторых, с моей точки зрения, предпочтительно рассказывать о тех проектах, в реализации которых ты участвовал лично.  Кроме того, два корпуса – параллельный и диалектный – в настоящий момент находятся в стадии глубокой реконструкции, поэтому нет смысла рассказывать подробно о той стадии их существования, которая, вероятно, долго не продлится.

В связи с этим я скажу буквально пару слов о синтаксическом и обучающем корпусах, а основное внимание уделю устному и поэтическому подкорпусу, а также акцентологическому и мультимедийному проектам.

Синтаксический корпус – новаторский проект, который был полностью разработан, подготовлен и осуществлен исследовательской группой под руководством Ю.Д.Апресяна и Л.Л.Иомдина. В корпусе представлены деревья зависимостей для 500 предложений русского языка с полностью размеченными синтаксическими связями и морфологическими характеристиками и со снятой грамматической и синтаксической омонимией. Подробно о составе и структуре синтаксического корпуса, а также о правилах пользования можно прочитать на сайте корпуса по адресу http://www.ruscorpora.ru/instruction-syntax.html.

Обучающий корпус был создан по заказу Министерства образования России в интересах преподавателей русского языка и литературы, прежде всего, школьных учителей. Он включает в себя относительно небольшое количество текстов, каждый из которых входит в школьную программу по литературе (в список для основного или для дополнительного чтения). В этих текстах снята морфологическая омонимия, а грамматическая разметка адаптирована к школьной программе, в частности, введены понятия «1, 2, 3 склонение», а также «1 и 2 спряжение», которые в Основном корпусе не используются. Кстати, в ходе создания Обучающего корпуса стало ясно, что типы склонений и спряжений – достаточно удобные понятия, чтобы перенести их из Обучающего корпуса в Основной. В частности, например, в Основном корпусе на данный момент нет возможности быстро получить ответ, например, на вопрос – есть ли среди существительных мужского рода а-склонения (типа папа, воевода) неодушевленные. Обучающий корпус позволяет, посредством запроса «1 склонение, мужской род, неодушевленный» получить искомый ответ (поскольку объем обучающего корпуса небольшой, то и ответ по объему небольшой, – только слово голосина). В дальнейшем мы планируем пополнять и развивать Обучающий корпус, а также пропагандировать его среди учителей, для которых он, собственно, и создавался. В частности, следует думать о размещении в Обучающем корпусе не только прозаических, но и поэтических текстов, которые составляют значительную часть материала в школьном преподавании русской литературы.

Устный корпус. Для того, чтобы некоторая часть Основного корпуса могла считаться самостоятельным модулем и оформляться соответствующим образом, недостаточно содержательной самостоятельности включенного в подкорпус материала. Для того, чтобы модуль был признан самостоятельной сущностью, требуется, чтобы в его поисковой форме имелись некоторые параметры, не применимые к остальным подкорпусам, и прежде всего к Основному корпусу.

Для устного корпуса, на первый взгляд, такой особенностью является система жанров (типов) устных текстов, которая лишь частично пересекается с жанрами (типами) текстов в основном корпусе. Пересечение жанров (типов) текстов выглядит следующим образом:

Основной корпус: типы нехудожественной речи

Публичная устная речь

Непубличная устная речь

Основной корпус: типы художественной речи

Киножанры

беседа

 

 

доклад

 

интервью

комментарий

лекция

 

рассказ

репортаж

 

 

речь

эссе

 

 

боевик/кинобоевик

детектив/кинодетектив

детская литература/детское кино

историческая проза/кино историческое

приключения/кино приключенческое

фантастика/кино фантастическое

юмор и сатира/кинокомедия

повесть/киноповесть

притча/кинопритча

сказка/киносказка

биография

 

кино биографическое

Однако такое частичное совпадение жанров, как представляется, не является достаточной причиной для создания отдельного модуля – не случайно первоначально устный корпус был подмножеством Основного, да и сейчас является таковым, – полностью данные устного корпуса будут выведены из Основного осенью текущего года.

Гораздо более принципиальным является тот факт, что устный корпус позволяет производить тип поиска, не предусмотренный в Основном корпусе. Напомню, что единицей описания в Основном корпусе является текст –  именно тексту присваиваются такие параметры, как Автор, Год создания, Жанр/Тип, Сфера функционирования, Хронотоп и прочие признаки, по которым пользователь может отбирать из корпуса те или иные подмножества и формировать свой собственный, пользовательский подкорпус. А следующим этапом разметки для Основного корпуса является слово – ему приписываются морфологические и семантические характеристики, по которым и производится морфологический и/или семантический поиск (в сочетании с лексическим поиском или без учета конкретной лексемы). Все промежуточные градации в Основном корпусе опущены. Таким образом, пользователь не имеет возможности, например, отобрать в Основном корпусе все реплики княжны Марьи из романа «Война и мир», или женскую речь в прозе Пушкина, или речь пожилых персонажей в романах Боборыкина, или авторскую речь в прозе Лермонтова.

В Устном корпусе ситуация иная – и именно это послужило основанием для выведения Устного корпуса из состава Основного и функционирования его в качестве самостоятельного модуля. Каждая реплика в Устном корпусе снабжена данными о возрасте, поле и имени говорящего (если таковые, естественно, известны составителям и могут быть представлены публично без нарушения этических и юридических табу) – и эта совокупность данных повторяется при каждом слове, входящем в данную реплику. Таким образом, благодаря тому, что в Устном корпусе введена еще одна ступень разметки между целым текстом и отдельным словом, – ступень реплики, пользователь получает возможность обращаться к «социологическим» параметрам текста, а именно, запрашивать подкорпус 1) женской/мужской речи, 2) подкорпус говорящих того или иного года рождения, 3) подкорпус говорящих того или иного возраста, 4) подкорпус реплик того или иного актера (для речи кино). Сейчас, к сожалению, социологический поиск работает не в полном объеме – для года рождения говорящего и его возраста в момент произнесения той или иной реплики поиск возможен только в речи кино, но в  ближайшее время этот недостаток будет исправлен.

Такая разметка позволяет довольно быстро производить микроисследования, которые в отсутствии социологической разметки требуют от пользователя значительных усилий. Например, запрос по году рождения говорящего в сочетании с запросом от жанра/типа устного текста прекрасно показывает полное отсутствие в современной устной речи глагола изволить. Этот глагол в основном встречается в текстах, стилизованных «под старину» и/или под «зарубежную/сказочную жизнь»:

Хронотоп текста

«Зарубежная» жизнь

Сказка

18 в.

19 в.

Начало 20 в.

1917-1920-е гг.

1930–1940-е гг.

Современная жизнь (после 1950 г.)

Количество

3

7

10

19

1

11

3

8

 

87%

13%

Вне кинематографа этот глагол употреблен в корпусе два раза в устной публичной речи в устойчивом выражении «чего изволите»:

·        [Рыбкин, муж] Не заискивать / не по принципу «чего изволите» / а быть эффективной оппозицией [Беседа А. Венедиктова с И. Рыбкиным в эфире радиостанции «Эхо Москвы» // 2003-2004] 

·        [№ 8, жен] Иракцы американцам все время под зад пинали. А не как многие страны / «Что изволите? « [Беседа с социологом на общественно-политические темы (Самара) // «Фонд “Общественное мнение”», 2003],

и только один раз в устной непубличной речи в ироничном контексте:

  • [Пассажирка1, жен] Неужели нельзя было убрать это... Тьфу ты! [Пассажир1, муж] Вот я слышу голос взрослой женщины / но рассуждения наивной школьницы. Это / как вы изволили выразиться / нельзя просто так убрать. Требуется некоторое время. [Гробовая тишина и затем смех] [Разговор в транспорте // 2006]

При этом средний год рождения актеров, употребляющих этот глагол, – 1923, средний возраст персонажа, употребляющего этот глагол, – 42 года.

Таким образом, глагол изволить может быть охарактеризован как полностью чуждый живой современной русской речи, употребляющийся как элемент стилизации и звучащий естественно только в речи актеров старого поколения, а также в речи взрослых и пожилых, и ни в коем случае не в речи молодежи и тем более детей. Письменные источники дают в отношении этого глагола гораздо более смазанную, «сбитую» картину.

Несколько небольших иллюстраций в отношении возможности исследовать на материале устного корпуса гендерных особенностей устной речи.

Априори, например, представляется, что выражение хорошенькая женщина должно быть более характерно для мужской речи, чем для женской. Однако анализ показывает, что это не так:

слово хорошенький

всего

о женщине

о детях и животных

говорящий=женщина

72%

65%

87%

говорящий=мужчина

28%

35%

13%

Как видим, распределение женских/мужских реплик с выражением хорошенькая женщина (девушка) (65%–35%) несильно отличается от среднего распределения (72%–28%) всех реплик, в которых использовано определение хорошенький. Гораздо более явное расхождение со средним распределением наличествует в употреблении определения хорошенький (в значении ‘красивый, симпатичный’) по отношении к детям и животным (87%–13%) – мужчины употребляют в этом случае характеристику хорошенький существенно реже.

Интересно также проследить разницу между описанием формы предмета с помощью прилагательных с суффиксом ‑еньк- между мужчинами и женщинами. Наиболее частотными в этой зоне являются прилагательные кругленький и пухленький. Распределения здесь таковы:

 

всего

говорящий=женщина

говорящий=мужчина

кругленький (о вещи)

29%

50%

8%

кругленький (о человеке)

25%

0%

50%

пухленький (о человеке)

29%

42%

17%

Как видим, по отношению к вещи женщины употребляют слово кругленький, а мужчины избегают такого определения (при этом, надо заметить, слово круглый по отношению к вещам и мужчинами, и женщинами употребляется в равной степени). Что касается определения человека, то здесь между мужчинами и женщинами наблюдается существенное различие – женщины предпочитают прилагательное пухленький, а мужчины в этом же значении употребляют слово кругленький. Таким образом, определение пухленький – в значительной степени «женское» слово, а слово кругленький свойственно и мужчинам, и женщинам, но по отношению к разным классам предметов.

Поэтический корпус. Поэтический корпус был открыт на сайте Национального корпуса в 2007 г., а к концу текущего года его объем будет уже порядка 3 млн словоупотреблений. Поэтический корпус позволяет, помимо лингвистических, решать и литературоведческие или поэтологические задачи. В качестве дополнительных параметров метаразметки принята разметка по метру, схеме рифмовки, количеству стоп, строфической структуре  и типу клаузулы. Пока данные параметры приписываются тексту как целому, но в ближайшем будущем появится возможность размечать по этой совокупности признаков каждую строку стихотворения, что существенно уточнит результаты поиска. Разметка по поэтологическим признакам позволяет быстро получать список текстов, обладающих определенными признаками, например, все стихотворения Пушкина, написанные трехсложным размерами, – понятно, что при ручной работе эта элементарная операция требует много времени и усилий. Кроме того, очень быстро можно решать проблемы отбора текстов по тем или иным признакам. Например, элементарным запросом можно выяснить, что в русской поэзии не зафиксированы идиллии, написанные анапестом, а также элегии с дактилической клаузулой. Запрос ‘год создания с 1700 по 1820 г.’ + ‘дактилическая клаузула’ показывает, что для 18 в. и начала 19 в. дактилическая клаузула нехарактерна (найдено только 14 произведений с дактилической клаузулой, относящихся к этому периоду).

Помимо дополнительных признаков метаразметки в поэтическом корпусе принят такой параметр поиска, как поиск в зоне рифмовки. Зоной рифмовки называется часть стихотворной строки, содержащая расширенную клаузулу. Расширенная клаузула – это клаузула (т.е. последняя сильная доля в строке с последующими слабыми долями), расширенная до пределов словоформы, содержащей последнюю сильную долю. (Естественно, в нерифмованных стихах зона рифмовки не размечается.) В приведенном отрывке из Пушкина зона рифмовки отделена вертикальном чертой:

Два чувства дивно близки |на`м —

В них обретает сердце |пи`щу —

Любовь к родному |пепели`щу,

Любовь к отеческим |гроба`м.

Разметка в зоне рифмовки, а также возможность поиска рифмующихся единиц позволяет решать как поэтологические, так и лингвистические задачи.

Например, можно исследовать историю деграмматизации русской рифмы. Известно, что глагольная рифма на ‑али – одна из самых распространенных в русской поэзии. С помощью поиска в зоне рифмовки можно проанализировать, как происходил процесс трансформации чисто глагольной рифмы на ‑али на рифмовку глагола и другой части речи, например, писалив дали, или дали (глагол) – дали (существительное). Достаточно элементарный анализ показывает, что процесс шел следующим образом (на графике показано постепенное падение доли чисто глагольной рифмы с 88% в сер. 18 в. до 60% в сер. 19 в.):

Рис. 1. Глагольные рифмы на ‑али в 1751-1850 гг.

Поиск в зоне рифмовки является бесценным инструментом при исследовании особенностей русского произношения – прежде всего это касается произнесения тех или иных классов форм  с [’о] (=ё) или [’е] (=е). Так, например, анализ материала показывает, что в первой половине 19 в. в поэтических текстах полные и краткие страдательные причастия на ‑енный произносились по-разному – для кратких причастий было характерно произнесение ‑ён (и, соответственно, рифма типа произнесён – сон), а для полных причастий – произнесение ‑енный (и, соответственно, рифма произнесенный – пенный). График показывает, что распределение здесь практически зеркальное:

Рис. 2. Распределение е/ё в зоне рифмовки для кратких и полных причастий

Таким образом, в таком отрывке из «Евгения Онегина»:

·        Гонѝмы вѐшнимѝ луча̀ми, С окрѐстных го̀р ужѐ снега̀ Сбежа̀ли му̀тнымѝ ручья̀ми На по̀топлѐнныѐ луга̀. [Пушкин А. С. Евгений Онегин / Глава седьмая ("Гонимы вешними лучами...") (1827-1828)]

следует предполагать произнесение потопле'нные, а не потоплённые, а в следующей цитате:

·        Как в лѐс зелѐный ѝз тюрьмы̀ Перѐнесѐн коло̀дник со̀нный, Так у̀носѝлись мы̀ мечто̀й К нача̀лу жѝзни мо̀лодо̀й. [Пушкин А. С. Евгений Онегин / Глава первая ("Мой дядя самых честных правил...") (1823-1824)],

напротив, следует предпочесть произнесение перенесён, а не перенесе'н.

Акцентологический корпус включает в себя объекты двух типов – 1) поэтические тексты и 2) устные тексты (прежде всего, транскрипты кинофильмов) с расставленными реальными ударениями.

В поэтических текстах реальное ударение может быть получено с помощью правил пересчета сильных долей (иктов). Сильная доля – это тот слог в строке, который попадает под акцентологическое усиление в соответствии со схемой силабо-тонического метра (в ямбе икт – каждый четный слог, в хорее – каждый нечетный, в дактиле – первый слог трехсложной стопы, в амфибрахии – каждый второй, в анапесте – каждый третий).

Основное правило пересчета иктов в ударение следующее – из нескольких иктов, попадающих на данное слово, один обязательно совпадает с ударным слогом.

Если на слово попадает один икт, то ударение определяется однозначно. Так, например, в цитате

·        Ко̀нчен пѝр, умо̀лкли хо̀ры, О̀поро̀жнены̀ амфо̀ры, О̀прокѝнуты̀ корзѝны, Нѐ допѝты в ку̀бках вѝны [Тютчев Ф. И. «Кончен пир, умолкли хоры...» (1850)]

единственный икт на словоформе амфо̀ры однозначно указывает на ударение амфо'ры.

Если на слово падает несколько иктов, то нам приходится различать возможное и невозможное ударение. Так, например, в следующей цитате

·        … Ѝ стоѝт, молчѝт гнило̀й, холо̀дный до̀м, То̀чно склѐп на кла̀дбищѐ глухо̀м [Бунин И.А. «Ночь и дождь, и в доме лишь одно...» (1920-1952?)]

в словоформе кла̀дбищѐ два икта. Но ударение на последнем слоге, во-первых, не подтверждается никакими дополнительными свидетельствами (ни в текстах, ни в словарях), кроме того, противоречит теории и истории русской акцентологии, и, следовательно, должно быть признано невозможным. Следовательно, в этой словоформе лишь первый икт соответствует реальному ударению кла'дбище.

Естественно, встречаются контексты, которые не дают однозначной информации. В частности, в словоформе поднялись практически возможны (и фиксируются в однозначно толкуемых текстах) ударения на всех трех слогах по'дня'ли'сь. Соответственно, в тех случаях, когда на эту словоформу в стихе попадает два икта, мы не можем сделать абсолютно уверенный вывод о реальном ударении, и такие примеры следует выводить из акцентологического рассмотрения как непоказательные, например:

·        Ѝ от э̀того̀-то гро̀му По̀днялѝсь к ней жѐнихѝ Вѐренѝцей к ѐе до̀му, Ка̀к фаза̀ньи пѐтухѝ. [Державин Г.Р. Царь девица ("Царь жила-была девица...") (1812)] 

Однако если такая словоформа попадает в клаузулу (в зону рифмовки), то такая неоднозначность снимается, поскольку в клаузуле икт обязательно совпадает с реальным ударением – таково правило русской силлабо-тоники:

·        И вдру̀г толпо̀й все чѐрти по̀днялѝсь, По во̀здуху̀ на кры̀льях по̀неслѝсь… [Пушкин А. С. Монах («Хочу воспеть, как дух нечистый Ада...») (1813)]

Здесь поднялись попадает в мужскую клаузулу (т.е. с ударением на последнем слоге строки), и, соответственно, акцентологическая неоднозначность снимается – ударение подняли'сь определяется абсолютно достоверно (что и показывает рифмовка этой словоформы с понесли'сь, которое в русском языке не имеет вариантности в ударении).

Более редкий способ определить ударение в словоформе в стихотворной строке касается случаев, когда на словоформу не попадает ни одного икта. Это чаще всего имеет место, когда двусложная словоформа попадает на первые два безударных слога анапеста (или более редких разметов, типа пеона III или пентона III). Правило в этом случае звучит так – реально ударным слогом является слог, максимально далекий от икта (т.е., например, первый слог анапестной стопы):

·        Обнял кры̀шу Илья̀, усмехну̀лся, Во всю гру̀зную пѐчень наду̀лся, Двинул квѐрху... [Бунин И.А. Святогор и Илья ("На гривастых конях на косматых...") (1916.01.23)]

Словоформа обнял допускает два ударения, о'бня'л, но по сформулированному правилу реально ударным в данном примере является первый – о'бнял.

Пример микроисследования, которое можно провести с помощью стихотворных текстов. Известно, что в течение 19 в. слово музыка поменяло свое ударение – оно переместилось со второго слога на первый. Интересно посмотреть, как именно хронологически проходил это процесс. Анализ материала показывает, что изменение происходило достаточно плавно, а перелом наступил в течение первой трети 19 в.:

Рис. 3. Изменение ударения в слове музыка

При этом интересно, что в произведениях И.А.Крылова фиксируется только современное ударение – му'зыка. Вот хронологически первый пример:

·        Невѐжда в фѝзикѐ, а в му̀зыкѐ знато̀к, Услы̀шал со̀ловья̀, пою̀щего̀ на вѐтке, И хо̀чется̀ ему̀ имѐть тако̀го в клѐтке. [Крылов И.А. Павлин и соловей («Невежда в физике, а в музыке знаток...») (1788)]

А вот последний:

·        Хоть вы̀ охрѝпнитѐ, хваля̀ друг дру̀жку, – Все ва̀ша му̀зыка̀ плоха̀! [Крылов И.А. Кукушка и петух («Как, милый Петушок, поешь, ты громко, важно!») (1834)]

В устных текстах, входящих в состав акцентологического корпуса, проставляется реальное ударение, т.е. тексты акцентуируются не в соответствии с требованиями орфоэпических норм русского языка, а в соответствии с реальным узусом.

Сочетание данных поэтической и прозаической зоны акцентологического корпуса позволяет производить интересные диахронические исследования. Например, если мы проанализирует варианты акцентуации словосочетаний  ‘первообразный предлог + числительное’, то мы сможем заметить, насколько различаются акцентологические нормы 18-19 вв. и второй половины 20 в.:

 

18-19 вв.

20 в.

ударение на предлоге

89%

60%

ударение на числительном

11%

40%

Особенно отчетливо хронологическое противопоставление отражается на трехсложном числительном десять. Поэтическая зона фиксирует для 18-19 вв. ударение только на предлоге, например:

·        Она̀ тепѐрь его̀ сосѐдка, В дерѐвне с му̀жем здѐсь живѐт, Верст за̀ деся̀ть, – уж пя̀тый го̀д – С детьмѝ... чай, ста̀ла, ка̀к насѐдка [Огарев Н.П. Матвей Радаев ("Вдоль снежной улицы забор...") (1856-1858?)]

Данные устного подкорпуса, напротив, свидетельствую только об ударении на числительном, например:

·        [Петр Марков, Борис Бабочкин, муж, 38, 1904] Да вот шесть мильонов на де’сять помножить никак не могу. [Леонид Трауберг, Николай Эрдман, Михаил Вольпин. Актриса, к/ф // 1942]

Своеобразие разметки акцентологического корпуса сказывается в том, что в нем сохранены черты поэтического корпуса (поиск по поэтологическим параметрам, поиск в зоне рифмовки), а также устного корпуса (поиск по социологическим параметрам). Кроме того, в акцентологическом корпусе предусмотрен поиск точных слов с учетом позиции ударения (имея в виду, что ударение может быть обозначено акутом, буквой ё, а также грависом - в поэтических текстах). Кроме того, будет возможность искать словоформу без ударения, тем самым легко будут находиться контексты, в которых полнозначные слова и вспомогательные части речи употребляются без ударения.

Мультимедийный корпус. Данный корпус находится в стадии разработки, так что сейчас можно только в общих чертах набросать его контур. Основной принцип здесь следующий – звуковой файл или видеофайл разрезается на минимальные законченные единицы (обычно – длиной 2-4 фразы) и в соответствие ему ставятся текстовые фрагменты, размеченные так, как принято в Национальном корпусе русского языка. Таким образом, пользователь МУРКО (Мультимедийного русского корпуса) может получить видео- и аудиоинформацию по запросу, построенному от словоформы, лексемы, морфологической и семантической характеристики, а также от сочетания всего перечисленного.

Например, известно, что в русском кинематографе в течение 1930-1950-х гг. отражался отход от произносительных норм, свойственных театру. Анализ произносительных норм в кинематографе по ряду известных параметров может помочь определить, как именно проходил этот процесс. Так, например, можно будет проследить, как именно менялось произношение окончаний в прилагательных с основой на заднеязычный. Для 1930‑х гг. характерно произношение строг[о]й учитель, редк[о]й зверь и под., в конце 1950‑х гораздо чаще встречаются варианты произнесения строг[и]й, редк[и]й, которые уже в 1970‑х гг. преобладают радикально. Но до создания МУРКО отсутствие большого объема целенаправленно выстроенного материала не позволит анализировать этот процесс подробно и последовательно.

Помимо поиска, основанного на традиционной для НКРЯ разметке, МУРКО будет предусматривать и дополнительные возможности, связанные с изучением интонационных особенностей русской речи, жанровой специфики устной речи и русского жестового ряда. Клипы, на которые будут разрезаны аудио- и видеофайлы, будут получать метаразметку, существенно расширенную по сравнению с метаразметкой НКРЯ. В частности, каждому клипу будет приписано, какие именно речевые действия в нем осуществляет говорящий, а также какие именно жесты в нем имеют место. Таким образом, пользователь сможет обращаться к видео- и аудиоинформации, минуя словесный ряд.

Например, при разметке клипов с точки зрения речевых действий, неокоторым из клипов приписывалось значение ‘речевое действие: ввод информации’. Имелись в виду некоторые фразы, которым говорящий предваряет введение и изложение некоторой информации (эта информация обычно сравнительно обширна по объему, т.е. выходит за пределы одной фразы). Типичными случаями ввода информации являются следующие тексты (все примеры из кинофильма «Бриллиантовая рука» Л. Гайдая):

·        Когда мы с ним таким образом познакомились, я изложил наш план.

·        Теперь договоримся о связи.

·        Но это еще не всё.

·        Теперь твоя задача.

·        Сегодня я попрошу вас выполнить одну мою просьбу.

·        Хорошо-хорошо, я щас уйду, только один вопрос.

·        Я седьмой. Докладываю.

·        Седьмой! Седьмой! Слушай мою команду!

Как можно слышать, в большинстве случаев во фразах такого типа интонация движется вниз, обычно по трем опорным ступеням. Таким образом, с помощью разметки речевых действий мы получаем возможность целенаправленного изучения интонационной и синтаксической структуры, а также лексического состава однотипных речевых действий – этой возможности мы не имеем при пользовании НКРЯ.

Еще более важной, как представляется, будет дополнительная разметка клипов с точки зрения жестов.  Уже первые шаги в этом направлении приносят интересные результаты. Так, например, удалось отрефлектировать характерный изобразительный (иконический) жест, когда говорящий соединяет кончики указательного и большого пальцев, желая передать идею точности, аккуратности и под. Или, например, обнаружился жест, которым говорящий подчеркивает окончание своей речи (при этом речь является темпераментой) – поднятая вверх рука, ладонь и все пальцы кверху (жест получил условное название «факел»). Представляется, что последовательная работа над МУРКО позволит сделать значительное число открытий в системе русских жестов.
 
< Предишна   Следваща >