Школа 2009
Школа
Организационный комитет
Программный комитет
Направления работы школы
Основные даты
Регистрация и заявка
Конкурс
Конкурсные работы
Организационный взнос
Программа школы
Материалы школы
Участники школы
Организационная информация
Культурная программа
Фотогалерея





Забыли пароль?
Ещё не зарегистрированы? Регистрация
Сейчас на сайте находятся:
15 гостей
RSS-ленты новостей
rss20.gif

Портал был создан при финансовой поддержке Российского гуманитарного научного фонда (РГНФ), проект № 07-04-12140в.

(c) "Информационные технологии и письменное наследие", 2008-2020

Возможности применения компьютеризированного контент-анализа старопечатных кириллических текстов для выявления старообрядческого образа хозяина PDF Печать E-mail
Автор(ы): Полина Сергеевна Япарова   
04.10.2009 г.
 
          We consider the possibility of using computerized methods for analysis of early printed Cyrillic texts to explore the traditional Old Believer picture of the world in particular the economic settings. The used sources are the Old Believer educational books: Chasovnick (1834) and Psaltir (beginning of XX century.). During this study a formalized method of analysis was worked out (system "hozyaynoderzhaviya") which covers various types of written sources of the Old Believer.
 

Вопрос об экономической успешности старообрядчества не перестает волновать умы исследователей. Особенно на фоне все большего возрастания интереса ученых-гуманитариев к изучению духовной сферы человека. Одно из направлений решения этого вопроса заключается в поиске, по аналогии с протестантской этикой, этики старообрядческой (или православно-аскетической). Нами же предпринята попытка изучения образа ‘доброго’ хозяина, духовных предпосылок  развития экономического компонента русской традиционной культуры. Использование современных технологий компьютеризированного анализа текста  делает возможным выявление мировоззренческих (и, в том числе, хозяйственных) установок, даже в источниках, явно не содержащих такой информации, но, безусловно, влияющих на формирование повседневных представлений. Путем применения количественных методов, основанных на использовании компьютерных технологий, можно вывести исследование на новый уровень более абстрагированного, формализованного анализа, придать его результатам большую обоснованность, достоверность и объективность.

В качестве источников для разработки методики анализа неявной информации, нами выбраны учебные книги, а именно старообрядческие учебная Псалтырь (начала ХХ в.) и Часовник (1834 г.) из пермской частной коллекции. Выбранные источники являются хорошим материалом для анализа старообрядческой картины мира, поскольку тексты литургические, т.е. имеют неизменяемое, постоянное содержание. С момента получения навыков чтения (ведь именно по Часослову и Псалтыри обучались грамоте) и на протяжении всей жизни эти книги сопровождали человека. Также они, являясь составной частью суточного и календарного кругов уставного чтения,  участвовали в формировании основных традиционных пространственно-временных представлений. Для выявления наличия хозяйственных установок в источниках, а также для их исследования, возникает необходимость прибегнуть к методам компьютеризированного исследования, в частности контент-анализу. Для проведения контент-анализа нами выбран один из наиболее известных программных пакетов – TACT.

Подготовка машиночитаемого текста для контент-анализа. Для того, чтобы провести компьютеризированный анализ текста источника, необходимо создать его машиночитаемую копию. Здесь мы встречаемся с рядом преград. Первая из них – проблема оцифровки источников, - состоит из двух компонентов:

1) Создания электронного изображения источника (путем сканирования или получения цифровой фотографии). С одной стороны, электронное изображение облегчает доступ к источнику большему кругу исследователей, отпадает необходимость постоянного обращения к оригиналу, чем обеспечивается его большая сохранность. С другой, сам процесс создания электронной копии может повредить письменному памятнику. Однако анализ изображения компьютеризированными методами невозможен, поэтому необходимо получить машиночитаемый текст.

2) Получение машиночитаемого текста. В виду несовершенства современных OCR-технологий, получение текста источника приемлемого качества возможно только путем его ввода с клавиатуры вручную. Здесь вероятно возникновение ошибок. Также могут возникнуть трудности с адекватным отображением (характерно в большей степени для рукописных источников) и анализом символов старой орфографии. Поскольку выбранное нами программное обеспечение (TACT) ограничивает использование символов элементами латинского и современного русского шрифтов, очередную трудность можно преодолеть двумя способами: либо перевести текст на современный русский язык, либо заменить элементы старой орфографии на современные, близкие или аналогичные по звучанию (условно этот способ можно назвать транскрипцией). Стоит отметить, что при переводе древнего текста на современный язык, в связи с возможностью не полного соответствия аналогов современной речи древним понятиям, может иметь место искажение смысла или подмена понятий, что недопустимо для выявления элементов менталитета путем анализа отдельных словоформ.

Итак, нами были сделаны электронные изображения разворотов источников путем сканирования и методом цифровой фотографии, как средство их визуализации. Методом ручного набора создан транскрибированный массив электронного текста, символы старой орфографии в котором были заменены современными, а слова, находившиеся под титлами, раскрывались без особых помет.

3). Подготовка текста для компьютеризированного контент-анализа заключается в удалении знаков, не несущих смысловой нагрузки (например, нумерации листов), а также символов, используемых программой в качестве элементов авторской разметки (все виды кавычек, круглые и квадратные скобки, длинное тире и пр.), еcли таковая не используется сознательно.

Допущенные ограничения информации электронной версии источника не влияли на репрезентативность данных, необходимых для решения поставленной задачи исследования.

Компьютеризированный анализ текста. Для анализа источников использовалась т. н. система ‘хозяйнодержавия’ (термин П. Н. Савицкого), характеризующая уровень личного начала в хозяйстве. Понятие Хозяйнодержавие включает 12 категорий (воля, ценение, ум, бережение, творчество, дело, мера, выбор, выгода, державие, общество, счастье), которые объединяются в три группы (по 4 категории)[1]. К каждую категорию включались словоформы, однокоренные названию, синонимичные, близкие по этимологии. Все результаты сведены в таблицу частот встречаемости словоформ с полями: 1) №, 2) название категории, 3) словоформы, количество словоформ 4) в Часовнике, 5) в Псалтыри, 6) вместе в Часовнике и Псалтыри (сумма полей 4 и 5). По данным таблицы составлены диаграммы (см. рис. 1). Всего было выделено более 9 тыс. словоформ, что составило около 11 % от общего количества слов в источниках, что свидетельствует о наличии в учебных книгах информации о системе ‘хозяйнодержавия’. Количество словоформ в категориях варьировалось от 2568 (‘державие’) до 120 (‘ценение’). Выделились и преобладающие по количеству словоформ категории: ‘державие’ - 28%, ‘общество’ – 16% и ‘ум’ – 12%.

Таким образом, произведен предварительный количественный анализ словоформ по выделенным категориям. Он дает наиболее общее представление о наличии и процентном соотношении данных о хозяйственных установках, содержащихся в источниках и способных руководить экономической деятельностью русского хозяина. Однако, поскольку текст источников имеет сакральный характер, мы получаем представления об идеальном хозяине, об Абсолюте, а не о человеке. Тем не менее выработанная методика позволяет нам дополнить их информацией из других источников. Благодаря универсальной системе категорий, для воссоздания системы хозяйствования можно использовать практически любые текстовые материалы (заметки о ведении хозяйства, мемуары и письма и пр.) старообрядцев. Причем чем шире и разнообразнее круг источников, тем более достоверную и полную информацию мы можем получить.

Итак, первый этап анализа, дающий общую картину, завершен. Следующим шагом нашего исследования будет проведение более подробного анализа словоформ внутри категорий.  Планируется продолжение работы в TACT’е по выявлению силы связи между словоформами, проведение лексико-семантического анализа выборок. Также существует возможность применения специализированных статистических пакетов.

Итак, существует возможность компьютеризированного анализа старопечатных кириллических тестов с целью выявления картины мира старообрядцев, в частности их отношения к ‘хозяйствованию’. Применение формализованных методов анализа изменяет исследование в сторону большего абстрагирования. Также становится возможным увеличения круга разнообразных источников, и в результате использования единой унифицированной методики получать более обоснованные, достоверные, объективные и сопоставимые результаты.

Литература:

Волгирева, Г. П. Традиционная книжность Прикамья XVI — начала XX вв. как источник для изучения духовной культуры : автореф. дис. … канд. истор. наук / Г. П. Волгирева. ЇМ., 2002.

Керов В. В. Возможно ли измерение ментальности?// Информационный бюллетень Ассоциации «История и компьютер». 2004. № 32.

Кобринский А.Л. Проблемы государственного строительства в Российской Федерации: (По материалам стенограмм пленар. заседаний Гос. Думы в 1993—1995 гг.) / А. Л. Кобринский; Моск. гос. ун-т им. М. В. Ломоносова. Фак. гос. упр. — М., 2001.

Савицкий П. Н. Континент Евразия. М., 1997.

Приложение 1. Распределение частоты встречаемости категорий системы «хозяйнодержавие».

japarova_perm_fig1.jpg.jpg



[1] Круг первый: ВОЛЯ – МЕРА, БЕРЕЖЕНИЕ – ДЕРЖАВИЕ; Круг второй: ЦЕНЕНИЕ – ВЫБОР, ТВОРЧЕСТВО – ОБЩЕСТВО; Круг третий: УМ – ВЫГОДА, ДЕЛО - СЧАСТЬЕ

 
След. »