El'Manuscript '08
Конференция
Организационный комитет
Программный комитет
Направления работы конференции
Направления работы школы
Основные даты
Регистрация и заявка
Организационный взнос
Программа конференции
Список участников
Материалы конференции
Проекты и ресурсы
Организационная информация
Культурная программа
Фотоотчет





Забыли пароль?
Ещё не зарегистрированы? Регистрация
RSS-ленты новостей
rss20.gif

Портал был создан при финансовой поддержке Российского гуманитарного научного фонда (РГНФ), проект № 07-04-12140в.

Портал зарегистрирован 05 августа 2010 г. в Федеральной службе по надзору в сфере связи, информационных технологий и массовых коммуникаций (Роскомнадзор) в качестве средства массовой информации, номер свидетельства ЭЛ № ФС 77 - 41581. Учредитель В. А. Баранов.

(c) "Информационные технологии и письменное наследие", 2008-2017

Метаинформация в коллекции М.В.Ломоносова на портале «Манускрипт: славянское письменное наследие» PDF Печать E-mail
Автор(ы): Виктор Аркадьевич Баранов, Р. А. Аникина, Т. В. Кокорина, С. В. Ощепков, А. А. Соколова   
26.07.2008 г.

icon Тезисы в фортате DOC (61 kB 2008-07-30 15:45:10) icon Тезисы в формате PDF (1.17 MB 2008-07-30 15:49:44)

Работы коллектива проекта «Манускрипт» (http://manuscripts.ru/) по созданию полнотекстовой базы данных не ограничиваются подготовкой электронных коллекций рукописей древнейшего и средневекового периода славянской письменности.

В настоящее время на основе разработанной информационно-аналитической системы «Манускрипт» и ее модулей, обеспечивающих различные этапы подготовки и визуализации данных, создается коллекция произведений М. В. Ломоносова. Основой для коллекции является Полное собрание сочинений в 10 томах, изданное в 50-х гг. Академией наук СССР<!--[if !supportFootnotes]-->[1]<!--[endif]-->.

Несмотря на автоматизацию некоторых этапов подготовки коллекции – сканирование печатного текста, его распознавание, загрузка в базу данных, основная часть работы – сверка с печатным изданием, исправление ошибок автоматического ввода, тегирование, обеспечивающее, например, сохранение информации о таблицах и о графических компонентах печатного издания– остается чрезвычайно трудоемким и долговременным процессом.

Не менее сложным этапом подготовки коллекции является ввод метаинформации о произведениях. Метаинформация в настоящее время используется при поиске и отборе текстов коллекции для последующей подготовки справочных материалов – выборок, конкордансов, сравнительных указателей.

В связи с ориентацией системы в первую очередь на лингвистический анализ поля предназначены в основном для характеристики произведений, но не печатного издания.

Две задачи были решены на этапе ввода метаданных: (1) определение перечня характеристик и (2) установление стандарта текстовых полей – состава информации поля, порядка ее следования, приемов сокращения и некоторые другие.

Особенностью формата значений метахарактеристик является, в частности, ориентация на поисковые функции и на их реализацию в web-модуле коллекции, поэтому в настоящее время (1) значения, для которых существуют общепринятые сокращения, даются в поле свойства полностью, (2) в одном поле могут быть значения различных зон библиографического описания, обычно помещаемые в базах данных в различных полях. Это позволяет обеспечить поиск как по полному наименованию значения, так и по его части, а также не дробить поля.

Перечислим поля, используемые в первой версии коллекции произведений М. В. Ломоносова, укажем их форматы и приведем примеры значений (URL: http://manuscripts.ru/mns/portal.main?p1=31)<!--[if !supportFootnotes]-->[2]<!--[endif]-->:

Метаданные печатного издания:

<!--[if !supportLists]-->-        <!--[endif]-->Автор: [Фамилия]<!--[if !supportFootnotes]-->[3]<!--[endif]--> [Имя] [Отчество] – Ломоносов Михаил Васильевич.

<!--[if !supportLists]-->-        <!--[endif]-->Заглавие печатного издания: [Автор И. О.] Название издания [. – Т., вып.] – Ломоносов М. В. Полное собрание сочинений. – Т. 10.

<!--[if !supportLists]-->-        <!--[endif]-->Продолжение заглавия: [Продолжение заглавия] – Служебные документы и письма, 1734-1765 гг.

<!--[if !supportLists]-->-        <!--[endif]-->Место издания: Наименование населенного пункта1 [; Наименование населенного пункта2] – Москва ; Ленинград.

<!--[if !supportLists]-->-        <!--[endif]-->Издательство: [Название издательства] – Издательство Академии Наук СССР.

<!--[if !supportLists]-->-        <!--[endif]-->Год издания: гггг[–гггг] – 1957.

<!--[if !supportLists]-->-        <!--[endif]-->Условное название: Сокращенное название коллекции. Сокращенное название издания – ЛМН. ПСС, 10.

Метаданные произведения:

<!--[if !supportLists]-->-        <!--[endif]-->Название произведения: «Начальная синтагма…» [Авторское / научное заглавие] – «Бугристы берега, благоприятны влаги...» [О сомнительном произношении буквы Г в российском языке].

Примечания:

1. Идентификация произведения осуществляется по его первой синтагме; заглавие помещается после него в квадратных скобках.

2. Авторское заглавие в случае его большой длины может быть сокращено; пропуск отмечается многоточием.

3. При отсутствии авторского или научного названия / заглавия для идентификации произведения используется только его начальная синтагма: «Начальная синтагма…» – «Богиня, Дщерь Божеств, науки основавших...».

4. В случае недостаточной уникальности первой синтагмы (например, формульность начала текста) для идентификации произведения используются последующие фразы, при этом уникальные слова пропущенных формул заключаются в квадратные скобки: [уникальные словоформы/словосочетания формулы] «Следующая синтагма…» – [...рейхсграф... Роман Ларионович!] «Не имея довольного случая изъяснить перед вашим сиятельством...».

<!--[if !supportLists]-->-        <!--[endif]-->Автор: [Фамилия] [И.] [О.] – Ломоносов М. В.

<!--[if !supportLists]-->-        <!--[endif]-->Порядковый номер: [порядковый номер в издании] – 17.

<!--[if !supportLists]-->-        <!--[endif]-->Жанр: [название жанра] – поэзия.

<!--[if !supportLists]-->-        <!--[endif]-->Место создания: [Наименование населенного пункта] – Санкт-Петербург.

<!--[if !supportLists]-->-        <!--[endif]-->Время создания: [дд].[мм].гггг [– [дд].[мм].гггг] – 19.11.1747.

<!--[if !supportLists]-->-        <!--[endif]-->Переводность: да / нет – нет.

<!--[if !supportLists]-->-        <!--[endif]-->Аутентичность: оригинал / копия – оригинал.

<!--[if !supportLists]-->-        <!--[endif]-->Язык: [язык] – русский.

<!--[if !supportLists]-->-        <!--[endif]-->Условное название: Сокращенное название коллекции. Сокращенное название издания, номер произведения в томе – ЛМН. ПСС, 10, 13.

<!--[if !supportLists]-->-        <!--[endif]-->Тема произведения: [тема произведения] – благодарности.

<!--[if !supportLists]-->-        <!--[endif]-->Субъекты произведения: [Имя] – Тредиаковский В. К.

<!--[if !supportLists]-->-        <!--[endif]-->Номер начальной страницы: [арабские цифры] – 344 и некоторые другие (интерфейс для ввода и редактирования данных показан на рис. 1).

Рис. 1. Отбор произведений для ввода метаинформации и редактирование данных в редакторе OldEd

Для хранения и ввода характеристик предусмотрено использование справочников, в частности справочников Люди и События.

Поиск и отбор текстов на основе метаданных осуществляется с помощью специализированного web-модуля, имеющего два режима работы – простой (URL: http://manuscripts.ru/mns/srch.simple?p_ed_id=50584966) и расширенный (URL: http://manuscripts.ru/mns/srch.complex?p_lang=RU&p_ed_id=50584966).

Первый на основе введенной текстовой маски искомого значения обеспечивает поиск томов и текстов, вывод перечня единиц, обладающих этим значением и показ свойств, которым принадлежат эти значения (рис. 2).

Рис. 2. Отбор произведений в режиме простого поиска на основе маски метаданных

Второй дает возможность сформировать запрос на основе нескольких параметров: выбора единицы (печатного издания / произведения / фрагмента), ее свойств и значений свойств. Динамичное подгружение значений по мере ввода маски позволяет просмотреть, выбрать и указать значение, необходимое для выборки.

При построении запроса в модуле расширенного поиска могут быть использованы значения нескольких параметров одной единицы или несколько параметров различных единиц. При подготовке такого запроса используются логические И или ИЛИ, а также логическое НЕ, исключающее из результата поиска единицы с указанным значением (рис. 3).

Рис. 3. Отбор произведений в режиме расширенного поиска на основе нескольких параметров

В целом хранимая в базе данных «Манускрипт» метаинформация о произведениях М. В. Ломоносова обеспечивает гибкий отбор текстов для последующей подготовки справочных материалов в лингвистических и лингвотекстологических исследованиях.

 

Благодарности

Работа выполняется в рамках проекта, поддержанного Российским гуманитарным научным фондом (РГНФ), проект № 07-04-12147в.

 

Meta-information in the Lomonosov collection in the Manuscript portal

Regina A. Anikina1, Victor A. Baranov1, Tatyana  V. Kokorina1, Sergey V. Oshchepkov2, Anastasiya A. Sokolova2

1Izhevsk State Technical University, 2Udmurtia State University Izhevsk, Russia

This paper discusses the experience of preparing an electronic fulltext collection of the works of Lomonosov. Attention is paid to questions of metadata creation, the choice of fields, and their formats.

<!--[if !supportFootnotes]-->

<!--[endif]-->

<!--[if !supportFootnotes]-->[1]<!--[endif]--> Ломоносов М. В. Полное собрание сочинений : в 10 тт. / М. В. Ломоносов. М. ; Л. : Изд-во АН СССР, 1950–1959; Т. 11. Л. : Наука, 1984.

<!--[if !supportFootnotes]-->[2]<!--[endif]--> Приводится название свойства описываемого объекта, через двоеточие –формат значения, через тире курсивом – пример значения.

<!--[if !supportFootnotes]-->[3]<!--[endif]--> В квадратные скобки заключены маски значений, которые могут не присваиваться объекту.

 
След. »