El'Manuscript-10
Конференция
Организационный комитет
Программный комитет
Направления работы конференции
Направления работы школы
Основные даты
Регистрация и заявка
Организационный взнос
Программа конференции
Список участников
Материалы конференции
Проекты и ресурсы
Организационная информация
Культурная программа





Забравена парола
Нямате достъп?
Регистрирайте се!!!
В момента 4 госта онлайн
RSS-емисии
rss20.gif

Порталът е създаден с финансовата подкрепа на Руската хуманитарна фондация (RHF), номер на проекта 07-04-12140v.

(с) "Информационните технологии и писменото наследство", 2008-2020 г.

Семантические публикации комплексов исторических источников PDF Печат Е-мейл
Автор: Алексей Геннадьевич Варфоломеев, Александр Степанович Иванов   
13 Сентябрь 2010

The paper deals with the problems of semantic publications of historical records on the basis of Semantic Web technologies. Such publications provide the texts of historical records in Internet with metadata (additional information). In the field of historical research, different ontologies can be used in order to represent information of historical records as well as metadata related to them. However, the authors of the paper have developed a specific (original) mode of representation of data retrieved from historical records that is focused on the links between evidences retrieved from diverse historical records. Hence, historical events are constituted as systems of relations between different historical objects, which are described in historical sources, and semantic publications should reveal these relations in order to provide researchers with appropriate tools of historical source criticism.

 За последние несколько лет в связи с широким внедрением технологий Семантического Веба [Shadbolt et al 2006] термин «семантические публикации» приобрел большую популярность. Их можно определить как тексты в сети Интернет, снабженные дополнительным информационным слоем, в какой-то степени воспроизводящим смысл текстов в формализованном, понятном для компьютера виде. Слово «смысл» является в этом «определении» наиболее туманным понятием, охватывающим все, что может понимать человек, читающий данный текст. Поскольку знания и цели людей, обращающихся к семантическим публикациям, разные, понимание текста может включать в себянесколько уровней – от восприятия отдельных семантических аспектов текста до построения логических конструкций. Это приводит к существенным различиям в способах реализации семантических публикаций.

 Основные сферы подготовки семантических публикаций – электронные научные журналы [Shotton 2009] и цифровые библиотеки [Baruzzo et al 2009]. Анита де Ваард [de Waard 2010] выделяет три степени формализации семантики, которые наблюдаются в современных проектах: использование контролируемых словарей терминов, собственных имен и географических названий, требующее выделения соответствующих слов в тексте, запись метаинформации о тексте в форме триплетов «субъект-предикат-объект» и, наконец, выделение в тексте иерархии смысловых блоков и отношений между ними. Если в первом случае текст как единое целое привязывается к существующим онтологиям предметной области, а во втором случае образуется семантическая сеть вокруг текста, выражающая знания о нем, то третий подход основан на формировании сети концептов, представляющей собой сам текст.

 Выигрыш, который должны давать семантические публикации, заключается, во-первых, в расширении возможностей и улучшении качества поиска информации. Во-вторых, появляются возможности использования таких публикаций как баз знаний, порождающих новые знания или гипотезы для дальнейших исследований с помощью процедур автоматического вывода. В связи с этим очень заманчивой выглядит перспектива перевода на «семантические рельсы» электронных публикаций исторических источников, чему и посвящена наша статья. Некоторые исследования на эту тему уже существуют [Mirzaee et al 2005, Ahonen and Hyvönen 2009], однако общепринятые концептуальные и технологические решения пока не найдены.

 Основой семантических публикаций являются онтологии, которые могут видоизменяться в широких пределах – от простых терминологических словарей или систем классов для описания объектов до сложных структур, отражающих разнообразные знания о предметной области в виде классов, объектов, отношений, ограничений, логических правил «если-то», и т.д. За последние десять лет было создано множество онтологий, в том числе и для предметных областей, связанных с историей и источниковедением. В качестве наиболее разработанной и универсальной часто рассматривается онтология CIDOC CRM, созданная для описания предметов в музейных коллекциях, но включающая в себя также онтологию исторических событий с персоналиями, их ролями, географическими местами, моментами и периодами времени [Doerr 2003]. На этой основе были разработаны другие исторические онтологии, ориентированные на более узкие цели [Ide and Woolner 2007, Pasin 2007], которые наследовали событийно-ориентированный подход. Авторами статьи был предложен несколько иной, документно-ориентированный подход для описания исторических знаний, в котором события выступают не узлами сети, а только ее связями, порожденными свидетельствами источников [Varfolomeyev and Ivanovs 2009].

 Непосредственное создание семантических публикаций на основе онтологий, записанных в форматах RDF или OWL, видится довольно затратным делом. Поэтому актуальным является изучение возможностей инструментов, облегчающих использование технологий Семантического Веба, в частности, семантических Wiki-систем. Обладая характерными для Wiki возможностями распределенного создания и редактирования Веб-страниц с помощью упрощенной разметки, семантические Wiki-системы позволяют добавлять к тексту тот или иной семантический слой. Так, Semantic MediaWiki (SMW) предоставляет специальные средства упрощенной разметки для выделения в тексте терминов или имен, а также добавления к тексту метаинформации [Krötzsch et al 2007]. Размеченный таким образом текст может быть преобразован в набор «фактов» (триплетов в формате RDF). Другая подобная система, AceWiki, использует для записи текстов один из вариантов «контролируемого» английского языка – ACE (Attempto Controlled English). Тексты на таком языке могут быть отображены в формулы некоторого подмножества логики предикатов первого порядка, над которыми можно произвести логический вывод с помощью интерпретатора языка логических вычислений Prolog [Kuhn 2009].

 Для оценки возможностей семантических Wiki-систем мы использовали коллекцию электронных текстов документов по истории Динабурга [Иванов и Кузнецов 2003]. В связи с тем, что Wiki-системы ориентированы на современный язык, в них затруднена возможность использования устаревших символов, поэтому вместо адекватных лингвистических транскрипций древнерусских текстов пришлось использовать упрощенные транскрипции на основе современного русского алфавита. Облегченная разметка SMW позволила без труда вручную выделить в текстах упоминания персоналий, исторических мест, дат, а также выразить некоторые другие атрибуты источника – например, указания на адресата и отправителя документа, ссылки в текстах на другие документы и др. Однако серьезным ограничением оказалась невозможность в рамках упрощенной разметки создавать «вложенные» или «пересекающиеся» текстовые фрагменты, а также соединять вместе структурную и семантическую разметку, использовать XML-форматы (например, TEI), привязывать текст к изображению источника. Поэтому SMW в роли средства создания семантических публикаций исторических источников может использоваться пока только для учебных целей. Для полноценных публикаций необходимо либо существенно модифицировать SMW, либо создавать другую подобную систему. Что же касается AceWiki, то выразительные средства ACE оказались примерно сравнимы с возможностями SMW в случае использования этого контролируемого языка для записи фактов о документе (метаинформации). Перевод же на ACE самого текста документа оказался возможным лишь частично. Возможности дальнейшего использования такого перевода для семантического поиска и вывода новых знаний нуждаются в дополнительном изучении.

 Список литературы

Иванов и Кузнецов 2003. Иванов А.С., Кузнецов А.М. Динабург в документах Российского государственного архива древних актов (1656–1666). Т.1,2. Даугавпилс, 2003.

Ahonen and Hyvönen 2009. Ahonen E., Hyvönen E. Publishing Historical Texts on the Semantic Web – A Case Study // Proceedings of the Third IEEE International Conference on Semantic Computing (ICSC2009). Berkeley, 2009. Pp. 167-173.

Baruzzo et al 2009. Baruzzo A. et al. Toward Semantic Digital Libraries: Exploiting Web2.0 and Semantic Services in Cultural Heritage // Journal of Digital Information. 2009. Vol. 10, №6. http://journals.tdl.org/jodi/article/viewArticle/688/576

Varfolomeyev and Ivanovs 2009. Varfolomeyev A., Ivanovs A. Knowledge-Based Scholarly Environment Project for Regional Historical Studies // Interactive Systems and Technologies: the Problems of Human-Computer Interaction. Vol.III. Collection of Scientific Papers. Ulyanovsk: ULSTU, 2009. Pp.273-276.

Doerr 2003. Doerr M. The CIDOC Conceptual Reference Module: An Ontological Approach to Semantic Interoperability of Metadata // AI Magazine. 2003. Vol. 24, №3. Pp. 75-92.

Ide and Woolner 2007. Ide N., Woolner D. Historical Ontologies // Words and Intelligence II: Essays in Honor of Yorick Wilks. Ed. by Ahmad K, Brewster C., Stevenson M. [S.l.]: Springer, 2007. Pp.137-152.

Krötzsch et al 2007. Krötzsch M., Vrandecic D., Völkel M., Haller H., Studer R. Semantic Wikipedia // Journal of Web Semantics. 2007. Vol.5, Issue 4. Pp.251–261.

Kuhn 2009. Kuhn T. How Controlled English Can Improve Semantic Wikis // Proceedings of the Fourth Workshop on Semantic Wikis, European Semantic Web Conference 2009. CEUR Workshop Proceedings. Vol.464. [S.l.], 2009.

Mirzaee et al 2005. Mirzaee V., Iverson L., Hamidzadeh B. Computational Representation of Semantics in Historical Documents // Proceedings of the XVI international Conference of the Association for History and Computing (AHC 2005). Amsterdam, 2005. Pp.199-206.

Pasin 2007. Pasin M. PhiloSURFical: Browse Wittgensteinʼs Tractatus with the Semantic Web // Wittgenstein and the Philosophy of Information – Proceedings of the 30th International Ludwig Wittgenstein Symposium in Kirchberg. Ed. by Alois Pichler, Herbert Hrachovec. [S.l.], 2007. Pp. 319-335.

Shadbolt et al 2006. Shadbolt N., Berners-Lee T., and Hall W. The Semantic Web Revisited // IEEE Intelligent Systems. 2006. Vol. 21, Issue 3. Pp. 96 - 101.

Shotton et al 2009. Shotton D. et al. Adventures in Semantic Publishing: Exemplar Semantic Enhancements of a Research Article // PLoS Computational Biology. 2009. Vol.5. №4. e1000361. http://dx.doi.org/10.1371/journal.pcbi.1000361

de Waard 2010. de Waard A. From Proteins to Fairytales: Directions in Semantic Publishing // IEEE Intelligent Systems. 2010. Vol. 25, Issue 2. Pp.83 - 88.

 

 
< Предишна   Следваща >