El'Manuscript '06
Konferencijos
Организационный комитет
Programos komitetas
Konferencijos darbo kryptys
Mokyklos veiklos kryptys ir temos
Pagrindinės datos
Registracija ir taikymas
Dalyvio mokestis
Программа конференции
Список участников
Konferencijos medžiaga
Проекты и ресурсы
Organizacinė Infromacija
Kultūrinė programa





Lost Password?
No account yet? Register
RSS-ленты новостей
rss20.gif

Portalo kūrimą rėmė Rusijos humanitarinių mokslų fondas, projektas Nr. 07-04-12140в.

Портал зарегистрирован 05 августа 2010 г. в Федеральной службе по надзору в сфере связи, информационных технологий и массовых коммуникаций (Роскомнадзор) в качестве средства массовой информации, номер свидетельства ЭЛ № ФС 77 - 41581. Учредитель В. А. Баранов. 

(c) "Informacinės technologijos ir rašytinis palikimas", 2008-2016

Кодировочно-шрифтовая система «Манускрипт»: классификация символов и технологические вопросы их представления в базе данных PDF Print E-mail
Written by: Виталий Александрович Романенко   
Пятница, 18 Июль 2008

Текст печатного издания в формате PDF  

В настоящее время одной из актуальных задач при подготовке публикаций древних славянских рукописей является необходимость как можно более точного воссоздания всех особенностей шрифта, оформления и декоративных элементов в компьютерном наборе текстов.  Актуальность обусловлена тем, что при подготовке транскрипции текста для печатного или электронного издания невозможно сохранить все исходное многообразие начертаний символов в связи с фиксированным их набором и с отсутствием в существующих компьютерных шрифтах вариантов представления конкретного символа.

К сожалению, стандартная система кодирования символов Unicode не содержит даже полного перечня основных символов кириллического алфавита. Поэтому типичный подход к полному сохранению всех существенных особенностей начертания символов, используемый во многих проектах (Titus, Sofia — Trondheim, Манускрипт и др.) состоит в максимально возможном использовании стандартного диапазона Unicode и в расширении его недостающими символами и вариантами начертания. В результате в каждом проекте (а порой и для каждого конкретного текста!) создаются свои системы кодирования символов и шрифтовые гарнитуры, что создает колоссальные трудности при пользовании электрон­ными коллекциями и библиотеками, при обмене данными, при автоматизированной обработке текстов и при объединении результатов работы разных коллективов в совместные электронные коллекции и библиотеки.

В данном докладе представлена классификация типов символов, позволяющая провести границу между базовой и вариативной составляющими начертания символов одним писцом, разделить при компьютерной обработке почерки разных писцов и при этом отобразить особенности начертания символов. В основе классификации символов лежит деление их на основные символы, их функциональные варианты и варианты начертания.

1) Основные символы и их функциональные варианты (например,  — ,  — ) представлены отдельным знакоместом во всех шрифтах и шрифтовых гарнитурах.

2) Вариант начертания — вариант основного символа (или функционального варианта), характеризующийся особенностями, могущими иметь значение при анализе рукописи. Каждый вариант начертания связан с базовым символом и классом преобразования, которому подвергнут основной символ.

Примеры классов преобразований:

  геометрические движения (сдвиги вверх, вниз, влево, вправо),

  геометрические отражения (вертикальное, горизонтальное),

  геометрические деформации (уменьшение, увеличение, удлинение, наклон),

  изменение веса (жирный, двойной, тройной),

  дополнение элементами (наличие/отсутствие перекладин, перечеркивания, наличие точки, креста и других элементов).

3) Почерки разных писцов, значимые для исследователей рукописи, отражаются различными гарнитурами шрифтов (гарнитуры Menaion и Panteleymon — для представления почерков основных писцов Путятиной минеи XI века и Пантелеймонова Евангелия рубежа XII–XIII веков.

Таким образом, каждое индивидуальное начертание символа характеризуется тремя составляющими: кодом символа (знакоместом), типом преобразования (шрифт) и типом почерка (шрифтовая гарнитура).

Эта классификация реализована в информационно-поисковой системе «Манускрипт» как кодировочно-шрифтовая система (КШС), состоящая из взаимосвязанных системы кодирования символов и семейства шрифтов для их отображения. Преимущество КШС состоит в том, что в каждом шрифте одного семейства один и тот же символ, независимо от своих преобразований и особенностей, имеет один и тот же код, что значительно облегчает задачи обработки и конвертирования текстов.

Одна из задач при создании и развитии КШС состоит в том, чтобы правильно классифицировать новый буквенный или небуквенный символ, отнести его к определенной гарнитуре и шрифту и расположить на соответствующем коде.

Механизм внесения изменений в КШС «Манускрипт» заключается в изменении набора символов базы данных, семейства шрифтов и документации по КШС.

Приведение набора символов базы данных информационно-поисковой системы «Манускрипт» к многобайтовому набору символов UTF8LAPREXT1, поддерживающему концепцию КШС, привело к некоторым техническим проблемам, в частности:

  к необходимости уменьшения длины нелатинских (кириллических) имен объектов базы данных до 15 символов (следствие многобайтовости и ограничений выбранной СУБД),

  к потребности в лингвистической сортировке символов.

Лингвистическая сортировка, в отличие от бинарной, позволяет сортировать символы в соответствии с их алфавитным порядком, а не их числовым представлением (кодом) в КШС. Использование лингвистической сортировки, которая может иметь две разновидности — одноязыковую и многоязыковую, обусловлено также необходимостью подготовки перечней текстовых единиц с порядком следования, задаваемым пользователем.

Summary

 

The classification of symbol types in ancient Slavonic manuscripts on base symbol, functional variant and inscription variant is presented as well as its implementation in information-retrieval system “Manuscript” as character-font encoding scheme (CFES). The mechanism of updating the CFES with new symbols is described. Some important questions of storage and linguistic sort of multi-byte symbols in the database are discussed.

 

 
< Prev   Next >