Забыли пароль?
Ещё не зарегистрированы? Регистрация
Сейчас на сайте находятся:
2 гостей
RSS-ленты новостей
rss20.gif

Портал был создан при финансовой поддержке Российского гуманитарного научного фонда (РГНФ), проект № 07-04-12140в.

(c) "Информационные технологии и письменное наследие", 2008-2020

СОСТАВЛЕНИЕ ПЕРЕЧНЯ СОКРАЩЕННЫХ НАЗВАНИЙ ЯЗЫКОВ В РАМКАХ ПРОЕКТА ДИГИТАЛИЗАЦИИ «СЛОВАРЯ ПОЛЬСКОГО ЯЗЫКА» С.Б.ЛИНДЕ PDF Печать E-mail
Автор(ы): Иоанна Билиньска   
07.08.2012 г.

 icon Текст в формате PDF (1.64 MB)

Summary: The paper discusses digitalisation of the Dictionary of Polish by Samuel Bogumił Linde. It provides a brief description of a new lexicographic browser available at Warsaw University and an analysis of the building process and usage of an index of language name abbreviations for digitalisation purposes.

Шеститомный «Словарь польского языка» (1807-1814) авторства Самуила Богумила Линде [Linde 1807] – выдающееся научное достижение своей эпохи, удостоившееся высокой оценки не только в Польше, но и во всем мире. Нынешняя цифровая версия словаря, размещенная, в частности, на Интернет-портале Куявско-Поморской цифровой библиотеки (г.Торунь),[1] входит в число наиболее популярных и часто используемых публикаций. В то же время, в настоящее время она представляет собой практически только фотографии страниц (сканы), что ограничивает возможности для поиска с использованием компьютерных инструментов.

В настоящие время в Кафедрe формальной лингвистики продалжается работа по усовершенствованию дигитализированной версии 2-го издания словаря Линде с использованием технологии оптического распознавания текста (OCR), одновременно совмещенная с поисковой системой[2] [Linde WBL]. Новизна этого подхода заключается в отношении к произведению С.Б.Линде именно как к корпусу текстов, а не просто словарю [Bień 2011]. Корпус, в настоящее время содержащий около 7 миллионов сегментов, был составлен из сканированных файлов, преобразованных в формат DjVu. С целью обработки поисковых запросов была применена программа Poliqarp for DjVu (marasca)[3]. Основой для нее послужила программа Poliqarp, ранее использованная при создании Национального корпуса польского языка[4].

Poliqarp for DjVu (marasca) имеет целый ряд достоинств. К их числу относится отображение результатов поиска как конкорданций, связанных с файлами и соответствующим образом обозначенных, а также возможность использования регулярных выражений.

В то же время, максимально полное использование возможностей лексикографической поисковой системы и цифровой версии словаря невозможно без подробного описания его структуры, которое отличалось бы от тех, которые были предложены до сих пор. Эта нелегкая задача дополнительно осложняется неоднородностью статей словаря С.Б.Линде, а также тем, что значительная часть его разделов написана с использованием шрифтов, отличных от стандартной латиницы (например, кириллицы или готического шрифта).

Автор словаря стремился представить в нем всю лексику польского языка, а также соотнести ее с другими языками, прежде всего всеми славянскими. Учитывая тот факт, что словарь Линде является, по сути, плодом многолетнего труда одного человека, структура словарных статей в нем не всегда одинакова. В основном она выглядит следующим образом[5]:

- заглавное слово,

- окончания,

- грамматическая информация,

- этимология,

- толкование, дефиниция и синонимы,

- переводы на иностранные языки, начинающиеся с сокращенных названий языков (в случае с текстами на немецком языке, набранными готическом шрифтом, сокращенное название зачастую отсутствует),

- иллюстрации: примеры из литературы со ссылками (иногда также на латыни),

- переносные значения слова и фразеологизмы (также с примерами из литературы со ссылками), начинающиеся с тире и знака параграфа,

- другие однокоренные слова начинаются с нового абзаца (словообразное гнездо).

Одной из особенностей словаря Линде как словаря алфавитно-гнездового является объемность и внушительная длина многих статей. Так, после фразеологизмов автор приводит также производные слова. Для примера приведем статью «pięć» (пять), не содержащую описания производных слов.

Илл. 1: Пример словарной статьи в словаре Линде

К сожалению, автор не составил полного перечня использованных условных сокращений (в этом числе языковых), отметив, что последние носят очевидный характер [Linde 1994: LXIV]. В большинстве примеров это соответствует действительности, однако для автоматических запросов такой перечень необходим. По этой причине нами была составлена сводная таблица сокращений. В качестве отправной точки для проделанной работы был выбран краткий перечень, приведенный Линде в начале словаря. Нами были выписаны данные из части со словами, начинающимися с буквы А и «Правил этимологии» Линде [Linde 1994: XXIII-LXI]. Далее таблица была дополнена блогодаря автоматически полученному списку слов, написанных курсивом[6] и данными, которые случайно встретились в словаре. В результате на сегодняшний день нами составлен перечень, включающий в себя более 200 сокращений для около 80 языков и диалектов. При этом лишь некоторые языки (к примеру, русский) имеют только по одному сокращению. В большинстве случаев каждому языку соответствует не менее двух, а к примеру, в случае с венгерским языком – даже 7 сокращений (Węg., Hung., Hg., Hng., Hungar., Ungar., Ung.).

Пользуясь этой таблицей, при помощи одного запроса можно найти все сокращения для данного языка и, таким образом, получить список почти всех выступлений слов на этом языке. Для этого надо составить запрос по формуле: X"\." | Y"\." | Z"\.", где X, Y, Z – это сокращения, "\." означает точку, а символ | - это альтернатива. Так, для венгерского языка это выглядит следующим образом:

Węg"\." | Hung"\." | Hg"\." | Hng"\." | Hungar"\." | Ungar"\." | Ung"\." ".*"

Ниже приведены результаты данного запроса в форме графических конкорданций.

 

Илл. 2: Результат поиска всех сокращений для венгерского языка

Кроме таких выступлений языков они записанные тоже с информацией типа «у россиян», «у чехов», «по-польски», «в венгерском», «с греческого». На следующих иллюстрациях можно увидеть результаты поисков:

- u .*n – для фраз типа «у россиян»,

- u .*ów – для фраз типа «у чехов»,

- (po|Po)(.*sku|.*cku)) – для фраз типа «по-польски»,

- w .*im – для фраз типа «в венгерском»,

- z .*iego – для фраз типа «с греческого».

Илл. 3: Результаты поиска для фраз типа «у россиян»

Илл. 4: Результаты поиска для фраз типа «у чехов»

Илл. 5:  Результаты поиска для фраз типа «по-польски»

Илл. 6: Результаты поиска для фраз типа «в венгерском»

 

Илл. 7: Результаты поиска для фраз типа «с греческого»

Поисковая система с использованием регулярных выражений делает возможным поиск в словаре значительного количества информации. В то же время, однако, можно предположить, что неспециалист, не имеющий навыков работы с дополнительными перечнями и инструкциями, может по-прежнему испытывать определенные трудности в работе с системой. В связи с этим, положительное значение имело бы включение непосредственно в корпус таких сведений, как развитие сокращений (например, в качестве новых тэгов, считываемых программой Poliqarp).

С точки зрения удобства пользователя, интерес представляла бы также разработка возможности появления в тексте словаря развития аббревиатур при подведении курсора. В качестве примера приведем фрагмент «Словаря польского языка XVI века» [SJP XVI] описанный с применением программы студента Норберта Потоцкого[7]:

Картина 8: Вид развития для аббревиатуры

       

Улучшенная таким образом версия корпуса текстов (которой в настоящее время является словарь Линде), будучи объединена со специализированной поисковой системой, может использоваться исследователями, обрабатывающими исторические словари с целью сверки сносок к словарю С.Б.Линде. Она, несомненно, также заинтересует специалистов-филологов, лиц, изучающих лексику, историю и культуру этого периода, а также лексикографов. В то же время, многоязычный словарь С.Б.Линде может использоваться не только филологами-полонистами, но и другими славистами. Неслучайно в прошлом словарь оказал влияние на лексикографию других народов, например словарь чешского языка Й.Юнгмана.

Качественная дигитализированная версия словаря с правильно распознанным или профессионально описанным текстом с применением тэгов является  намного более совершенным исследовательским инструментом, нежели его бумажная (или сканированная) версия, предоставляя возможности поиска и копирования соответствующих фрагментов. Кроме того, подготовка соответствующим образом описанных частных элементов словаря дала бы возможность разработки различных графических версий словаря, а также возможности скрытия или предоставления некоторых типов информации, в зависимости от запросов пользователя.

Литература

[Bień 2011] Janusz S. Bień, Efficient search in hidden text of large DjVu documents. В: Advanced Language Technologies for Digital Libraries. Lecture Notes in Computer Science (Theoretical Computer Science and General Issues) (6699). Springer, стр. 1-14, http://bc.klf.uw.edu.pl/177/.

[Linde 1807] Samuel Bogumił Linde, Słownik języka polskiego, изд. I, Warszawa 1807-1814, http://kpbc.umk.pl/publication/8173.

[Linde 1854] Samuel Bogumił Linde, Słownik języka polskiego, изд. II, Zakład Narodowy im. Ossolińskich, Lwów 1854-1860, http://poliqarp.wbl.klf.uw.edu.pl/slownik-lindego/.

[Linde 1994] Samuel Bogumił Linde, Słownik języka polskiego, изд. II, репринт, Wydawnictwo Gutenberg-Print, Warszawa 1994, http://poliqarp.wbl.klf.uw.edu.pl/extra/linde/index.djvu.

[Linde WBL] Samuel Bogumił Linde, Słownik języka polskiego, оцифрованная версия с поисковой системой, http://poliqarp.wbl.klf.uw.edu.pl/extra/linde/index.djvu.

[Matuszczyk 2006] Bożena Matuszczyk, Słownik języka polskiego S. B. Lindego. Warsztat leksykografa, Wydawnictwo KUL, Lublin 2006.

[SJP XVI] Słownik polszczyzny XVI wieku, Polska Akademia Nauk. Instytut Badań Literackich, Zakład Narodowy im. Ossolińskich, Wrocław, 1966-, http://www.spxvi.edu.pl/spxvi/slownik.php?s=2.


[1] http://kpbc.umk.pl/dlibra

[2] http://poliqarp.wbl.klf.uw.edu.pl/slownik-lindego/, http://poliqarp.wbl.klf.uw.edu.pl/extra/linde/index.djvu.

[3] http://poliqarp.wbl.klf.uw.edu.pl/en/

[4] http://nkjp.pl/

[5] Подробно об этом пишет Б.Матущик [Matuszczyk 2006].

[6] Список был сделан прототипической версией программы для лексикографических поисков. Однако на сегодняшний день данная версия все еще далека от совершенства и носит в целом экспериментальный характер.

[7] https://bitbucket.org/jsbien/djvu_annotating_tool

 
« Пред.   След. »