Lost Password?
No account yet? Register
We have 2 guests and 1 member online
RSS-feed
rss20.gif

The project is supported by the Russian Foundation for Basic Research, project #07-04-12140в

(c) "Information Technologies and Textual Heritage", 2008-2020

A R A N E A : СЕМЕЙСТВО МИЛЛИАРДНЫХ ВЕБ-КОРПУСОВ PDF Print E-mail

© Владимѝр Бенко (Vladimír Benko). Словакия, Братислава. Институт языкознания им. Людовита Штура Словацкой Академии наук, ЮНЕСКО кафедра многоязычной и межкультурной коммуникации Университета им. Яна Коменского в Братиславе

Лекции представят проект семейства веб-корпусов Aranea для языков использованных и/или преподанных в словацких университетах, которые предназначены для преподавания филологических и транслатологических предметов, а также и для лингвистических исследований. 

Веб-корпус представляет собой особый вид лингвистического корпуса, который создан путем постепенной загрузки текстов из интернета при помощи автоматизированных процедур, которые на лету определяют язык и кодировку отдельных веб страниц, удаляют шаблоны, элементы навигации, ссылки и рекламу (т.н. boilerplate), осуществляют трансформацию на текст, фильтрацию, нормализацию и дедупликацию полученных документов, которые затем можно обработать традиционными инструментами корпусной лингвистики (токенизация, мирфосинтаксическая и синтаксическая аннотация) и внедрить в поисковую корпусную систему. Создание веб-корпуса не только намного дешевле, но прежде всего его размер может быть даже на порядок больше традиционных корпусов.

При создании всех корпусов была применена одинаковая методология и одинаков набор програмных инструментов: SpiderLing, Onion, Unitok [1] и TreeTagger [2]. В качестве поисковой системы используется NoSketchEngine [3] (open-ource) или SketchEngine [4] (платная). У корпусов названия на «нейтральном» (латинском) языке обозначающем язык и тоже размер корпуса, например AraneumAnglicumMinus, AraneumRussicumMaius, и т. п. В настоящее время семейство содержит 18 корпусов на 14 языках в двух размерах и все корпусы доступны в бесплатном режиме на корпусном портале проекта [5].

В отличие от вычислительных лингвистов, которые обрабатывают корпусные данные в пакетном режиме, остальные пользователи корпусов обычно заинтересованны в поисках конкретных примеров слов, сочетаний и синтаксических структур распечатанных в виде конкордaнсов, частотных списков и профилей на экране. Учитывая размеры современных корпусов станет ясным, что эффективность и удобность поисковой является очень важным фактором для всякой работы с корпусом.

Семинар посвящен практике работы с семейством корпусных поисковых систем NoSketch Engine [6]и Sketch Engine [7], принадлежащим к самым лучшим в мире инструментам для работы со «сверхбольшими» корпусами (размером в десятки миллиардов токенов). Обе системы были созданы в Лаборатории обработки естественного языка Факультета информатики Университета им. Масарика в Брно, причем функции бесплатной (open-source) системы NoSketch Engine являются подмножеством функций Sketch Engine и включают в полном объеме работу со списками слов (Word List) и конкордансером, т. е. поиск по словоформе, лемме, сочетании и морфосинтаксической метке в разных комбинациях на языке CQL (Corpus Query Language), и тоже вычисление коллокаций на базе статистических мер сочетаемости (T-score, MI, MI3, log likelihood, min. sensitivity и logDice). Система работает в режиме сервер/клиент, где на сервере хранятся все данные и осуществляются поисковые операции и пользователь работает с клиентом через веб-интерфейс при помои стандартного браузера.

Платная система Sketch Engine содержит кроме всех функций NoSketch Engine три существенных расширения – коллокационные профили (скетчи) построенные на базе пользовательской скетч-грамматики, дистрибутивный тезаурус и функцию сравнения скетчей для двух лексических единиц. Все эти функции работают с данными вычисленными заранее, что делает систему очень быстрой и удобной. Система предоставляется в виде сервиса (подписки) на серверах компании Lexical Computing, на которых хранятся корпусы более чем на 80 языках, включая 15-миллиардный корпус русского языка.

benko1.png 

Конкорданс формата KWIC для словоформы «новосибирский»

 benko2.png

Правосторонные коллокаты словоформы «новосибирский»

 benko3.png

Дистрибутивный тезавр для леммы «новосибирский»

benko4.png 

Частотная дистрибуция леммы «новосибирский» по TLD

Программа курса

«A r a n e a : Семейство миллиардных веб-корпусов»

(10 часов лекционных занятий и практикумов, 16-20 ноября 2015 г.)

Лекция 1.   Введение.  Лингвистический корпус как источник информации о языке

Основные понятия: виды электронных коллекций текстов

История создания корпусов, генерации, применения

Проекты национальных корпусов

Корпусная лингвистика как метод или особенная ветка языкознания

Применение методов корпусной лингвистики в синхронном и диахронном исследовании языка

Понятие веб-корпуса, особенности и отличия от традиционных корпусов

Лекция 2 Aranea – Семейство миллиардных веб-корпусов

Основные решения проекта Aranea: языки, размеры и варианты, названия

Инструменты для обработки:  краулинг, определение языка, удаление шаблонов, депупликация, токенизация, морфосинтаксическая разметка,унификация тегсетов

Публикация и использование корпусов: корпусные менеджеры

Формат корпусов Aranea [8]: атрибуты и структуры

 

Практикумы:

A. Работа с корпусной поисковой системой (No)SketchEngine

Практикум

1. Поиск по словоформе, лемме и словосочетанию

Режимы изображения, настройки

Фильтры, контекст

Частотные дистрибуции

Тегсеты (tagsets), поиск по тегам

2.  Язык запросов CQL

Регулярные выражения

Применение CQL: поиск синтаксических структур

Коллокации, меры ассоциативности

Вычисление коллокационных кандидатов

B. Работа с корпусной поисковой системой SketchEngine

Практикум 1: Корпусный менеджер Sketch Enginе  (https://www.sketchengine.co.uk/)

Коллокационные профили (скетчи)

Скетч-грамматики: синтаксический и коллокационный подход

Скeтч-грамматики для корпусов Aranea

Сравнение скетчей (Sketch-diff) и дистрибутивный тезавр

Двуязычные скетчи

Практикум 2: Ресурсы и интрументы сайта Sketch Engine

Корпусы семейства TenTen

Параллельные корпусы

Инструменты для создания пользовательских корпусов:  Corpus Architect и WebBootCaT

Экстракция терминологии

В рамках практикумов студенты ознакомятся с работой с обеими системами и получат неограниченный доступ к корпусам на корпусном портале проекта Aranea (http://ucts.uniba.sk/) и временный 3-х месячный бесплатный аккаунт для Sketch Engine.

 

Webography

https://savba.academia.edu/VladimirBenko

http://ucts.uniba.sk/aranea_about/

 



[1] http://corpus.tools/

[2] http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/

[3] http://nlp.fi.muni.cz/trac/noske

[4] https://www.sketchengine.co.uk/

[5] http://ucts.uniba.sk/aranea_about/

[6]http://nlp.fi.muni.cz/trac/noske

[7]https://www.sketchengine.co.uk/

[8] Сайт проекта Aranea: http://ucts.uniba.sk/aranea_about/
Корпусные порталы: Aranea: http://ucts.uniba.sk/ ; http://ella.juls.savba.sk/

 
< Prev   Next >