A R A N E A : СЕМЕЙСТВО МИЛЛИАРДНЫХ ВЕБ-КОРПУСОВ - Сообщество "Письменное наследие"

Выбрать

EnglishRussianBulgarianLithuanian

El'Manuscript-2015

Школа

Организационный комитет

Программный комитет

Направления работы школы

Лекторы школы

Основные даты

Регистрация и заявка

Организационный взнос

Программа школы

Материалы школы

Организационная информация

Сейчас на сайте находятся:
2 гостей

RSS-ленты новостей

Портал был создан при финансовой поддержке Российского гуманитарного научного фонда (РГНФ), проект № 07-04-12140в.

A R A N E A : СЕМЕЙСТВО МИЛЛИАРДНЫХ ВЕБ-КОРПУСОВ

© Владимѝр Бенко (Vladimír Benko). Словакия, Братислава. Институт языкознания им. Людовита Штура Словацкой Академии наук, ЮНЕСКО кафедра многоязычной и межкультурной коммуникации Университета им. Яна Коменского в Братиславе

Лекции представят проект семейства веб-корпусов Aranea для языков использованных и/или преподанных в словацких университетах, которые предназначены для преподавания филологических и транслатологических предметов, а также и для лингвистических исследований.

Веб-корпус представляет собой особый вид лингвистического корпуса, который создан путем постепенной загрузки текстов из интернета при помощи автоматизированных процедур, которые на лету определяют язык и кодировку отдельных веб страниц, удаляют шаблоны, элементы навигации, ссылки и рекламу (т.н. boilerplate), осуществляют трансформацию на текст, фильтрацию, нормализацию и дедупликацию полученных документов, которые затем можно обработать традиционными инструментами корпусной лингвистики (токенизация, мирфосинтаксическая и синтаксическая аннотация) и внедрить в поисковую корпусную систему. Создание веб-корпуса не только намного дешевле, но прежде всего его размер может быть даже на порядок больше традиционных корпусов.

При создании всех корпусов была применена одинаковая методология и одинаков набор програмных инструментов: SpiderLing, Onion, Unitok [1] и TreeTagger [2]. В качестве поисковой системы используется NoSketchEngine [3] (open-ource) или SketchEngine [4] (платная). У корпусов названия на «нейтральном» (латинском) языке обозначающем язык и тоже размер корпуса, например AraneumAnglicumMinus, AraneumRussicumMaius, и т. п. В настоящее время семейство содержит 18 корпусов на 14 языках в двух размерах и все корпусы доступны в бесплатном режиме на корпусном портале проекта [5].

В отличие от вычислительных лингвистов, которые обрабатывают корпусные данные в пакетном режиме, остальные пользователи корпусов обычно заинтересованны в поисках конкретных примеров слов, сочетаний и синтаксических структур распечатанных в виде конкордaнсов, частотных списков и профилей на экране. Учитывая размеры современных корпусов станет ясным, что эффективность и удобность поисковой является очень важным фактором для всякой работы с корпусом.

Семинар посвящен практике работы с семейством корпусных поисковых систем NoSketch Engine [6]и Sketch Engine [7], принадлежащим к самым лучшим в мире инструментам для работы со «сверхбольшими» корпусами (размером в десятки миллиардов токенов). Обе системы были созданы в Лаборатории обработки естественного языка Факультета информатики Университета им. Масарика в Брно, причем функции бесплатной (open-source) системы NoSketch Engine являются подмножеством функций Sketch Engine и включают в полном объеме работу со списками слов (Word List) и конкордансером, т. е. поиск по словоформе, лемме, сочетании и морфосинтаксической метке в разных комбинациях на языке CQL (Corpus Query Language), и тоже вычисление коллокаций на базе статистических мер сочетаемости (T-score, MI, MI3, log likelihood, min. sensitivity и logDice). Система работает в режиме сервер/клиент, где на сервере хранятся все данные и осуществляются поисковые операции и пользователь работает с клиентом через веб-интерфейс при помои стандартного браузера.

Платная система Sketch Engine содержит кроме всех функций NoSketch Engine три существенных расширения – коллокационные профили (скетчи) построенные на базе пользовательской скетч-грамматики, дистрибутивный тезаурус и функцию сравнения скетчей для двух лексических единиц. Все эти функции работают с данными вычисленными заранее, что делает систему очень быстрой и удобной. Система предоставляется в виде сервиса (подписки) на серверах компании Lexical Computing, на которых хранятся корпусы более чем на 80 языках, включая 15-миллиардный корпус русского языка.

Конкорданс формата KWIC для словоформы «новосибирский»

Правосторонные коллокаты словоформы «новосибирский»

Дистрибутивный тезавр для леммы «новосибирский»

Частотная дистрибуция леммы «новосибирский» по TLD

Программа курса

«A r a n e a : Семейство миллиардных веб-корпусов»

(10 часов лекционных занятий и практикумов, 16-20 ноября 2015 г.)

Лекция 1. Введение. Лингвистический корпус как источник информации о языке

Основные понятия: виды электронных коллекций текстов

История создания корпусов, генерации, применения

Проекты национальных корпусов

Корпусная лингвистика как метод или особенная ветка языкознания

Применение методов корпусной лингвистики в синхронном и диахронном исследовании языка

Понятие веб-корпуса, особенности и отличия от традиционных корпусов

Лекция 2 Aranea – Семейство миллиардных веб-корпусов

Основные решения проекта Aranea: языки, размеры и варианты, названия

Инструменты для обработки: краулинг, определение языка, удаление шаблонов, депупликация, токенизация, морфосинтаксическая разметка,унификация тегсетов

Публикация и использование корпусов: корпусные менеджеры

Формат корпусов Aranea [8]: атрибуты и структуры

Практикумы:

A. Работа с корпусной поисковой системой (No)SketchEngine

Практикум

1. Поиск по словоформе, лемме и словосочетанию

Режимы изображения, настройки

Фильтры, контекст

Частотные дистрибуции

Тегсеты (tagsets), поиск по тегам

2. Язык запросов CQL

Регулярные выражения

Применение CQL: поиск синтаксических структур

Коллокации, меры ассоциативности

Вычисление коллокационных кандидатов

B. Работа с корпусной поисковой системой SketchEngine

Практикум 1: Корпусный менеджер Sketch Enginе (https://www.sketchengine.co.uk/)

Коллокационные профили (скетчи)

Скетч-грамматики: синтаксический и коллокационный подход

Скeтч-грамматики для корпусов Aranea

Сравнение скетчей (Sketch-diff) и дистрибутивный тезавр

Двуязычные скетчи

Практикум 2: Ресурсы и интрументы сайта Sketch Engine

Корпусы семейства TenTen

Параллельные корпусы

Инструменты для создания пользовательских корпусов: Corpus Architect и WebBootCaT

Экстракция терминологии

В рамках практикумов студенты ознакомятся с работой с обеими системами и получат неограниченный доступ к корпусам на корпусном портале проекта Aranea (http://ucts.uniba.sk/) и временный 3-х месячный бесплатный аккаунт для Sketch Engine.

Webography

https://savba.academia.edu/VladimirBenko

http://ucts.uniba.sk/aranea_about/

[1] http://corpus.tools/

[2] http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/

[3] http://nlp.fi.muni.cz/trac/noske

[4] https://www.sketchengine.co.uk/

[5] http://ucts.uniba.sk/aranea_about/

[6]http://nlp.fi.muni.cz/trac/noske

[7]https://www.sketchengine.co.uk/

[8] Сайт проекта Aranea: http://ucts.uniba.sk/aranea_about/
Корпусные порталы: Aranea: http://ucts.uniba.sk/ ; http://ella.juls.savba.sk/

« Пред.		След. »