© Владимѝр Бенко (Vladimír Benko). Словакия, Братислава. Институт
языкознания им. Людовита Штура Словацкой
Академии наук, ЮНЕСКО
кафедра многоязычной и межкультурной коммуникации Университета им. Яна
Коменского в Братиславе
Лекции представят проект
семейства веб-корпусов Aranea для языков использованных и/или
преподанных в словацких университетах, которые предназначены для преподавания
филологических и транслатологических предметов, а также и для лингвистических
исследований.
Веб-корпус представляет собой особый
вид лингвистического корпуса, который создан путем постепенной загрузки текстов
из интернета при помощи автоматизированных процедур, которые на лету определяют
язык и кодировку отдельных веб страниц, удаляют шаблоны, элементы навигации,
ссылки и рекламу (т.н. boilerplate),
осуществляют трансформацию на текст, фильтрацию, нормализацию и дедупликацию
полученных документов, которые затем можно обработать традиционными
инструментами корпусной лингвистики (токенизация, мирфосинтаксическая и
синтаксическая аннотация) и внедрить в поисковую корпусную систему. Создание
веб-корпуса не только намного дешевле, но прежде всего его размер может быть
даже на порядок больше традиционных корпусов.
При создании всех корпусов была
применена одинаковая методология и одинаков набор програмных инструментов: SpiderLing, Onion, Unitok и TreeTagger . В качестве
поисковой системы используется NoSketchEngine (open-ource) или SketchEngine (платная). У корпусов названия на «нейтральном»
(латинском) языке обозначающем язык и тоже размер корпуса, например AraneumAnglicumMinus,
AraneumRussicumMaius, и т. п. В настоящее время семейство содержит
18 корпусов на 14 языках в двух размерах и все корпусы доступны в бесплатном
режиме на корпусном портале проекта .
В отличие от вычислительных лингвистов,
которые обрабатывают корпусные данные в пакетном режиме, остальные пользователи
корпусов обычно заинтересованны в поисках конкретных примеров слов, сочетаний и
синтаксических структур распечатанных в виде конкордaнсов, частотных списков и
профилей на экране. Учитывая размеры современных корпусов станет ясным, что
эффективность и удобность поисковой является очень важным фактором для всякой
работы с корпусом.
Семинар посвящен практике работы с
семейством корпусных поисковых систем NoSketch
Engine и Sketch Engine ,
принадлежащим к самым лучшим в мире инструментам для работы со «сверхбольшими»
корпусами (размером в десятки миллиардов токенов). Обе системы были созданы в Лаборатории обработки естественного языка
Факультета информатики Университета им. Масарика в Брно, причем функции
бесплатной (open-source) системы NoSketch
Engine являются подмножеством функций Sketch Engine и включают в полном
объеме работу со списками слов (Word List)
и конкордансером, т. е. поиск по словоформе, лемме, сочетании и морфосинтаксической
метке в разных комбинациях на языке CQL
(Corpus Query Language), и тоже
вычисление коллокаций на базе статистических мер сочетаемости (T-score, MI, MI3, log likelihood, min.
sensitivity и logDice). Система работает в режиме сервер/клиент, где на сервере
хранятся все данные и осуществляются поисковые операции и пользователь работает
с клиентом через веб-интерфейс при помои стандартного браузера.
Платная система Sketch Engine содержит кроме всех функций NoSketch Engine три существенных расширения – коллокационные
профили (скетчи) построенные на базе пользовательской скетч-грамматики,
дистрибутивный тезаурус и функцию сравнения скетчей для двух лексических
единиц. Все эти функции работают с данными вычисленными заранее, что делает
систему очень быстрой и удобной. Система предоставляется в виде сервиса
(подписки) на серверах компании Lexical
Computing, на которых хранятся корпусы более чем на 80 языках, включая
15-миллиардный корпус русского языка.
Конкорданс формата KWIC для словоформы «новосибирский»
Правосторонные
коллокаты словоформы «новосибирский»
Дистрибутивный тезавр для леммы
«новосибирский»
Частотная дистрибуция леммы
«новосибирский» по TLD
Программа
курса
«A r a n e a : Семейство миллиардных
веб-корпусов»
(10 часов лекционных занятий и практикумов,
16-20 ноября 2015 г.)
Лекция 1. Введение. Лингвистический корпус как источник
информации о языке
Основные понятия: виды электронных
коллекций текстов
История создания корпусов, генерации, применения
Проекты национальных корпусов
Корпусная лингвистика как метод или особенная ветка
языкознания
Применение методов корпусной лингвистики в синхронном и
диахронном исследовании языка
Понятие веб-корпуса, особенности и отличия от
традиционных корпусов
Лекция 2 Aranea – Семейство миллиардных
веб-корпусов
Основные решения проекта Aranea: языки, размеры и варианты, названия
Инструменты для обработки: краулинг, определение языка, удаление
шаблонов, депупликация, токенизация, морфосинтаксическая разметка,унификация
тегсетов
Публикация и использование корпусов: корпусные менеджеры
Формат корпусов Aranea :
атрибуты и структуры
Практикумы:
A. Работа
с корпусной поисковой системой (No)SketchEngine
Практикум
1. Поиск по словоформе, лемме и
словосочетанию
Режимы изображения, настройки
Фильтры, контекст
Частотные дистрибуции
Тегсеты (tagsets), поиск по тегам
2. Язык запросов CQL
Регулярные выражения
Применение CQL:
поиск синтаксических структур
Коллокации, меры ассоциативности
Вычисление коллокационных кандидатов
B. Работа
с корпусной поисковой системой SketchEngine
Практикум 1: Корпусный менеджер Sketch Enginе (https://www.sketchengine.co.uk/)
Коллокационные профили (скетчи)
Скетч-грамматики: синтаксический и коллокационный подход
Скeтч-грамматики для корпусов Aranea
Сравнение скетчей (Sketch-diff)
и дистрибутивный тезавр
Двуязычные скетчи
Практикум
2: Ресурсы и интрументы сайта Sketch
Engine
Корпусы семейства TenTen
Параллельные корпусы
Инструменты для создания пользовательских корпусов: Corpus
Architect и WebBootCaT
Экстракция терминологии
Webography
https://savba.academia.edu/VladimirBenko
http://ucts.uniba.sk/aranea_about/
|