El'Manuscript-14
Конференция
Организационный комитет
Программный комитет
Направления работы конференции
Направления работы школы
Основные даты
Регистрация и заявка
Организационный взнос
Участники конференции
Программа конференции
Материалы конференции
Программа школы
Материалы школы
Организационная информация
Культурная программа
Фотогалерея





Забыли пароль?
Ещё не зарегистрированы? Регистрация
Сейчас на сайте находятся:
1 гость
RSS-ленты новостей
rss20.gif

Портал был создан при финансовой поддержке Российского гуманитарного научного фонда (РГНФ), проект № 07-04-12140в.

Портал зарегистрирован 05 августа 2010 г. в Федеральной службе по надзору в сфере связи, информационных технологий и массовых коммуникаций (Роскомнадзор) в качестве средства массовой информации, номер свидетельства ЭЛ № ФС 77 - 41581. Учредитель В. А. Баранов.

(c) "Информационные технологии и письменное наследие", 2008-2017

Bulgarian National Corpus PDF Печать E-mail
Автор(ы): Светла Коева   
07.08.2014 г.
Лекция

We will discuss several key concepts related to the development of corpora and reconsider them in light of recent developments in Natural Language Processing. We propose a data-driven approach to corpus design, which integrates the best practices of traditional corpus linguistics with the potential of the latest technologies allowing fast collection, automatic metadata description and annotation of large amounts of data.

We will illustrate this concept with a description of the compilation, structuring, documentation, and annotation (morphosyntactic tagging, lemmatisation, word-sense annotation, annotation of noun phrases and named entities) of the Bulgarian National Corpus (http://ibl.bas.bg/en/BGNC_access_en.htm; http://ibl.bas.bg/en/BGNC_en.htm; http://search.dcl.bas.bg/). We will conclude with a brief evaluation of the quality of the corpus and an outline of its applications in Natural Language Processing and linguistic research.


 
« Пред.   След. »