El'Manuscript-14
Конференция
Организационен комитет
Програмен комитет
Направления на работата на конференцията
Направления за работа и теми на школата
Ключови дати
Условия за участие
Такса
Участниците в конференцията
Програмата на конференцията
Материали от конференцията
Програма на семинара
Материали от семинари
Организационна информация
Културна програма
Фото-репортаж





Забравена парола
Нямате достъп?
Регистрирайте се!!!
В момента 1 гост онлайн
RSS-емисии
rss20.gif

Порталът е създаден с финансовата подкрепа на Руската хуманитарна фондация (RHF), номер на проекта 07-04-12140v.

Портал зарегистрирован 05 августа 2010 г. в Федеральной службе по надзору в сфере связи, информационных технологий и массовых коммуникаций (Роскомнадзор) в качестве средства массовой информации, номер свидетельства ЭЛ № ФС 77 - 41581. Учредитель В. А. Баранов. 

(с) "Информационните технологии и писменото наследство", 2008-2016 г.

Bulgarian National Corpus PDF Печат Е-мейл
Автор: Светла Коева   
07 Август 2014
Лекция

We will discuss several key concepts related to the development of corpora and reconsider them in light of recent developments in Natural Language Processing. We propose a data-driven approach to corpus design, which integrates the best practices of traditional corpus linguistics with the potential of the latest technologies allowing fast collection, automatic metadata description and annotation of large amounts of data.

We will illustrate this concept with a description of the compilation, structuring, documentation, and annotation (morphosyntactic tagging, lemmatisation, word-sense annotation, annotation of noun phrases and named entities) of the Bulgarian National Corpus (http://ibl.bas.bg/en/BGNC_access_en.htm; http://ibl.bas.bg/en/BGNC_en.htm; http://search.dcl.bas.bg/). We will conclude with a brief evaluation of the quality of the corpus and an outline of its applications in Natural Language Processing and linguistic research.


 
< Предишна   Следваща >