El'Manuscript-14
Konferencijos
Организационный комитет
Programos komitetas
Konferencijos darbo kryptys
Mokyklos veiklos kryptys ir temos
Pagrindinės datos
Registracija ir taikymas
Dalyvio mokestis
Участники конференции
Программа конференции
Konferencijos medžiaga
Программа школы
Mokyklos medžiaga
Organizacinė Infromacija
Kultūrinė programa
Фотогалерея





Lost Password?
No account yet? Register
We have 3 guests online
RSS-ленты новостей
rss20.gif

Portalo kūrimą rėmė Rusijos humanitarinių mokslų fondas, projektas Nr. 07-04-12140в.

(c) "Informacinės technologijos ir rašytinis palikimas", 2008-2020

Об одном методе автоматической грамматической разметки старопечатных текстов PDF Print E-mail
Written by: Артем Викторович Андреев   
Воскресенье, 07 Сентябрь 2014
A method is proposed for unsupervised morphosyntactic markup of old texts for which no exact grammar nor vocabulary may be known. The method employs building all possible mappings from text forms into grammemes and then reducing them using a loose context-free (CF) grammar. The forms are further lemmatized based on minimization of morphologic variation. The method has been tested on two old Lithuanian documents from the late 16th century by M. Dauksha and has proven to be rather efficient and accurate (up to 80 %). icon andreev_elmanuscript2014 (594.8 kB)
 
< Prev   Next >