El'Manuscript-10
Конференция
Организационный комитет
Программный комитет
Направления работы конференции
Направления работы школы
Основные даты
Регистрация и заявка
Организационный взнос
Программа конференции
Список участников
Материалы конференции
Проекты и ресурсы
Организационная информация
Культурная программа





Забравена парола
Нямате достъп?
Регистрирайте се!!!
В момента 2 госта онлайн
RSS-емисии
rss20.gif

Порталът е създаден с финансовата подкрепа на Руската хуманитарна фондация (RHF), номер на проекта 07-04-12140v.

Портал зарегистрирован 05 августа 2010 г. в Федеральной службе по надзору в сфере связи, информационных технологий и массовых коммуникаций (Роскомнадзор) в качестве средства массовой информации, номер свидетельства ЭЛ № ФС 77 - 41581. Учредитель В. А. Баранов. 

(с) "Информационните технологии и писменото наследство", 2008-2016 г.

Электронная библиотека для исследований в области русской лексикологии и лексикографии: опыт работ PDF Печат Е-мейл
Автор: Алексей Алексеевич Бурыкин   
02 Сентябрь 2010

         Inthe report there is represented the opportunity of application of theelectronic collection of Russian texts, intended for researches inthe field of Russian lexicology and practical works for drawing upthe dictionaries of Russian. The given assembly at work with specialcomputer programs can be used as library, as the virtual thesaurusand as the virtual dictionary card file surpassing on completenessthe National case of Russian. The author states chronologicalstratification and thematic groupings of texts from the givenassembly, providing historical prospect of research of lexicon andits chronological characteristics, its stylistic accessory andthematic relationships.

Использованиеэлектронных текстовых ресурсов дляизучения и описания лексического составарусского языка с каждым годом занимаетвсе большее место в работе лингвистов,занимающихся проблемами описательнойи исторической лексикологии русскогоязыка, и лексикографов, непосредственнозанятых составлением словарей различныхтипов – толковых словарей, специальныхсловарей, исторических словарей русскогоязыка нового времени. словарей языкаписателей. Аккумулирование текстовыхресурсов и достижение максимальновозможной оптимизации их использованияв этой ситуации превращаются всамостоятельные задачи, которые ставятсяперед исследователями и перед научнымиколлективами. 

С2008 года в Институте лингвистическихисследований РАН (Санкт-Петербург)автор данной работы занимаетсясоставлением электронной библиотекирусских текстов «Библиотека лексикографа»,которая специально предназначена дляработы над словарями современногорусского литературного языка, и ресурсыкоторой могли бы использоваться вСловаре русского яхыка XVIII века,Историческом словаре русского языкаXIX века, а также при составлении словарныхизданий, посвященных новым словамрусского литературного языка и лексическимновациям. К настоящему времени этотресурс позволил компенсировать отсутствиедокументации для некоторых слов вБольшой словарной картотеке, на основекоторой делается Большой Академическийсловарь русского языка, восполнитьлакуны картотеки Словаря русского языкаXVIII века, образовавшиеся в ней по разнымпричинам, и пополнить количество фиксацийотдельных слов, осуществлять контрольза отнесением лексических единиц ксобственно новым словам при отграниченииих от относительно поздних картотечныхфиксаций слов, вошедших в русский языкв XIX-первой половине ХХ веков. Ведетсясобирание материала для проекта Словарярусского языка первой половины ХХ века,идея которого высказана А.С. Гердом.

Внастоящее время собрание «Библиотекалексикографа» включает около 22000 файловс текстами, распределение которых показависит от размещения текстов в источниках(в одних случаях в 1 файле помещаетсяодно стихотворение, в других – несколькороманов). Общий объем текстов – около8 гигабайт. Состав Библиотеки – текстыXVIII –начала XXI веков, представляющиехудожественную, мемуарную, общественнополитическую литературу и литературупо всем областям знаний и деятельности.

Проект«Библиотека лексикографа» задумывалсяи поначалу действовал как электроннаяальтернатива Библиотеке словарногоотдела ИЛИ РАН, которая служила и служитисточником бумажной Большой словарнойкартотеки. В настоящее время, принасыщении Библиотеки соответствующимобъемом текстов и наличием программногообеспечения –в ней используетсяпоисковая программа Архивариус3000 –функции электронного собрания расширилисьи сводятся к следующим:

1)Собственно электронная библиотека, позволяющая обращаться к любому входящемув нее тексту любыми целями.

2)Виртуальный тезаурус лексики русскогоязыка, позволяющий осуществлять выбортекстов, содержащих ту или иную лексическуюединицу. Эта возможность, реализующаясяпри необходимости сохранения документациина отдельные конкретные слова, можетбыть осуществлена при использованиилюбой поисковой системы, начиная с опциипоиска в операционной системе Windows, илипоисковых программ наподобие программыIntegra, позволяющейпросматривать цитаты из текстов.

3)Виртуальная электронная картотека,включающая все лексические единицывсех текстов, присутствующих в Библиотеке.В настоящее время общий массив лексики,к которой обеспечивается доступ ввиртуальной картотеке, составляет около5 млрд. словоформ, из которых более 2 млн.единиц составляют разные слова(статистические данные содержатся вотчетах программы Архивариус3000 прииндексировании текстов Библиотеки).Поисковая программа Архивариус3000позволяет не только просматривать всеупотребления любого заданного слова втекстах, но указывает количествоупотреблений данного слова в каждомтексте и дает возможность увидеть их,она же открывает возможностьсамостоятельного выбора необходимогофрагмента текста, документирующего тоили иное слово, и копирования такогофрагмента для размещения в текстесоставляемого словаря или исследования.

Нарастаниеобъема текстов, размещаемых в Библиотекелексикографа, а также пользование ейпри работе над словарями, охватывающимиразные периоды истории русскоголитературного языка, ставит передсоздателем проекта и его пользователяминовые задачи – к их числу относитсяхронологическая классификация текстови распределение текстов по определеннымтематическим рубрикам и жанровым истилистическим формам.

Средствомрешения этих задач, предусмотренным врамках модернизации «библиотекилексикографа» и оптимизации ееиспользования является присвоениеопределенных условных индексов всемдокументам-файлам библиотеки, которыевключаются в состав имен файлов. Имяфайла содержит фамилию и инициалы (илипервый инициал) автора и названиепроизведения или собрания произведений(Стихи, повести и рассказы, романы ит.п.). К этой информации добавляютсясведения о хронологической отнесенностидокумента, его жанровой форме ипредметно-тематической отнесенности.Для этого автором проекта предложеноиспользование букв латинского алфавита,которые отсутствуют в именах файловили могут быть устранены оттуда при ихналичии.

Относительнаядатировка документа предполагает егопривязку к периоду в границах однойтрети XVIII, XIX, XX, и XXI веков. В качествекодовых символов для этих периодовиспользованы 4 последние буквы латинскогоалфавита в следующих комбинациях: WW– первая треть 18 века, WWW– вторая треть 18 века, WWX– последняя треть 18 века, XXW– первая треть 19 века, XXX– вторая треть 19 века, XXY– последняя треть 19 века, ХYY– первая треть 20 века, YYY– вторая треть 20 века, YYZ– третья треть 20 века, YYZZ– первая треть 21 века, ZZZ– вторая треть 21 века. Количественнаяосложненность символов позволяетосуществлять автоматически выборкутекстов, относящихся к несколькимсмежным периодам истории русского языкаи задавать самую различную структурузапросов. Так, поиск по символу W дасттексты, относящиеся к 18 и первой трети19 века, поиск по символу X – тексты,относящиеся к последней трети 18 века,всему 19 веку и первой трети 20 века, поискпо символам XX позволит сгруппироватьтексты, относящиеся к 19 веку, а поиск посимволам XY – выделитьтексты конца 19-начала 20 веков. В этойсистематике учтена реальная периодизацияистории русского литературного языканового времени, отражающаяся на измененияхв его словарном составе.

Жанрово-стилистическаяхарактеристика текстов представленав Библиотеке в следующей классификации(перед наименованием рубрики здесь идаже приведен литерный индекс:

a)Художественная литература; b)Публицистика, критика; c) Мемуары,дневники, переписка; d) Общественно-политическаялитература, научная, научно-популярнаялитература e) Документы, официальныематериалы (партийные программы,государственные законы, указы,стенограммы, документация, итоговыедокументы мероприятий, служебнаядокументация (приказы, циркуляры ит.п.); f) Газетно-журнальнаяпериодика g) Переводная литература ииные переводные источники (резервнаяпозиция).

Предметно-тематическаяотнесенность источников в предварительнойформе (она открыта для обсуждения) имеетследующий вид:

h )Гуманитарные науки (философия, религияи религиоведение, правоведение,политология и социология, демография,экономика, культурная антропология икультурология и искусствоведение,литературоведение и языкознание икниговедение, психология и педагогика);i) История (исторические труды, историческиероманы, биографические произведения);j) Науки о земле и человеке (География,геология, биология, антропология,медицина и ветеринария, секс и сексология);k) Путешествия, география, страноведение,этнография, страны мира, народы мира; .l) Бытовые практики (Быт и повседневныедомашние практики, жилище и его устройство,гигиена, пища и ее приготовление, одеждаи ее изготовление и ремонт, ремесло -производство и ремонт предметов,торговля, досуг, хобби, игры и развлечения,спорт, домашние животные и культурныерастения - сад, огород, комнатные цветы);m) Точные и естественные науки (математика,физика, химия, астрономия, навигация ит.д.); n) Производство, техника, строительство(промышленное производство и егоорганизация, промышленная техника и ееистория, промышленное строительство ит.д.) o) Связь, коммуникационные технологии,технологии хранения и обработкиинформации (Почта, телеграф, телефон,компьютеры и т.д) ; p) Транспорт (сухопутныйтранспорт, гужевой, автомобильный,транспорт, морской и воздушный транспорт); . r) Военное дело, военное искусство (Теория,история, практика военного дела, военныемемуары и биографии, художественнаявоенная литература); s) Морское дело(теория, история, практика морскогодела, описания походов, мемуары ибиографии, морской и водный транспорт,морская художественная литература); t) Воздухоплавание и авиация, космонавтика(теория и история воздухоплавания иавиации, военная авиация, воздушныйтранспорт, мемуары и биографии,художественная литература об авиациии космонавтике); u) Переводнаянаучно-техническая литература (резерв).Отличие предлагаемой классификации отсистематики книг в электронных бибиотекахи от принятой в библиотекеоведенииуниверсальной классификации состоитв том, что она является нежесткой и нетолько допускает, но и предполагаетвключение одного и того же текста внесколько разных тематических групп.

Автоматическийпоиск текстов по индексам, вставленнымв имена файлов, что может осуществлятьсяпри использовании опции поиска в Windowsбез использования других программ,позволит осуществлять выбор источниковкак по хронологическим, так и по жанровыми тематическим характеристикам и посвойствам текстов в любой комбинации.Внутри тематических рубрик прииспользовании цифр от 1 до 0 может бытьиспользована более детальная тематическаяклассификация документов.

Количественнаяоценка объема источников, представляющихте или иные предметно-тематическиерубрики и области знаний и практики,позволит поставить задачи пополнения«Библиотеки лексикографа» за счетдополнительных поисков электронныхтекстов соответствующей тематики исканирование тех текстов, которыепредставляются необходимыми дляиспользования в лексикологическихисследованиях и лексикографическойработе.

 
< Предишна   Следваща >