Корпусна група БрУК

Завдання

На принципах Браунського корпусу створити анотований корпус сучасної української мови (БрУК) обсягом 1 млн слововживань

 

Репозитарій

https://github.com/brown-uk

Склад:

Василь Старко

Андрій Рисін

Ольга Гавура

Наталія Олішкевич

 

На різних етапах до роботи також долучалися:

Наталія Чейлитко

Мар’яна Романишин

Настасія Осідач

Катерина Альошкіна

Катерина Бобровник

Христина Кулак

Оксана Кунікевич

Тетяна Матвєєва

Ірина Возна

Ян Бутельський

 

Зв’язок

bruk.group@gmail.com

 

Публікації

1. Старко В., Чейлитко Н. Концепція створення Браунського корпусу української мови

«Комп’ютерна лінгвістика: сучасне та майбутнє». Матеріали Міжнародної науково-практичної конференції. – К.: КНЛУ, 2012. – С. 45-46.

http://www.mova.info/zbirnyk.pdf

 

2. Старко В., Чейлитко Н. Параметризація корпусу як спосіб підвищення його репрезентативності та збалансованості

"Українське мовознавство", випуск 43, 2013, С. 87-94

http://philology.knu.ua/library/zagal/Ukr_movoznavstvo_2013_43/87-94.pdf

 

3. Cheilytko, N., Starko, V., Galkin, A. The Ukrainian Brown Corpus and Dependency Tree Modeling

Досвід розробки та застосування приладо-технологічних САПР в мікроелектроніці: Матеріали XII Міжнародної науково-технічної конференції CADSM  2013. –  Львів:  Вид-во Нац.  ун-ту «Львівська політехніка», 2013. – C. 58- 60.

http://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=6543167

 

4. Старко В. Формування Браунського корпусу української мови

Мовні і концептуальні картини світу. - 2014. - Вип. 48. - С. 415-421.

http://philology.knu.ua/files/library/movni_i_konceptualni/48/40.pdf

 

Категорії текстів у БрУК

Загалом тексти поділяються на два види – інформативні (призначені поінформувати читача) і художні (описують вигаданих персонажів і події). Інформативний вид охоплює категорії А-H, художній – лише I.

А. Преса - 25% (репортажі, огляди, редакційні статті, листи до редакції; національні й регіональні видання; тематично - політика, спорт, суспільство, економіка й фінанси, короткі новини, культура - театр, література, музика, танці)

B. Релігійна література - 3% (книжки, періодика, брошури).

С. Професійно-популярна література - 7% (книжки й періодика; домоводство, ремесла, «сад і город», хобі, ремонт і будівництво, конструювання, музика й танці, домашні тварини, спорт, їжа й вино, подорожі, фермерство, робочі професії тощо).

D. «Естетичні інформативні» тексти - 7% (інформативні тексти, що не потрапляють в інші категорії, зокрема, біографії, мемуари, есеї, передмови, особисті листи, художня й мистецтвознавча критика, рекламні тексти)

E. Адміністративні документи - 3% (закони, урядові акти, звіти організацій/фондів/компаній, офіційні листи)

F. Науково-популярна література - 5% .

G. Наукова література - 10% (книжки й періодика; природничі й гуманітарні науки, техніка й інженерна справа).

H. Навчальна література - 15% (підручники, посібники тощо, гуманітарні й природничі науки та інше)

I. Художні тексти - 25% (романи, повісті, оповідання, новели, за тематикою  – загальна, детективи, фантастика, пригодницька, любовна, гумористична тощо)

 

Метаінформація в корпусі БрУК

<id></id>

<author_surname></author_surname>

<author_name></author_name>

<title></title>

<publ_in></publ_in>

<url></url>

<publ_part></publ_part>

<publ_place></publ_place>

<publisher></publisher>

<year></year>

<pages></pages>

<length></length>

<alt_orth></alt_orth>

<errors></errors>

<comments></comments>

 

 

Загальні вимоги до текстів БрУК

– оригінальні (неперекладні)

– зредаговані

– прозові (діалогів не більше ніж 50%)

– написані й вперше опубліковані в Україні в період 2010-2016 рр.

– обсяг кожного уривка 250-2000 слововживань

– помилки виносити в зону помилок

– тексти зберігати в кодуванні UTF-8

 

Вимоги до якості текстів

– без найменших ознак машинного чи людського перекладу

– грамотність - відсутність орфографічних, пунктуаційних, граматичних помилок тощо

– стиль - відсутність росіянізмів, активних дієприкметників, невдалих синтаксичних конструкцій тощо

– початковий етап оцінювання якості тексту – застосування засобу LanguageTool на https://r2u.org.ua/check

 

Екосистема

Інші українські НЛП проекти

ВЕСУМ - Великий електронний словник української мови

https://github.com/brown-uk/dict_uk

LanguageTool - вільний програмний засіб для перевірки граматики та стилю для української мови https://languagetool.org/uk/

Mova.info - лінгвістичний портал КНУ http://www.mova.info

Граматичний словник української літературної мови (словозміна) відділу структурно-математичної лінгвістики Інституту української мови НАНУ

http://www.mova.info/Page.aspx?l1=222