Корпусна група БрУК
Завдання
На принципах Браунського корпусу створити анотований корпус сучасної української мови (БрУК) обсягом 1 млн слововживань
Репозитарій
Склад:
Василь Старко
Андрій Рисін
Ольга Гавура
Наталія Олішкевич
На різних етапах до роботи також долучалися:
Наталія Чейлитко
Мар’яна Романишин
Настасія Осідач
Катерина Альошкіна
Катерина Бобровник
Христина Кулак
Оксана Кунікевич
Тетяна Матвєєва
Ірина Возна
Ян Бутельський
Зв’язок
Публікації
1. Старко В., Чейлитко Н. Концепція створення Браунського корпусу української мови
«Комп’ютерна лінгвістика: сучасне та майбутнє». Матеріали Міжнародної науково-практичної конференції. – К.: КНЛУ, 2012. – С. 45-46.
http://www.mova.info/zbirnyk.pdf
2. Старко В., Чейлитко Н. Параметризація корпусу як спосіб підвищення його репрезентативності та збалансованості
"Українське мовознавство", випуск 43, 2013, С. 87-94
http://philology.knu.ua/library/zagal/Ukr_movoznavstvo_2013_43/87-94.pdf
3. Cheilytko, N., Starko, V., Galkin, A. The Ukrainian Brown Corpus and Dependency Tree Modeling
Досвід розробки та застосування приладо-технологічних САПР в мікроелектроніці: Матеріали XII Міжнародної науково-технічної конференції CADSM 2013. – Львів: Вид-во Нац. ун-ту «Львівська політехніка», 2013. – C. 58- 60.
http://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=6543167
4. Старко В. Формування Браунського корпусу української мови
Мовні і концептуальні картини світу. - 2014. - Вип. 48. - С. 415-421.
http://philology.knu.ua/files/library/movni_i_konceptualni/48/40.pdf
Категорії текстів у БрУК
Загалом тексти поділяються на два види – інформативні (призначені поінформувати читача) і художні (описують вигаданих персонажів і події). Інформативний вид охоплює категорії А-H, художній – лише I.
А. Преса - 25% (репортажі, огляди, редакційні статті, листи до редакції; національні й регіональні видання; тематично - політика, спорт, суспільство, економіка й фінанси, короткі новини, культура - театр, література, музика, танці)
B. Релігійна література - 3% (книжки, періодика, брошури).
С. Професійно-популярна література - 7% (книжки й періодика; домоводство, ремесла, «сад і город», хобі, ремонт і будівництво, конструювання, музика й танці, домашні тварини, спорт, їжа й вино, подорожі, фермерство, робочі професії тощо).
D. «Естетичні інформативні» тексти - 7% (інформативні тексти, що не потрапляють в інші категорії, зокрема, біографії, мемуари, есеї, передмови, особисті листи, художня й мистецтвознавча критика, рекламні тексти)
E. Адміністративні документи - 3% (закони, урядові акти, звіти організацій/фондів/компаній, офіційні листи)
F. Науково-популярна література - 5% .
G. Наукова література - 10% (книжки й періодика; природничі й гуманітарні науки, техніка й інженерна справа).
H. Навчальна література - 15% (підручники, посібники тощо, гуманітарні й природничі науки та інше)
I. Художні тексти - 25% (романи, повісті, оповідання, новели, за тематикою – загальна, детективи, фантастика, пригодницька, любовна, гумористична тощо)
Метаінформація в корпусі БрУК
<id></id>
<author_surname></author_surname>
<author_name></author_name>
<title></title>
<publ_in></publ_in>
<url></url>
<publ_part></publ_part>
<publ_place></publ_place>
<publisher></publisher>
<year></year>
<pages></pages>
<length></length>
<alt_orth></alt_orth>
<errors></errors>
<comments></comments>
Загальні вимоги до текстів БрУК
– оригінальні (неперекладні)
– зредаговані
– прозові (діалогів не більше ніж 50%)
– написані й вперше опубліковані в Україні в період 2010-2016 рр.
– обсяг кожного уривка 250-2000 слововживань
– помилки виносити в зону помилок
– тексти зберігати в кодуванні UTF-8
Вимоги до якості текстів
– без найменших ознак машинного чи людського перекладу
– грамотність - відсутність орфографічних, пунктуаційних, граматичних помилок тощо
– стиль - відсутність росіянізмів, активних дієприкметників, невдалих синтаксичних конструкцій тощо
– початковий етап оцінювання якості тексту – застосування засобу LanguageTool на https://r2u.org.ua/check
Екосистема
Інші українські НЛП проекти
ВЕСУМ - Великий електронний словник української мови
https://github.com/brown-uk/dict_uk
LanguageTool - вільний програмний засіб для перевірки граматики та стилю для української мови https://languagetool.org/uk/
Mova.info - лінгвістичний портал КНУ http://www.mova.info
Граматичний словник української літературної мови (словозміна) відділу структурно-математичної лінгвістики Інституту української мови НАНУ