Підтримка української в Lucene

Обговорення локалізацій програм, та ПЗ пов’язаних з мовною тематикою

Модератор: Анатолій

Відповісти
Andriy
Адміністратор сайту
Повідомлень: 3128
З нами з: Сер травня 27, 2009 8:23 pm

Підтримка української в Lucene

Повідомлення Andriy » Вів червня 21, 2016 4:00 pm

Підтримку української додано в Apache Lucene!
https://git-wip-us.apache.org/repos/asf ... ;h=4a71e03
https://git-wip-us.apache.org/repos/asf ... ;h=6ef174f

Наразі маємо аналізатор, що базується на словнику (dict_uk), є ідеї реалізувати «динамічний» аналізатор, що не потребує словника, або який працює, як додатковий, що активується лише для слів, відсутніх у словнику

P.S. список ПЗ і вебсторінок, що використовують Lucene

Andriy
Адміністратор сайту
Повідомлень: 3128
З нами з: Сер травня 27, 2009 8:23 pm

Re: Підтримка української в Lucene

Повідомлення Andriy » Вів квітня 04, 2017 4:21 pm

Український модуль повнотекстового пошуку в Lucene (і відповідно ElasticSearch) протестовано і прийнято для впровадження в Українську Вікіпедію. Раніше використовувався (дещо модифікований) російський (з відповідною якістю пошуку). Незабаром відбудеться реіндексація.
А ми вже готуємо нову версію аналізатора з розширеним словником (277 тис. лем) та покращеною лематизацією власних назв.

Відповісти

Повернутись до “Локалізація та програмні засоби”