Сторінка 1 з 1

Підтримка української в Lucene

Додано: Вів червня 21, 2016 4:00 pm
Andriy
Підтримку української додано в Apache Lucene!
https://git-wip-us.apache.org/repos/asf ... ;h=4a71e03
https://git-wip-us.apache.org/repos/asf ... ;h=6ef174f

Наразі маємо аналізатор, що базується на словнику (dict_uk), є ідеї реалізувати «динамічний» аналізатор, що не потребує словника, або який працює, як додатковий, що активується лише для слів, відсутніх у словнику

P.S. список ПЗ і вебсторінок, що використовують Lucene

Re: Підтримка української в Lucene

Додано: Вів квітня 04, 2017 4:21 pm
Andriy
Український модуль повнотекстового пошуку в Lucene (і відповідно ElasticSearch) протестовано і прийнято для впровадження в Українську Вікіпедію. Раніше використовувався (дещо модифікований) російський (з відповідною якістю пошуку). Незабаром відбудеться реіндексація.
А ми вже готуємо нову версію аналізатора з розширеним словником (277 тис. лем) та покращеною лематизацією власних назв.