Підтримка української в Lucene

Обговорення локалізацій програм, та ПЗ пов’язаних з мовною тематикою

Модератор: Анатолій

Відповісти
Andriy
Адміністратор сайту
Повідомлень: 3777
З нами з: Сер травня 27, 2009 8:23 pm

Підтримка української в Lucene

Повідомлення Andriy »

Підтримку української додано в Apache Lucene!
https://git-wip-us.apache.org/repos/asf ... ;h=4a71e03
https://git-wip-us.apache.org/repos/asf ... ;h=6ef174f

Наразі маємо аналізатор, що базується на словнику (dict_uk), є ідеї реалізувати «динамічний» аналізатор, що не потребує словника, або який працює, як додатковий, що активується лише для слів, відсутніх у словнику

P.S. список ПЗ і вебсторінок, що використовують Lucene
Andriy
Адміністратор сайту
Повідомлень: 3777
З нами з: Сер травня 27, 2009 8:23 pm

Re: Підтримка української в Lucene

Повідомлення Andriy »

Український модуль повнотекстового пошуку в Lucene (і відповідно ElasticSearch) протестовано і прийнято для впровадження в Українську Вікіпедію. Раніше використовувався (дещо модифікований) російський (з відповідною якістю пошуку). Незабаром відбудеться реіндексація.
А ми вже готуємо нову версію аналізатора з розширеним словником (277 тис. лем) та покращеною лематизацією власних назв.
Відповісти

Повернутись до “Локалізація та програмні засоби”