Методи препроцесінгу та токенізації даних для технічних українських текстів
DOI:
https://doi.org/10.15276/aait.06.2023.22Ключові слова:
обробка природної мови, попередня обробка даних, токенізація, технічні українські тексти, визначення мови, лематизація, технічні словникиАнотація
За останні роки галузь обробки природної мови (Natural Language Processing, NLP) пережила значні досягнення завдяки машинному та глибинному навчанню і штучному інтелекту, що розширило її застосування та покращило взаємодію між людиною та комп'ютером. Однак системи обробки природної мови стикаються з проблемами, пов'язаними з неповними та помилковими даними, що може призводити до побудови моделей з помилковими результатами. Спеціалізовані технічні області ставлять додаткові вимоги, вимагаючи налаштування моделей під конкретну галузь та використання власних специфічних термінів. Більше того, багато природніх мов не мають повноцінної підтримки в NLP. У цьому контексті ми досліджуємо нові методи попередньої обробки даних та токенізації, призначені для технічних українських текстів. Ми працюємо з набором даних, що містить назви операцій з галузі автомобільного ремонту, специфікою яких є наявність багатьох помилок та присутність специфічних термінів, часто у комбінації української та російської мов. Нашою метою є точна класифікація цих сутностей, що на першому етапі передбачає комплексну очистку даних, попередню обробку та токенізацію. Наш підхід модифікує класичну попередню обробку NLP, включаючи виявлення мови, розпізнавання конкретних кириличних символів, розклад складних слів на прості частини та обробку абревіатур. Нормалізація частин окремого речення стандартизує символи, видаляє розділові знаки та розшифровує абревіатури. Переклад з російської на українську мову здійснюється шляхом використання детальних довідників та автоматично створених словників відповідностей. Під час токенізації вирішуються питання злитих токенів, орфографічних помилок, спільних префіксів у складних словах та абревіатурах. Лематизація, особливо важлива для мов, які використовують відмінки, використовує великі наукові словники, які перетворюють словоформи у леми, з акцентом на називному відмінку іменників. В результаті створюється повний словник токенів, який може використовуватись у різних завданнях у сфері обробки природної мови. Повнота словника та унікальність окремих токенів підвищує точність та надійність їхнього застосування, особливо в технічних українських текстах. Це дослідження поглиблює існуючі методи і моделі попередньої обробки та токенізації даних в рамках NLP та надає конкретні інструменти для роботи з текстами із специфічних галузей