VacancySBERT - підхід до представлення назв посад та навичок для семантичного пошуку в домені підбору персоналу
DOI:
https://doi.org/10.15276/aait.06.2023.4Ключові слова:
обробка природної мови, векторне представлення документів, семантичний пошук, машинне навчання, векторне представлення речень, глибокі нейронні мережі, інтелектуальна обробка данихАнотація
Стаття присвячена алгоритмам семантичного пошуку з глибоким навчанням, що застосовуються у сфері управління персоналом. Метою дослідження є вдосконалення та розширення різноманітних підходів до нормалізації назв, написаних у вільній формі, для зіставлення із заздалегідь визначеною стандартною таксономією. Завдання дослідження - запропонувати нову навчальну задачу для великої мовної моделі та навчити її відображати назви посад у вільній формі та навички, які пов'язані із назвою посади, у векторний простір таким чином, щоб назви посад, які мають спільне значення, знаходилися близько один до одного. Процес нормалізації назв посад може ґрунтуватися або на класифікації, або на порівнянні схожості. У той час як алгоритми класифікації намагаються віднести вибірку до заздалегідь визначеного набору категорій, алгоритми пошуку подібності застосовують більш гнучкий підхід, оскільки вони призначені для пошуку зразків, схожих на задану вибірку запиту, не вимагаючи заздалегідь визначених класів і міток. Враховуючи це, для пошуку кандидатів на нормалізацію назв посад ми будемо використовувати пошук за семантичною схожістю. Попередньо навчена мовна модель адаптується під час навчання для зіставлення назв посад і навичок на основі інформації про спільні входження. Для цього дослідження було зібрано близько 50 мільйонів пар "назва посади-опис" для навчання моделі та 33 тисячі триплетів "назва посадиопис-нормалізована назва посади" для тестування, де нормалізована назва посади була підібрана вручну укладачем оголошення про роботу. В якості базових моделей використано FastText, BERT, SentenceBert та JobBert. Як метрику точності розробленого алгоритму використано показник Recall у 3, 5 та 10 найкращих пропозиціях моделі. Показано, що нова мета навчання дозволяє досягти значного покращення порівняно з іншими загальними та специфічними кодувальниками тексту. Результати проаналізовано та використано для формулювання висновків та пропозицій щодо подальшої роботи. Датасет, який використовувався для тестування моделей оприлюднено задля сприяння подальшим дослідженням у цій галузі.