VacancySBERT - підхід до представлення назв посад та навичок для семантичного пошуку в домені підбору персоналу

Автор(и)

  • Бочарова Майя Юріївна Одеський національний університет імені І. І. Мечникова, вул. Дворянська, 2. Одеса, 65082, Україна https://orcid.org/0009-0004-3875-5019
  • Малахов Євгеній Валерійович Одеський національний університет імені І. І. Мечникова, вул. Дворянська, 2. Одеса, 65082, Україна https://orcid.org/0000-0002-9314-6062
  • Межуєв Віталій Іванович Университет прикладних наук FH JOANNEUM. Капфенберг, Австрія https://orcid.org/0000-0002-9335-6131

DOI:

https://doi.org/10.15276/aait.06.2023.4

Ключові слова:

обробка природної мови, векторне представлення документів, семантичний пошук, машинне навчання, векторне представлення речень, глибокі нейронні мережі, інтелектуальна обробка даних

Анотація

Стаття присвячена алгоритмам семантичного пошуку з глибоким навчанням, що застосовуються у сфері управління персоналом. Метою дослідження є вдосконалення та розширення різноманітних підходів до нормалізації назв, написаних у вільній формі, для зіставлення із заздалегідь визначеною стандартною таксономією. Завдання дослідження - запропонувати нову навчальну задачу для великої мовної моделі та навчити її відображати назви посад у вільній формі та навички, які пов'язані із назвою посади, у векторний простір таким чином, щоб назви посад, які мають спільне значення, знаходилися близько один до одного. Процес нормалізації назв посад може ґрунтуватися або на класифікації, або на порівнянні схожості. У той час як алгоритми класифікації намагаються віднести вибірку до заздалегідь визначеного набору категорій, алгоритми пошуку подібності застосовують більш гнучкий підхід, оскільки вони призначені для пошуку зразків, схожих на задану вибірку запиту, не вимагаючи заздалегідь визначених класів і міток. Враховуючи це, для пошуку кандидатів на нормалізацію назв посад ми будемо використовувати пошук за семантичною схожістю. Попередньо навчена мовна модель адаптується під час навчання для зіставлення назв посад і навичок на основі інформації про спільні входження. Для цього дослідження було зібрано близько 50 мільйонів пар "назва посади-опис" для навчання моделі та 33 тисячі триплетів "назва посадиопис-нормалізована назва посади" для тестування, де нормалізована назва посади була підібрана вручну укладачем оголошення про роботу. В якості базових моделей використано FastText, BERT, SentenceBert та JobBert. Як метрику точності розробленого алгоритму використано показник Recall у 3, 5 та 10 найкращих пропозиціях моделі. Показано, що нова мета навчання дозволяє досягти значного покращення порівняно з іншими загальними та специфічними кодувальниками тексту. Результати проаналізовано та використано для формулювання висновків та пропозицій щодо подальшої роботи. Датасет, який використовувався для тестування моделей оприлюднено задля сприяння подальшим дослідженням у цій галузі.

Завантаження

Дані завантаження ще не доступні.

Біографії авторів

Бочарова Майя Юріївна, Одеський національний університет імені І. І. Мечникова, вул. Дворянська, 2. Одеса, 65082, Україна

аспірант, кафедра Математичного забезпечення компʼютерних систем

 

Малахов Євгеній Валерійович, Одеський національний університет імені І. І. Мечникова, вул. Дворянська, 2. Одеса, 65082, Україна

доктор технічних наук, професор, завідувач кафедри Математичного забезпечення
компʼютерних систем

Scopus Author ID: 56905389000

 

Межуєв Віталій Іванович, Университет прикладних наук FH JOANNEUM. Капфенберг, Австрія

доктор технічних наук, професор Інституту промислового менеджменту

Scopus ID: 24468383200

 

Опубліковано

2023-04-10

Як цитувати

[1]
Bocharova M.Y.., Malakhov E.V., Mezhuyev V.I.. “VacancySBERT: the approach for representation of titles and skills for semantic similarity search in the recruitment domain”. Applied Aspects of Information Technology. 2023; Vol. 6, No. 1: 52–59. DOI:https://doi.org/10.15276/aait.06.2023.4.