ResJobFit – наскрізна технологія на основі штучних нейронних мереж для підбору вакансій та резюме
DOI:
https://doi.org/10.15276/aait.07.2024.27Ключові слова:
інформаційні системи, машинне навчання, обробка природної мови, трансформери, текстові вкладення, інформаційний пошукАнотація
Зі зростанням популярності онлайн-рекрутингу все більшого значення набуває якісний підбір кандидатів на вакансії. Через різний досвід, вимоги до освіти та спеціалізації, а також вимоги щодо місцезнаходження, зазначені в оголошенні про вакансію, для якісного зіставлення та ранжування кандидатів необхідно враховувати різні аспекти. Було показано, що до зіставлення резюме та вакансій можна підходити як до проблеми класифікації пар, а також як до пошуку семантичної схожості на основі представлень даних. У той час як класифікаційні підходи обробляють кожну пару вакансія-резюме послідовно, що призводить до квадратичної часової складності, незалежні текстові представлення та ранжування є набагато ефективнішим та масштабованим рішенням, оскільки мають лінійну часову складність. У цій статті використано ранжування за семантичною схожістю для оцінювання кандидатів на відповідність вакансіям. Запропоновано ResJobFit - наскрізну технологію на основі штучних нейронних мереж для зіставлення вакансій та резюме. Технологія ResJobFit складається з моделей сегментації, парсингу, сумаризації та модулю представлення текстів в домені управління персоналом, а також їхніх результатів (вектор та атрибути, що визначають кожне резюме або оголошення про роботу) і векторної бази даних, в якій зберігаються записи. Впроваджено некероване навчання текстових представлень для HR-домену, що інкапсулює дві нові навчальні задачі - внутрішньо- та міжсекційне контрастне вирівнювання. Попередньо навчену BERTмодель адаптовано шляхом навчання її узгоджувати розділи резюме, що містять резюме (summary) частину з останнім місцем роботи, а також частини тієї ж самої вакансії або розділу про роботу. В якості базових моделей були використані TFIDF, BERT, E5 та GTE. Запропоновану стратегію навчання без нагляду порівнювали з підходами SimCSE, DeCLUTR та ConFit. Як метрики для вимірювання точності розробленого алгоритму використано NDCG, MAP та MRR. Показано, що нова мета навчання дозволяє досягти значного покращення порівняно з іншими підходами до навчання без нагляду. Покращення на 11% в NDCG було досягнуто завдяки адаптації стратегії навчання DeCLUTR для HR-домену на основі використання структури резюме порівняно з класичною стратегією навчання DeCLUTR в задачі ранжування згенерованими великою мовною моделлю резюме (summary) вакансій та резюме. 2 % та 6 % покращення було досягнуто в задачі ранжування повнтекстових вакансій та резюме завдяки використанню ResJobFit технології та ResJobFit з узгодженням вимог у порівнянні з найсучаснішою моделлю ConFit.