Класифікація політичної забарвленості тексту трьома мовами з використанням методів опрацювання природної мови
DOI:
https://doi.org/10.15276/aait.05.2022.24Ключові слова:
Класифікація тексту, політична забарвленість, алгоритми машинного навчання, нейронні мережі, ансамблі моделей, обробка природної мовиАнотація
У цій статті здійснюється розв’язання задачі класифікації політичної забарвленості текстового ресурсу. Спочатку виконано детальний аналіз десяти досліджень за темою роботи у вигляді порівняльної характеристики інструментарію. Літературні джерела порівнювались за методами розв’язання задач, здійсненим навчанням, метриками оцінки та способами векторизації. Таким чином визначено, що для розв’язання задачі найчастіше використовувались алгоритми машинного навчання та нейронні мережі, а також способи представлення ознак TF-IDF та Word2Vec. Далі було побудовано різноманітні моделі класифікації того, чи текстова інформація є проукраїнською, чи проросійською на основі набору даних, що містив повідомлення користувачів соціальних мереж про події широкомасштабного російського вторгнення в Україну з 24 лютого 2022
року. Розв’язання задачі здійснювалось за допомогою алгоритмів машинного навчання Support Vector Machines, Decision
Tree, Random Forest, Naïve Bayes classifier, eXtreme Gradient Boosting та Logistic Regression, нейронних мереж Convolutional
Neural Networks, Long short-term memory та BERT, технік роботи з незбалансованими даними Random Oversampling, Random
Undersampling, SMOTE та SMOTETomek, а також ансамблів моделей stacking. З алгоритмів машинного навчання найкраще
впорався LR, який продемонстрував значення макро F1-міри рівне 0.7966, коли ознаки були перетворені векторизацією TFIDF, а коли BoW – 0.7933. З нейронних мереж найкраще значення макро F1-міри рівне 0.76 отримано за допомогою CNN та
LSTM. Застосуванням технік балансування даних не вдалося покращити результати алгоритмів машинного навчання. Далі
були визначені ансамблі моделей, які складались з алгоритмів машинного навчання. Двома з побудованих ансамблів було
досягнуто те ж значення макро F1-міри 0.7966, що і за допомогою LR. Ансамблі, яким вдалося це зробити, складались з
векторизації TF-IDF, метамоделі B-NBC та базових моделей SVC, NuSVC LR і SVC, LR відповідно. Таким чином три класифікатори, алгоритм машинного навчання LR та два ансамблі моделей, які були визначені шляхом здійснення комбінації
наявних способів розв’язання задачі класифікації політичної забарвленості текстового ресурсу, продемонстрували найбільше значення макро F1-міри 0.7966. Отримані моделі можуть бути використані для детального огляду різних новинних видань за характеристикою політичної забарвленості, інформація про що може допомогти ідентифікувати перебування в інформаційній бульбашці.