Класифікація політичної забарвленості тексту трьома мовами з використанням методів опрацювання природної мови

Автор(и)

  • Косів Юрій Андрійович Національний університет «Львівська політехніка», вул. С. Бандери, 12. Львів, 79013,Україна https://orcid.org/0000-0001-7412-2025
  • Яковина Віталій Степанович Національний університет «Львівська політехніка», вул. С. Бандери, 12. Львів, 79013,Україна https://orcid.org/0000-0002-9346-145X

DOI:

https://doi.org/10.15276/aait.05.2022.24

Ключові слова:

Класифікація тексту, політична забарвленість, алгоритми машинного навчання, нейронні мережі, ансамблі моделей, обробка природної мови

Анотація

У цій статті здійснюється розв’язання задачі класифікації політичної забарвленості текстового ресурсу. Спочатку виконано детальний аналіз десяти досліджень за темою роботи у вигляді порівняльної характеристики інструментарію. Літературні джерела порівнювались за методами розв’язання задач, здійсненим навчанням, метриками оцінки та способами векторизації. Таким чином визначено, що для розв’язання задачі найчастіше використовувались алгоритми машинного навчання та нейронні мережі, а також способи представлення ознак TF-IDF та Word2Vec. Далі було побудовано різноманітні моделі класифікації того, чи текстова інформація є проукраїнською, чи проросійською на основі набору даних, що містив повідомлення користувачів соціальних мереж про події широкомасштабного російського вторгнення в Україну з 24 лютого 2022
року. Розв’язання задачі здійснювалось за допомогою алгоритмів машинного навчання Support Vector Machines, Decision
Tree, Random Forest, Naïve Bayes classifier, eXtreme Gradient Boosting та Logistic Regression, нейронних мереж Convolutional
Neural Networks, Long short-term memory та BERT, технік роботи з незбалансованими даними Random Oversampling, Random
Undersampling, SMOTE та SMOTETomek, а також ансамблів моделей stacking. З алгоритмів машинного навчання найкраще
впорався LR, який продемонстрував значення макро F1-міри рівне 0.7966, коли ознаки були перетворені векторизацією TFIDF, а коли BoW – 0.7933. З нейронних мереж найкраще значення макро F1-міри рівне 0.76 отримано за допомогою CNN та
LSTM. Застосуванням технік балансування даних не вдалося покращити результати алгоритмів машинного навчання. Далі
були визначені ансамблі моделей, які складались з алгоритмів машинного навчання. Двома з побудованих ансамблів було
досягнуто те ж значення макро F1-міри 0.7966, що і за допомогою LR. Ансамблі, яким вдалося це зробити, складались з
векторизації TF-IDF, метамоделі B-NBC та базових моделей SVC, NuSVC LR і SVC, LR відповідно. Таким чином три класифікатори, алгоритм машинного навчання LR та два ансамблі моделей, які були визначені шляхом здійснення комбінації
наявних способів розв’язання задачі класифікації політичної забарвленості текстового ресурсу, продемонстрували найбільше значення макро F1-міри 0.7966. Отримані моделі можуть бути використані для детального огляду різних новинних видань за характеристикою політичної забарвленості, інформація про що може допомогти ідентифікувати перебування в інформаційній бульбашці.

Завантаження

Дані завантаження ще не доступні.

Біографії авторів

Косів Юрій Андрійович, Національний університет «Львівська політехніка», вул. С. Бандери, 12. Львів, 79013,Україна

студент кафедри Cистем штучного інтелекту. Національний університет «Львівська
політехніка», вул. С. Бандери, 12. Львів, 79013,Україна

Яковина Віталій Степанович, Національний університет «Львівська політехніка», вул. С. Бандери, 12. Львів, 79013,Україна

доктор технічних наук, професор, професор кафедри Cистем штучного інтелекту.
Національний університет «Львівська політехніка», вул. С. Бандери, 12. Львів, 79013,Україна

Scopus Author ID: 8393582500

Опубліковано

2022-12-24

Як цитувати

[1]
Kosiv Y.A., Yakovyna V.S.. “Three language political leaning text classification using natural language processing methods”. Applied Aspects of Information Technology. 2022; Vol. 5, No. 4: 359–370. DOI:https://doi.org/10.15276/aait.05.2022.24.

Статті цього автора (авторів), які найбільше читають

Схожі статті

Ви також можете розпочати розширений пошук схожих статей для цієї статті.