Методи машинного навчання для класифікації мультимодальних даних
DOI:
https://doi.org/10.15276/aait.05.2022.11Ключові слова:
метод, алгоритм, аналіз, машинне навчання, мультимодальні дані, класифікація, K-найближчий сусідАнотація
У цій роботі запропоновані методи аналізу мультимодальних методів даних, які сприябть підвищенню загальної точності
результатів, а також методи класифікації K-найближчого сусіда (KNN) для мінімізації їх ризику. Розглядається механізм
підвищення точності класифікації KNN. Методами дослідження, які використовуються в даній роботі, є порівняння, аналіз,
індукція, експеримент. Ця робота була спрямована на підвищення точності класифікації KNN шляхом порівняння вже існуючих
алгоритмів та застосування нових методів. Було проаналізовано багато літературних та медійних джерел на тему класифікації за
алгоритмом k найближчих сусідів та обрано найцікавіші, варіації поданого алгоритму. Акцент буде зроблено на досягненні
максимальної точності класифікації шляхом порівняння існуючих і їх удосконалення існуючих методів вибору числа k і
знаходження найближчого класу. Також порівнюються алгоритми з аналізом і попередньою обробкою даних і без них. Усі
стратегії, які розгляндаються в цій статті, будуть досягнуті суто практичним шляхом. Проведено експериментальну класифікацію
за k найближчими сусідами з різними варіаціями. Даними для експерименту використовувались два різних набори даних різного
розміру. В якості аргументів класифікації були взяті різні класифікації k і розмір тестової вибірки. В роботі вивчаються три
варіанти алгоритму k найближчих сусідів: класичний KNN, KNN з найменшим середнім і гібридний KNN. Здійснюється
порівняння цих алгоритмів для різних розмірів тестової вибірки для інших чисел k. У статті аналізуються дані перед
класифікацією. Що стосується підбору числа k, то не існує простого методу, який би дав максимальний результат з великою
точністю. Суть алгоритму полягає в тому, щоб знайти k найближчих до вибірки об'єктів, які вже класифіковані за попередньо
заданими та пронумерованими класами. Потім серед цих k об’єктів потрібно порахувати, скільки разів зустрічається клас, і
призначити обраному об’єкту найпоширеніший клас.