Методи нормалізації даних для покращення якості класифікації у системі діагностики онкології молочної залози

Автор(и)

  • Марина Вячеславівна Полякова Одеський національний політехнічний університет, просп. Шевченка, 1,Одеса, Україна, 65044 https://orcid.org/0000-0001-7229-7657
  • Віктор Миколайович Крилов Одеський національний політехнічний університет, просп. Шевченка, 1,Одеса, Україна, 65044 https://orcid.org/0000-0003-1950-4690

DOI:

https://doi.org/10.15276/aait.05.2022.5

Ключові слова:

нормалізація даних, аналіз головних компонент, наївний баєсівський класифікатор, метод k-найближчих сусідів, ансамблі дерев рішень, каскадний ліс, глибокий ліс

Анотація

У системах діагностування онкології отримані в результаті біопсії молочної залози зображення клітин часто ідентифікують статистичними і геометричними ознаками. Для класифікації значень цих ознак, представлених, зокрема, в тестовій
базі Wisconsin Diagnostic Breast Cancer, в літературі використовувалися наївний байєсівський класифікатор, метод kнайближчих сусідів, нейронні мережі і ансамблі дерев рішень. Помічено, що результати класифікації, отримані із застосуванням цих методів, в основному, відрізняються в межах статистичної похибки. На форму кластерів та наявність викидів
даних суттєво впливає підготовка даних, зокрема метод нормалізації значень їх ознак. Під нормалізацією розуміється приведення значень ознак до певного інтервалу. Різниця в інтервалах значень ознак може призвести до неявного зважування
ознак під час класифікації об’єктів. Після виділення ознак та їх нормалізації множина даних, що належать одному класу,
може бути розбитою на декілька кластерів у результаті спотворення ознакового простору. Для виділення таких даних в один
клас відстань між ними має бути більшою за внутрішній розкид даних у кожному з кластерів. Тому крім нормалізації підготовка даних може включати декореляцію та ортогоналізацію ознак, наприклад, за допомогою аналізу головних компонентів,
який обирає проекції ознак з кращим розподілом класів. Отже для підвищення якості класифікації в роботі використовувалися методи нормалізації даних і метод аналізу даних за допомогою головних компонент. Показано, що доцільно використовувати стандартне, робастне або мінімаксне нормування векторів ознак клітин, якщо обраний класифікатор k-найближчих
сусідів або наївний байєсівський класифікатор. Якщо класифікація векторів ознак клітин на зображеннях біопсії молочної
залози проводилася за допомогою ансамблю дерев рішень, застосування нормалізації не дало підвищення якості класифікації. Скорочення розмірності простору ознак шляхом аналізу головних компонент доцільно проводити тільки для методу kнайближчих сусідів. При використанні наївного байєсівського класифікатора і ансамблів дерев рішень перехід до головних
компонентів знижує якість класифікації. Використовуючи результати проведеного експерименту, дослідник може вибрати
методи підготовки даних для конкретного завдання.

Завантаження

Дані завантаження ще не доступні.

Біографії авторів

Марина Вячеславівна Полякова, Одеський національний політехнічний університет, просп. Шевченка, 1,Одеса, Україна, 65044

доктор технічних наук, доцент, професор кафедри Прикладної математики і інформаційних технологій, Одеський національний політехнічний університет, пр. Шевченка, 1.
Одеса, 65044, Україна

Scopus Author ID: 57017879200

 

Віктор Миколайович Крилов, Одеський національний політехнічний університет, просп. Шевченка, 1,Одеса, Україна, 65044

доктор технічних наук, професор, професор кафедри Прикладної математики і інформаційних технологій, Одеський національний політехнічний університет, пр. Шевченка, 1.
Одеса, 65044, Україна

Scopus Author ID: 16202975800

 

Опубліковано

2021-03-17

Як цитувати

[1]
Polyakova M.V.., Krylov V.N. “Data normalization methods to improve the quality of classification in the breast cancer diagnostic system”. Applied Aspects of Information Technology. 2021; Vol. 5, No. 1: 55-63. DOI:https://doi.org/10.15276/aait.05.2022.5.

Статті цього автора (авторів), які найбільше читають