Розробка інфраструктури виявлення аномалій у наборах великих даних
DOI:
https://doi.org/10.15276/aait.05.2022.23Ключові слова:
великі дані, виявлення аномалій, хмарні обчислення, обробка даних, споживання данихАнотація
У роботі представлено аналіз моделей, методів і технологій виявлення аномалій у даних. Зроблено висновок, що на
основі проведеного аналізу рішення проблеми виявлення аномалій у даних слід розглядати як комплексну технологію, яка
складається з формування та застосування математичних моделей у поєднанні з дослідженням підходів до обробки даних. У
статті проаналізовано сучасний стан технологій обробки потоків великих даних та відображено особливості найбільш
поширених і прогресивних з них, напр. Apache Hadoop, Apache Spark, Apache Cassandra, Apache Kafka, Apache Storm і
Apache Beam. Окрім цього, увага приділяється інфраструктурі, у якій створені моделі програмного забезпечення можуть
бути розгорнуті та використані, беручи до уваги високий характер даних у режимі реального часу. У статті запропоновано
сформувати інфраструктуру для виявлення аномалій у даних як прикладний приклад хмарної інфраструктури обробки
великих даних. У роботі продемонстровано розроблену модель інфраструктури для виявлення аномалій у потокових даних
реального часу, яка базується на експертному методі формування вимог до програмної складової, вибору алгоритму
виявлення аномалій, вибору інструментів та удосконалення алгоритму. Виділені інструменти виявлення аномалій
дозволяють створити безпечне рішення для виявлення аномалій у реальному часі за допомогою Dataflow, BigQuery ML і
Cloud DLP. У статті представлено прикладну реалізацію виявлення аномалій у режимі реального часу за допомогою GCP та
Apache Beam – аналіз потоку даних програмних журналів в інформаційній системі та виявлення серед них шахрайських, що
допоможе підвищити кібербезпеку системи. Робота демонструє можливі вдосконалення базової моделі, які можуть
допомогти її прискорити.