Класифікація музичних емоцій за допомогою гібридної CNN-LSTM моделі
DOI:
https://doi.org/10.15276/aait.06.2023.28Ключові слова:
глибоке навчання, класифікація емоцій, нейронна мережа, спектральний аналіз, згорткова нейронна мережаАнотація
Емоційний зміст музики, переплетений із тонкощами впливу на людину, створює унікальний виклик для систем комп’ютерного розпізнавання та класифікації. Оскільки оцифрування музичних бібліотек експоненціально розширюється, існує нагальна потреба в точних автоматизованих інструментах, здатних навігації та класифікації величезних музичних сховищ на основі емоційного контексту. Це дослідження покращує класифікацію музичних емоцій у сфері пошуку музичної інформації шляхом розробки моделі глибокого навчання, яка точно передбачає емоційні категорії в музиці. Метою цього дослідження є розвиток класифікації музичних емоцій шляхом використання можливостей згорткових нейронних мереж у поєднанні з довготривалою короткочасною пам’яттю в рамках глибокого навчання. Внесок цього дослідження полягає в тому, щоб забезпечити вдосконалений підхід до класифікації музичних емоцій, поєднуючи потужність згорткових нейронних мереж і архітектур довготривалої короткочасної пам’яті зі складною попередньою обробкою набору даних Emotify для глибшого та точнішого аналізу музичних емоцій. Дослідження представляє нову архітектуру, що поєднує згорткові нейронні мережі та мережі довготривалої короткочасної пам’яті, призначені для вловлювання складних емоційних нюансів у музиці. Модель використовує згорткові нейронні мережі для надійного виявлення функцій і мережі довготривалої короткочасної пам’яті для ефективного навчання послідовності, звертаючись до часової динаміки музичних особливостей. Використовуючи набір даних Emotify, що включає доріжки з дев’ятьма емоційними характеристиками, дослідження розширює набір даних, сегментуючи кожну доріжку на 20 частин, таким чином збагачуючи різноманітність емоційних проявів. Для протидії дисбалансу набору даних, забезпечуючи рівномірне представлення різних емоцій, було застосовано такі методи, як техніка передискретизації синтетичної меншості. Спектральні характеристики зразків аналізували за допомогою швидкого перетворення Фур’є, що сприяло більш повному розумінню даних. Завдяки ретельному тонкому налаштуванню, включаючи реалізацію відсіву для запобігання надмірному оснащенню та коригування швидкості навчання, розроблена модель досягла помітної точності 94,7 %. Цей високий рівень точності підкреслює потенціал моделі для застосування в цифрових музичних службах, системах рекомендацій і музичній терапії. Майбутні вдосконалення цієї системи класифікації музичних емоцій включають розширення набору даних і вдосконалення архітектури моделі для ще більш тонкого емоційного аналізу