Ефективне детектування і заміна облич при створенні простого фейкового відео
DOI:
https://doi.org/10.15276/aait.06.2023.20Ключові слова:
діпфейк, афінна трансформація, виявлення обличчя, відео обробка, альфа-канал, бінарні маскиАнотація
Технології виявлення та розпізнавання обличь є одними з найбільш інтенсивно досліджуваних тем у галузі комп’ютерного зору завдяки їх величезному потенціалу застосування в багатьох галузях. Ці технології продемонстрували практичне застосування в різних контекстах, таких як виявлення підозрілих осіб у багатолюдних міських просторах, розпізнавання власників смартфонів у реальному часі, створення переконливих діпфейків для розважальних додатків і спеціалізованих програм, які змінюють рухи рис обличчя, наприклад губ або очей. Завдяки сучасним досягненням апаратного та програмного забезпечення, сучасна технологічна інфраструктура надає більше ресурсів, ніж необхідно для потокового відео. У результаті прості системи розпізнавання обличь можуть бути реалізовані без використання дорогих серверів, які вимагають певних попередньо навчених моделей. Така велика кількість ресурсів змінює ландшафт розпізнавання обличь, і дискусія в даній статті обертається навколо цих нових парадигм. Основна увага в цій статті – поглиблений аналіз ключових концепцій детектування обличчя в потокових відеоданих за допомогою відомих попередньо навчених моделей. Обговорювані моделі включають HRNet, RetinaFace, Dlib, MediaPipe і KeyPoint R-CNN. Кожна з цих моделей має свої сильні та слабкі сторони, і дана стаття розглядає ці атрибути в контексті практичних прикладів із реального світу. Такий розгляд дає цінну інформацію про практичне застосування цих моделей і компроміси, пов’язані з їх використанням. Крім того, стаття представляє вичерпний огляд методів трансформації зображення. Представлено абстрактний метод афінного перетворення зображення, важливу техніку обробки зображень, яка змінює геометричні властивості зображення, не впливаючи на інтенсивність його пікселів. Крім того, у статті розглядаються операції перетворення зображень, які виконуються за допомогою бібліотеки OpenCV, однієї з провідних бібліотек у галузі комп’ютерного зору, що забезпечує дуже гнучкий і ефективний набір інструментів для маніпулювання зображеннями. Кульмінацією цього дослідження є практична автономна система для заміни зображення у відео. Ця система використовує модель RetinaFace для здійснення висновків і використовує OpenCV для афінних перетворень, демонструючи концепції та технології, які обговорюються в статті. Таким чином, проведена робот просуває сферу виявлення та розпізнавання обличь, представляючи інноваційний підхід, який повною мірою використовує сучасні апаратні та програмні досягнення.