Знайдено документів: 1
Інформація × Реєстраційний номер 2125U003972, Матеріали видань та локальних репозитаріїв Категорія Опубліковано, Стаття Назва роботи ВИЯВЛЕННЯ ГЛИБОКИХ ФЕЙКІВ В АУДІО ЗА ДОПОМОГОЮ YOLOV8 ТА МЕЛ-СПЕКТРОГРАМ Автор Збежховська У. Р.Zbezhkhovska U. R. Дата публікації 10-04-2025 Постачальник інформації Журнал "Радіоелектроніка, інформатика, управління" (Національний університет "Запорізька політехніка") Першоджерело https://ric.zp.edu.ua/article/view/324371 Видання National University "Zaporizhzhia Polytechnic" Опис Актуальність. Проблема виявлення глибоких фейків у аудіо стає дедалі більш критичною в умовах швидкого розвитку технологій синтезу голосу та можливості їх використання з злочинною метою. Традиційні методи обробки аудіо стикаються з суттєвими викликами у виявлені складних аудіо фейків, особливо під час тестування на різних типах маніпуляцій з аудіота наборах даних. Об’єктом дослідження є розробка моделі виявлення глибоких фейків у аудіо, яка використовує мел-спектрограми як вхідні дані для комп’ютерних методів зору, зосереджуючи увагу на покращенні можливостей узагальнення між наборами даних.Мета роботи – покращення узагальнюючих можливостей моделей виявлення глибоких аудіо фейків шляхом використання мел-спектрограм та комп’ютерних методів зору. Це досягається шляхом адаптації YOLOv8, сучасної моделікомп’ютерного зору, для аналізу аудіо та дослідження ефективності різних представлень мел-спектрограм на різноманітних наборах даних.Метод. Запропоновано новий підхід, що використовує YOLOv8 для виявлення глибоких аудіо фейків через аналіз двох типів мел-спектрограм: традиційних та конкатенованих, сформованих з фільтрів SincConv. Метод трансформує аудіосигнали в візуальні представлення, які можуть оброблятися алгоритмами комп’ютерного зору, що дозволяє виявляти тонкі шаблони, які свідчать про синтетичну мову. Запропонований підхід включає кілька ключових компонентів: оптимізацію функціївтрат бінарної крос ентропії для задачі бінарної класифікації, стохастичний градієнтний спуск з моментом (0,937) для ефективного навчання та комплексні методи аугментації даних. Фільтри SincConv охоплюють частотний діапазон від 0 Гц до8000 Гц з кроком приблизно 533,33 Гц на фільтр, забезпечуючи детальні можливості частотного аналізу. Ефективність оцінюється за допомогою метрики EER на кількох наборах даних: ASVspoof 2021 LA (25 380 справжніх та 121 461 підроблених висловлювань) для навчання, та ASVspoof 2021 DF, Fake-or-Real (111 000 реальних та 87 000 синтетичних висловлювань), In-the-Wild (17,2 години фейкових, 20,7 години реальних), та WaveFake (117 985 фейкових файлів) для тестування узагальнення між наборами даних.Результати. Експерименти демонструють різну ефективність моделей в залежності від різних представлень вхідних даних. Конкатеновані мел-спектрограми продемонстрували кращу продуктивність на різноманітних реальних наборах даних(In-the-Wild: 34,55% EER, Fake-or-Real: 35,3% EER), тоді як прості мел-спектрограми працювали краще на більш однорідних наборах даних (ASVspoof DF: 28,99% EER, WaveFake: 34,55% EER). Візуалізації карт ознак показують, що шаблони увагимоделі значно різняться в залежності від типів вхідних даних, наприклад, конкатеновані мел-спектрограми демонструють більш розподілений фокус на відповідних областях для складних наборів даних.Висновки. Експериментальні результати підтверджують доцільність використання YOLOv8 для виявлення глибоких аудіо фейків та демонструють, що ефективність представлень мел-спектрограм значно залежить від характеристик набору даних. Отримані результати свідчать, що представлення вхідних даних слід обирати на основі специфічних властивостей цільових аудіоданих, причому конкатеновані мел-спектрограми є більш підходящими для різноманітних реальних сценаріїв,а прості мел-спектрограми – для більш контрольованих однорідних наборів даних. Дослідження закладає основу для подальших досліджень у галузі адаптивного вибору представлення даних та оптимізації моделей для виявлення глибоких аудіо фейків. Додано в НРАТ 2026-02-26 Закрити
Матеріали
Опубліковано
Стаття
Збежховська У. Р.. ВИЯВЛЕННЯ ГЛИБОКИХ ФЕЙКІВ В АУДІО ЗА ДОПОМОГОЮ YOLOV8 ТА МЕЛ-СПЕКТРОГРАМ
:
публікація 2025-04-10;
Журнал "Радіоелектроніка, інформатика, управління" (Національний університет "Запорізька політехніка"), 2125U003972
Знайдено документів: 1
Підписка
Повний текст наразі ще відсутній.
Повідомити вам про надходження повного тексту?
Повідомити вам про надходження повного тексту?
Оновлено: 2026-03-17
