ВИЯВЛЕННЯ ГЛИБОКИХ ФЕЙКІВ В АУДІО ЗА ДОПОМОГОЮ YOLOV8 ТА МЕЛ-СПЕКТРОГРАМ

1 documents found

Information × Registration Number 2125U003972, Article popup.category Опубліковано, Стаття Title DEEPFAKE AUDIO DETECTION USING YOLOV8 WITH MEL-SPECTROGRAM ANALYSIS: A CROSS-DATASET EVALUATION popup.author Збежховська У. Р.Zbezhkhovska U. R. popup.publication 10-04-2025 popup.source_user Журнал "Радіоелектроніка, інформатика, управління" (Національний університет "Запорізька політехніка") popup.source https://ric.zp.edu.ua/article/view/324371 popup.publisher National University "Zaporizhzhia Polytechnic" Description Актуальність. Проблема виявлення глибоких фейків у аудіо стає дедалі більш критичною в умовах швидкого розвитку технологій синтезу голосу та можливості їх використання з злочинною метою. Традиційні методи обробки аудіо стикаються з суттєвими викликами у виявлені складних аудіо фейків, особливо під час тестування на різних типах маніпуляцій з аудіота наборах даних. Об’єктом дослідження є розробка моделі виявлення глибоких фейків у аудіо, яка використовує мел-спектрограми як вхідні дані для комп’ютерних методів зору, зосереджуючи увагу на покращенні можливостей узагальнення між наборами даних.Мета роботи – покращення узагальнюючих можливостей моделей виявлення глибоких аудіо фейків шляхом використання мел-спектрограм та комп’ютерних методів зору. Це досягається шляхом адаптації YOLOv8, сучасної моделікомп’ютерного зору, для аналізу аудіо та дослідження ефективності різних представлень мел-спектрограм на різноманітних наборах даних.Метод. Запропоновано новий підхід, що використовує YOLOv8 для виявлення глибоких аудіо фейків через аналіз двох типів мел-спектрограм: традиційних та конкатенованих, сформованих з фільтрів SincConv. Метод трансформує аудіосигнали в візуальні представлення, які можуть оброблятися алгоритмами комп’ютерного зору, що дозволяє виявляти тонкі шаблони, які свідчать про синтетичну мову. Запропонований підхід включає кілька ключових компонентів: оптимізацію функціївтрат бінарної крос ентропії для задачі бінарної класифікації, стохастичний градієнтний спуск з моментом (0,937) для ефективного навчання та комплексні методи аугментації даних. Фільтри SincConv охоплюють частотний діапазон від 0 Гц до8000 Гц з кроком приблизно 533,33 Гц на фільтр, забезпечуючи детальні можливості частотного аналізу. Ефективність оцінюється за допомогою метрики EER на кількох наборах даних: ASVspoof 2021 LA (25 380 справжніх та 121 461 підроблених висловлювань) для навчання, та ASVspoof 2021 DF, Fake-or-Real (111 000 реальних та 87 000 синтетичних висловлювань), In-the-Wild (17,2 години фейкових, 20,7 години реальних), та WaveFake (117 985 фейкових файлів) для тестування узагальнення між наборами даних.Результати. Експерименти демонструють різну ефективність моделей в залежності від різних представлень вхідних даних. Конкатеновані мел-спектрограми продемонстрували кращу продуктивність на різноманітних реальних наборах даних(In-the-Wild: 34,55% EER, Fake-or-Real: 35,3% EER), тоді як прості мел-спектрограми працювали краще на більш однорідних наборах даних (ASVspoof DF: 28,99% EER, WaveFake: 34,55% EER). Візуалізації карт ознак показують, що шаблони увагимоделі значно різняться в залежності від типів вхідних даних, наприклад, конкатеновані мел-спектрограми демонструють більш розподілений фокус на відповідних областях для складних наборів даних.Висновки. Експериментальні результати підтверджують доцільність використання YOLOv8 для виявлення глибоких аудіо фейків та демонструють, що ефективність представлень мел-спектрограм значно залежить від характеристик набору даних. Отримані результати свідчать, що представлення вхідних даних слід обирати на основі специфічних властивостей цільових аудіоданих, причому конкатеновані мел-спектрограми є більш підходящими для різноманітних реальних сценаріїв,а прості мел-спектрограми – для більш контрольованих однорідних наборів даних. Дослідження закладає основу для подальших досліджень у галузі адаптивного вибору представлення даних та оптимізації моделей для виявлення глибоких аудіо фейків. popup.nrat_date 2026-02-26 Close

Article

Опубліковано

Стаття

DEEPFAKE AUDIO DETECTION USING YOLOV8 WITH MEL-SPECTROGRAM ANALYSIS: A CROSS-DATASET EVALUATION

Збежховська У. Р.. DEEPFAKE AUDIO DETECTION USING YOLOV8 WITH MEL-SPECTROGRAM ANALYSIS: A CROSS-DATASET EVALUATION : published. 2025-04-10; Журнал "Радіоелектроніка, інформатика, управління" (Національний університет "Запорізька політехніка"), 2125U003972

1 documents found

Updated: 2026-03-25

Роздрукувати цю сторінку

National Repository of Academic Texts

The NRAT database:

Reports in the field of scientific and scientific and technical activities

Dissertations for obtaining scientific degrees and abstracts

Materials from publications and local repositories

Search academic texts