Знайдено документів: 1
Інформація × Реєстраційний номер 2126U000788, Матеріали видань та локальних репозитаріїв Категорія Стаття, Опубліковано Назва роботи ЕФЕКТИВНІ ДИФУЗІЙНІ МОДЕЛІ ДЛЯ SUPER-RESOLUTION ЗОБРАЖЕНЬ Автор Козлов Сергій ЛеонідовичКолесницький Олег КостянтиновичKozlov Serhii LeonidovychKolesnytskyi Oleh Kostyantynovych Дата публікації 31-03-2026 Постачальник інформації "Наукові праці Вінницького національного технічного університету" (Вінницький національний технічний університет) Першоджерело https://praci.vntu.edu.ua/index.php/praci/article/view/944 Видання Вінницький національний технічний університет Опис Дифузійні моделі встановили нові стандарти перцептивної якості у SISR, проте їхнє багатокрокове висновування та великий розмір моделі складнюють практичне розгортання: моделі на основі Stable Diffusion потребують 50–200 кроків знешумлення, секундні затримки та мільярди параметрів. Цей гляд систематизує два взаємодоповнюючі напрямки: ефективне проєктування дифузійного процесу, що скорочує ітеративне семплювання від сотень кроків до кількох, та ущільнення моделей для розгортання з обмеженими ресурсами. Проаналізовано дванадцять моделей 2023–2025 років: вісім ефективних(ResShift, SinSR, OSEDiff, TSD-SR, AddSR, DoSSR, CCSR, InvSR) та чотири ущільнених (AdcSR, PassionSR, Edge-SD-SR, BiMaCoSR), та проведено порівняння їх за якістю (SSIM, LPIPS, CLIPIQA, MUSIQ) та ефективністю (параметри, MACs, час висновування) на тестових наборах DIV2K, RealSR і DRealSR. З-поміж ефективних моделей ті, що побудовані на попередньо навчених text-to-image опорних моделях, дають приріст до +0,13 CLIPIQA порівняно з моделями навченими з нуля. Використання LR-зображення, як початкової точки зворотного процесу, забезпечує кращий баланс перцепція-спотворення, порівняно зі початком з гаусового шуму. Моделі-студенти можуть показати кращі результати, ніж відповідні моделі-вчителі, за умови донавчання на еталонних зображеннях. Текстові запити слугують допоміжним, а не обов'язковим сигналом. InvSR та CCSR виносять баланс перцепція-спотворення як runtime-параметр на єдиній навченій моделі. Ущільнення у 4-6 разів майже не впливає на якість. Понад 10-кратне ущільнення погіршує перцептивну якість, хоча точність відтворення зберігається. VAE-декодер домінує в обчисленнях та затримці на пристрої, що робить його першочерговою ціллю ущільнення. Водночас ущільнені дифузійні SR-моделі, все ще, значно більші за GAN-моделі, і оптимальний компроміс між розміром моделі та якістю результату залишається недослідженим. Додано в НРАТ 2026-05-02 Закрити
Матеріали
Стаття
Опубліковано
Козлов Сергій Леонідович. ЕФЕКТИВНІ ДИФУЗІЙНІ МОДЕЛІ ДЛЯ SUPER-RESOLUTION ЗОБРАЖЕНЬ
:
публікація 2026-03-31;
"Наукові праці Вінницького національного технічного університету" (Вінницький національний технічний університет), 2126U000788
Знайдено документів: 1
Підписка
Повний текст наразі ще відсутній.
Повідомити вам про надходження повного тексту?
Повідомити вам про надходження повного тексту?
Оновлено: 2026-05-02
