Знайдено документів: 1
Інформація × Реєстраційний номер 2125U002816, Матеріали видань та локальних репозитаріїв Категорія Бакалаврська робота Назва роботи Передбачення наступного кадру у відео-потоці Автор Подобєд Дмитро ВіталійовичPodobied Dmytro Vitaliiovych Дата публікації 01-01-2025 Постачальник інформації Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського» Першоджерело https://ela.kpi.ua/handle/123456789/75784 Видання Київ Опис Дипломна робота: 100 с., 28 рис., 8 табл., 49 посилань, додаток. Об’єкт дослідження – модель машинного навчання для передбачення наступного кадру у відеопотоці. Предмет дослідження – архітектури та методи прогнозування відео на основі нейронних мереж для моделювання просторово-часової динаміки. Мета роботи – дослідити існуючи рішення, розробити власну реалізацію. Прогнозування відео є фундаментальною задачею в комп'ютерному зорі, що має застосування у навчанні з підкріпленням, автономному водінні та стисненні даних. Висока розмірність та стохастичність відеопотоків створюють значні технічні виклики. Для їх вирішення було розроблено архітектуру, що складається з трьох етапів. На першому етапі автокодувальник зі скінченним скалярним квантуванням (FSQ) стискає кадри у компактні латентні представлення. На другому етапі рекурентна нейронна мережа (GRU) моделює часову динаміку цих представлень. Третій етап — додаткове навчання декодера з пропускними з’єднаннями від енкодера, що дозволяє поєднувати прогнозовану динаміку з статичною інформацією з попереднього кадру. За результатами експериментів, запропонований підхід продемонстрував високу ефективність. Донавчання декодера з пропускними з’єднаннями кардинально покращило якість генерованих кадрів, при цьому не значно збільшивши кількість параметрів моделі, що підтверджує практичну цінність розробленої архітектури. Diploma thesis: 100 p., 28 figures, 8 tables, 49 references, 1 appendix. The object of the study is a machine learning model for predicting the next frame in a video stream. The subject of research is the architectures and methods for video prediction based on neural networks for modeling spatio-temporal dynamics. The purpose of the work is to investigate existing solutions and develop a custom implementation. Video prediction is a fundamental task in computer vision with applications in reinforcement learning, autonomous driving, and data compression. The high dimensionality and stochastic nature of video streams pose significant technical challenges. To address them, a three-stage architecture was developed. In the first stage, an autoencoder with Finite Scalar Quantization (FSQ) compresses frames into compact latent representations. In the second stage, a Recurrent Neural Network (GRU) models the temporal dynamics of these representations. The third stage is the fine-tuning of the decoder with skip connections from the encoder, which allows combining predicted dynamics with static information from the previous frame. According to the experimental results, the proposed approach demonstrated high efficiency. Fine-tuning the decoder with skip connections drastically improved the quality of the generated frames without significantly increasing the number of model parameters, which confirms the practical value of the developed architecture. Додано в НРАТ 2025-11-05 Закрити
Матеріали
Бакалаврська робота
Подобєд Дмитро Віталійович. Передбачення наступного кадру у відео-потоці : публікація 2025-01-01; Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського», 2125U002816
Знайдено документів: 1

Оновлено: 2026-03-17