1 documents found
Information × Registration Number 2125U002816, Article popup.category Бакалаврська робота Title Передбачення наступного кадру у відео-потоці (AI translated) popup.author Подобєд Дмитро ВіталійовичPodobied Dmytro Vitaliiovych popup.publication 01-01-2025 popup.source_user Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського» popup.source https://ela.kpi.ua/handle/123456789/75784 popup.publisher Київ Description Дипломна робота: 100 с., 28 рис., 8 табл., 49 посилань, додаток. Об’єкт дослідження – модель машинного навчання для передбачення наступного кадру у відеопотоці. Предмет дослідження – архітектури та методи прогнозування відео на основі нейронних мереж для моделювання просторово-часової динаміки. Мета роботи – дослідити існуючи рішення, розробити власну реалізацію. Прогнозування відео є фундаментальною задачею в комп'ютерному зорі, що має застосування у навчанні з підкріпленням, автономному водінні та стисненні даних. Висока розмірність та стохастичність відеопотоків створюють значні технічні виклики. Для їх вирішення було розроблено архітектуру, що складається з трьох етапів. На першому етапі автокодувальник зі скінченним скалярним квантуванням (FSQ) стискає кадри у компактні латентні представлення. На другому етапі рекурентна нейронна мережа (GRU) моделює часову динаміку цих представлень. Третій етап — додаткове навчання декодера з пропускними з’єднаннями від енкодера, що дозволяє поєднувати прогнозовану динаміку з статичною інформацією з попереднього кадру. За результатами експериментів, запропонований підхід продемонстрував високу ефективність. Донавчання декодера з пропускними з’єднаннями кардинально покращило якість генерованих кадрів, при цьому не значно збільшивши кількість параметрів моделі, що підтверджує практичну цінність розробленої архітектури. Diploma thesis: 100 p., 28 figures, 8 tables, 49 references, 1 appendix. The object of the study is a machine learning model for predicting the next frame in a video stream. The subject of research is the architectures and methods for video prediction based on neural networks for modeling spatio-temporal dynamics. The purpose of the work is to investigate existing solutions and develop a custom implementation. Video prediction is a fundamental task in computer vision with applications in reinforcement learning, autonomous driving, and data compression. The high dimensionality and stochastic nature of video streams pose significant technical challenges. To address them, a three-stage architecture was developed. In the first stage, an autoencoder with Finite Scalar Quantization (FSQ) compresses frames into compact latent representations. In the second stage, a Recurrent Neural Network (GRU) models the temporal dynamics of these representations. The third stage is the fine-tuning of the decoder with skip connections from the encoder, which allows combining predicted dynamics with static information from the previous frame. According to the experimental results, the proposed approach demonstrated high efficiency. Fine-tuning the decoder with skip connections drastically improved the quality of the generated frames without significantly increasing the number of model parameters, which confirms the practical value of the developed architecture. popup.nrat_date 2025-11-05 Close
Article
Бакалаврська робота
Подобєд Дмитро Віталійович. Передбачення наступного кадру у відео-потоці (AI translated) : published. 2025-01-01; Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського», 2125U002816
1 documents found

Updated: 2026-03-25