Знайдено документів: 1
Інформація × Реєстраційний номер 0825U003242, Дисертація доктора філософії На здобуття Доктор філософії Дата захисту 11-09-2025 Статус Наказ про видачу диплома Назва роботи Моделі та методи підвищення ефективності розпізнавання текстових областей у потоковому відео в режимі реального часу Здобувач Ся Гуаньсян .., Керівник Ковтун В'ячеслав Васильович Опонент Олійник Юрій Олександрович Опонент Павлова Ольга Олександрівна Рецензент Мокін Віталій Борисович Рецензент Маслій Роман Васильович Опис Дисертація на здобуття наукового ступеня доктора філософії за спеціальністю 122 – «Комп’ютерні науки». – Вінницький національний технічний університет, Вінниця, 2025. Стрімка цифровізація сучасного суспільства та бізнес-процесів зумовлює потребу в ефективних рішеннях для автоматизованого вилучення інформації з візуальних джерел. Одним із таких викликів є розпізнавання тексту та структурних елементів документів, що представлені у відеопотоках у реальному часі. Це завдання перебуває на перетині комп’ютерного зору, теорії розпізнавання образів, обробки природної мови (NLP) та технологій глибинного навчання й набуває все більшої актуальності у низці галузей, зокрема: - Оцифрування архівів – обробка історичних або юридичних документів у форматі відеозаписів (включаючи рукописи та плівкові матеріали) з метою структурованого вилучення тексту; - Системи контролю документів – автоматична перевірка паспортів і віз за допомогою відеоспостереження в умовах обмеженого часу; - Освіта та електронне навчання – транскрибування візуального матеріалу під час лекцій чи вебінарів, особливо у форматі дистанційного навчання; - Промислова автоматизація – розпізнавання серійних номерів, етикеток і пакувальної інформації на відео в логістиці та виробництві. На відміну від традиційного OCR, розпізнавання документів у відео супроводжується додатковими складнощами: змінним освітленням, розмитістю руху, частковими перекриттями об’єктів, а також багатомовністю. Це потребує застосування складних моделей, здатних до оперативного аналізу в неідеальних умовах. У вступі визначено мету, об’єкт, предмет і методи дослідження, обґрунтовано наукову новизну та практичну значущість, наведено структуру дисертаційної роботи. Розділ 1 присвячено аналізу архітектури сучасних систем розпізнавання документів, зосереджуючись на мобільних рішеннях і викликах, пов’язаних із обробкою зображень документів в обмежених умовах. Розділ 2 пропонує математичну модель системи оптичного розпізнавання об’єктів у відео з модулями інтеграції результатів і завершення процесу, формалізує відповідне завдання розпізнавання. Розділ 3 описує алгоритм об’єднання результатів розпізнавання символьних об’єктів із урахуванням альтернативних класифікацій символів. Представлено порівняльний аналіз з алгоритмом ROVER, а також методику синтезу даних для навчання й створення відкритих наборів документів для ідентифікації. Розділ 4 містить новий метод зупинки розпізнавання, що базується на пороговому скороченні очікуваної відстані між поточним та наступним інтегрованим результатом. Задачу формалізовано як монотонну зупинку, і доведено перевагу методу над традиційними підходами. Наукова новизна: - Розроблено динамічну модель розпізнавання об’єктів у відео в реальному часі. На відміну від статичних методів, вона забезпечує акумулювання результатів між кадрами та визначення оптимального моменту зупинки, що дало змогу підвищити точність на 9%. - Запропоновано ймовірнісний метод інтеграції гіпотез на рівні символів, який підтримує поетапне уточнення результатів і перевершує ROVER на 7% за точністю. - Розроблено алгоритм зупинки, що базується на оцінці очікуваного виграшу, формалізований як задача монотонної зупинки. Це дозволило зменшити середню кількість оброблених кадрів на 18% без втрати якості, що критично для мобільних пристроїв. Практичне значення: - Запропоновані методи підвищують надійність оцифрування документів і розпізнавання в умовах динамічного відео. - Продемонстровано успішну адаптацію ROVER для випадків покадрового спостереження за об’єктом. - Покращена точність аналізу паспортних та ідентифікаційних відео підтримує автоматизацію прикордонного контролю. - Метод зупинки оптимізує використання ресурсів без втрати точності, особливо на пристроях з обмеженою обчислювальною потужністю. - Інтеграційні рішення підвищують ефективність OCR-систем у мобільних та відеоспостережних сценаріях. - Перевірка на реальних даних і сумісність із Tesseract підтверджують придатність для мобільних і хмарних застосунків. - Виявлений вплив якості вхідних даних на вибір стратегії об’єднання дозволяє адаптувати системи до конкретних умов. - Формалізація задачі зупинки відкриває нові можливості оптимізації відеоаналітики в реальному часі. - Експерименти на наборі MIDV-500 підтверджують ефективність методів для систем верифікації документів, що створює передумови для комерційного та державного впровадження. - Запропоновані підходи можуть бути адаптовані до інших задач комп’ютерного зору в реальному часі, зокрема розпізнавання об’єктів і динамічного аналізу сцен. Дата реєстрації 2025-07-31 Додано в НРАТ 2025-07-31 Закрити
Дисертація доктор філос.
Ся Гуаньсян ... Моделі та методи підвищення ефективності розпізнавання текстових областей у потоковому відео в режимі реального часу
: Доктор філософії :
спец.. 122 - Комп’ютерні науки :
дата захисту ; Статус: Запланована;
Вінницький національний технічний університет. – Вінниця, 0825U003242.
Знайдено документів: 1
Підписка
Повний текст наразі ще відсутній.
Повідомити вам про надходження повного тексту?
Повідомити вам про надходження повного тексту?
Оновлено: 2026-03-15
