Знайдено документів: 1
Інформація × Реєстраційний номер 2125U003953, Матеріали видань та локальних репозитаріїв Категорія Опубліковано, Стаття Назва роботи МЕТОДИ ОПТИМІЗАЦІЇ РОБОТИ СВІТЛОФОРІВ НА РЕГУЛЬОВАНИХ ПЕРЕХРЕСТЯХ ЗА ДОПОМОГОЮ ГЛИБИННОГО НАВЧАННЯ З ПІДКРІПЛЕННЯМ Автор Бойко Н. І.Мокрик Я. Л.Boyko N. I.Mokryk Y. L. Дата публікації 24-12-2025 Постачальник інформації Журнал "Радіоелектроніка, інформатика, управління" (Національний університет "Запорізька політехніка") Першоджерело https://ric.zp.edu.ua/article/view/346708 Видання National University "Zaporizhzhia Polytechnic" Опис Актуальність. Перехрестя є найбільш критичною ділянкою дорожньої мережі, де спостерігається найбільша кількість зіткнень та найдовший час очікування. Розробка оптимальних методів керування світлофорами на регульованих перехрестях необхідна для покращення руху транспортного потоку на існуючих міських перехрестях, зменшенняймовірності зіткнень, часу, необхідного для перетину перехрестя, та підвищення безпеки для водіїв і пішоходів. Розробка такого алгоритму вимагає моделювання руху транспорту та порівняння роботи різних підходів у змодельованому середовищі.Мета роботи є розробка ефективної моделі глибинного навчання з підкріпленням (DRL), спрямованої на оптимізацію керування фазами світлофорів на перехрестях.Метод. Розроблено власне симуляційне середовище, сумісне з OpenAI Gym, та проведено порівняння двох типівалгоритмів: глибинні Q-мережі та метод оптимізації близьких стратегій. Алгоритми протестовано на низці сценаріїв, включаючи сценарії з неперервним та дискретним просторами дій, де набір дій, які може виконати агент, представлений або різними станами світлофора, або тривалістю фаз сигналу світлофора. Під час навчання також налаштовувалися різнігіперпараметри та розглядалися різні метрики винагороди для моделей: середній час очікування та середня довжина черги. Розроблене середовище винагороджує агента під час навчання відповідно до однієї з обраних метрик, а також штрафує його за порушення правил дорожнього руху.Результати. Проведено детальний аналіз результатів тестування алгоритмів DQN та PPO. Загалом, алгоритми PPO демонструють більш стабільне покращення під час навчання, тоді як алгоритми DQN більше страждають від проблемикатастрофічного забування. Зміна функції винагороди дозволяє алгоритмам мінімізувати різні метрики під час навчання.Розроблене моделююче середовище може бути використане в майбутньому для тестування інших типів алгоритмів на тій самій задачі, і воно є значно менш затратним в обчислювальному плані порівняно з існуючими рішеннями. Отриманірезультати підкреслюють необхідність дослідження інших методів керування світлофорами, які можуть бути інтегровані зреальними світлофорними системами для більш оптимального та безпечного руху транспортних потоків.Висновки. Дослідження надало порівняння різних методів управління світлофорами на регульованому міськомуперехресті, протестувало різні способи заохочення моделей під час навчання та проаналізувало вплив, який це має на транспортний потік. Розроблене середовище було досить простим для цілей дослідження, що є цінним через великі обчислювальні вимоги самих моделей, але в майбутньому його можна вдосконалити, розширивши його більш складними функціями моделювання, такими як різні типи перехресть, які не є міськими, створення дорожньої мережі перехресть, які були б з’єднані між собою, додавання пішохідних переходів тощо. У майбутньому планується вдосконалити середовище моделювання, розширити спектр розглянутих алгоритмів, розглянути можливість використання моделей для керування транспортними засобами на додаток до керування світлофорами. Додано в НРАТ 2026-02-09 Закрити
Матеріали
Опубліковано
Стаття
Бойко Н. І.. МЕТОДИ ОПТИМІЗАЦІЇ РОБОТИ СВІТЛОФОРІВ НА РЕГУЛЬОВАНИХ ПЕРЕХРЕСТЯХ ЗА ДОПОМОГОЮ ГЛИБИННОГО НАВЧАННЯ З ПІДКРІПЛЕННЯМ : публікація 2025-12-24; Журнал "Радіоелектроніка, інформатика, управління" (Національний університет "Запорізька політехніка"), 2125U003953
Знайдено документів: 1

Оновлено: 2026-03-17