[:ua]Пошук академічних текстів[:en]Search academic texts[:]

Знайдено документів: 1

Інформація × Реєстраційний номер 2125U003051, Матеріали видань та локальних репозитаріїв Категорія Бакалаврська робота Назва роботи Методи планування першого порядку для модельного навчання з підкріпленням Автор Педан Анастасія ЮріївнаPedan Anastasiya Yuriivna Дата публікації 01-01-2025 Постачальник інформації Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського» Першоджерело https://ela.kpi.ua/handle/123456789/76246 Видання Київ Опис Дипломна робота: 111 сторінок, 22 рисунків, 3 додатки, 42 джерел. Тема даної роботи полягає у вивченні методів планування в контексті модельного навчання з підкріпленням. Зокрема, робота зосереджена на аналізі існуючих підходів до планування, порівнянні їх характеристик, а також розробці нового методу, що покликаний покращити ефективність прийняття рішень агентом у симульованому середовищі. Особливу увагу приділено методам, які використовуються для знаходження оптимальних послідовностей дій у середовищі з відомою або наближеною динамікою. Об’єктом дослідження є сучасні методи планування, що застосовуються в модельному навчанні з підкріпленням. Більшість з них засновані на стохастичних методах оптимізації, таких як метод перехресної ентропії, або є його вдосконаленнями. Такі методи демонструють високу ефективність у складних середовищах, однак мають певні обмеження щодо точності, стабільності та швидкості збіжності. Метою роботи є створення нового методу планування, що поєднує переваги існуючих підходів та мінімізує їхні недоліки. Окрім практичного впровадження, значна увага приділяється теоретичному обґрунтуванню запропонованого методу, за допомогою виведення його з концепції навчання з підкріпленням як варіаційного виведення. Також проводиться емпіричне порівняння з існуючими методами з метою виявлення переваг та недоліків нового підходу. У процесі виконання роботи було реалізовано програмну імплементацію кількох популярних методів планування мовою програмування Python. Експериментальна оцінка їх ефективності проводилася на основі фізично реалістичних симуляторів локомоції, таких як walker, humanoid та dog з набору середовищ Deepmind Control Suite. При написанні роботи було використано наукові статті з галузі навчання з підкріпленням, планування, оптимального контролю та суміжних галузей. Thesis work: 111 pages, 22 figures, 3 appendices, 42 references. The topic of the current work is the study of planning methods in the context of model-based reinforcement learning. In particular, the work focuses on analyzing existing planning approaches, comparing their characteristics, and developing a novel method aimed at improving an agent’s decision-making efficiency in simulated environments. Special attention is given to methods used for finding optimal sequences of actions in environments with known or approximated dynamics. The object of the study is modern planning methods used in model-based reinforcement learning. Most of these methods are based on stochastic optimization techniques, such as the Cross-Entropy Method, or represent its enhancements. While these methods demonstrate high performance in complex environments, they also have limitations in terms of accuracy, stability, and convergence speed. The aim of this work is to develop a new planning method that combines the strengths of existing approaches while mitigating their weaknesses. In addition to its practical implementation, significant emphasis is placed on the theoretical justification of the proposed method, by showing its derivation from the principles of reinforcement learning as variational inference framework. An empirical comparison with existing methods is also conducted to identify the advantages and limitations of the new approach. During the development of this work, implementations of the various planning methods were created using the Python programming language. The comparative analysis of experimental results acquired from physically-realistic locomotion simulators, such as walker, humanoid, and dog from the Deepmind Control Suite was conducted. When writing this work, scientific papers from the fields of reinforcement learning, planning and optimal control were used, along with ones from adjacent fields. Додано в НРАТ 2025-11-05 Закрити

Матеріали

Бакалаврська робота

Методи планування першого порядку для модельного навчання з підкріпленням

Педан Анастасія Юріївна. Методи планування першого порядку для модельного навчання з підкріпленням : публікація 2025-01-01; Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського», 2125U003051

Знайдено документів: 1

Оновлено: 2026-04-10

Роздрукувати цю сторінку

Національний репозитарій академічних текстів

База даних НРАТ:

Звіти у сфері наукової і науково-технічної діяльності

Дисертації на здобуття наукових ступенів та автореферати

Матеріали видань та локальних репозитаріїв

Пошук академічних текстів