Знайдено документів: 1
Інформація × Реєстраційний номер 2125U001853, Матеріали видань та локальних репозитаріїв Категорія Бакалаврська робота Назва роботи Мультимодальна мовна модель для генерації текстових описів по зображенню Автор Дата публікації 01-01-2025 Постачальник інформації Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського» Першоджерело https://ela.kpi.ua/handle/123456789/75210 Видання Київ Опис Дипломна робота: 168 с., 34 рис., 7 табл., 2 додатки, 13 джерел. Об’єкт дослідження – генерація текстових описів зображень базуючихся на гібридному вхідному форматі даних. Предмет дослідження – модель PaliGemma, яка являє собою інноваційний підхід у сферах обробки природної мови та комп’ютерного зору, використовуючи технологію трансформерів, зокрема в контексті комбінованих запитів (текст та зображення). Мета роботи – побудувати архітектуру моделі PaliGemma і розробити застосунок для її інференсу через веб-інтерфейс для зручної взаємодії з користувачем. Мета дослідження – побудувати архітектуру моделі PaliGemma і розробити застосунок для її інференсу через веб-інтерфейс для зручної взаємодії з користувачем. Актуальність – з розвитком технологій у сфері нейронних мереж і штучного інтелекту, сфера генеративних мереж, яка може поєднувати обробку природної мови та комп'ютерний зір, стає все більш актуальною. Наразі LLM з гібридним форматом вхідних даних використовується повсюди: 1) у бізнес-сфері для вирішення побажань клієнтів, наприклад, інтеграція чат–ботів у програмне забезпечення; 2) в науковій сфері для вивчення та аналізу дослідницьких статей; 3) у сфері освіти, LLM використовуються для роз’яснення матеріалу, постановки завдань та їх швидкої перевірки; 4) у сфері медицини для виявлення по знімкам МРТ ракових пухлин. Результати роботи – у межах роботи було реалізовано модель генерації текстових описів за текстовим і растровим інпутом з використанням моделі PaliGemma. Шляхи подальшого розвитку предмета дослідження – в майбутньому можна ще більше розширити вхідні формати даних, щоб модель стала ще більш універсальною, також можна ще детренувати модель для покращення узагальнюючих здібностей моделі, і для більш зручного користувацького досвіду можна розробити мобільний застосунок. Додано в НРАТ 2025-09-01 Закрити
Матеріали
Бакалаврська робота
Мультимодальна мовна модель для генерації текстових описів по зображенню : публікація 2025-01-01; Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського», 2125U001853
Знайдено документів: 1

Оновлено: 2026-03-19