Знайдено документів: 1
Інформація × Реєстраційний номер 0826U001174, Дисертація доктора філософії На здобуття Доктор філософії Дата захисту Статус Запланована Назва роботи Оптимізація структури гетерогенних даних в Big Data Здобувач Кириченко Євген Олександрович, Керівник Малик Ігор Володимирович Опонент Виклюк Ярослав Ігорович Опонент Криворучко Олена Володимирівна Рецензент Баловсяк Сергій Васильович Рецензент Угрин Дмитро Ілліч Опис У дисертаційній роботі здійснено аналіз існуючих підходів до порівняння табличних наборів даних, виявлено їх обмеження щодо роботи з гетерогенними даними. Розроблено підхід створення компактних представлень даних для різних типів змінних, запропоновано зважену метрику структурної подібності даних, а також створено алгоритми побудови графів та дерев подібності для організації корпусів даних. Розроблено хмарну масштабовану архітектуру на базі AWS для обробки великих корпусів табличних даних та проведено експериментальні дослідження ефективності запропонованого підходу. Об’єктом дослідження є процес порівняння гетерогенних табличних наборів даних з слабо документованих джерел. Предмет дослідження є моделі та методи класифікації змінних, створення компактних представлень гетерогенних табличних наборів даних, побудова графів подібності для ефективного порівняння та структурування корпусів даних за мінімальних припущень щодо схеми. Метою дослідження є розробка уніфікованої типо-орієнтованої інформаційної системи для ефективного порівняння гетерогенних табличних наборів даних з невідомих або слабо документованих джерел за допомогою створення компактних представлень даних з використанням зваженої метрики структурної подібності інформації даних та побудова масштабованої хмарної інформаційної системи для формування графів та дерев подібності корпусів. Наукова новизна одержаних результатів наступна: – вперше розроблено уніфіковану методологію конструювання компактних представлень даних для гетерогенних табличних змінних; – запропоновано нову метрику структурної подібності даних, що використовують одиничні метрики або векторні представлення для забезпечення принципово обґрунтованого порівняння характеристик різнотипних змінних; – розроблено новий метод побудови ієрархічних структур подібності корпусів табличних даних на основі графів суміжності; – розроблено та реалізовано наскрізну хмарну масштабовану інформаційну технологію обробки великих корпусів табличних даних; – модифіковано підхід до кластеризації гетерогенних даних на основі компактних представлень та матриці суміжності. Практичне значення отриманих результатів. Розроблено архітектуру інформаційної технології для порівняння гетерогенних табличних наборів даних, процедуру конструювання компактних представлень даних, метрики обчислення подібності та методи побудови структур корпусів даних для використання в умовах інформаційних систем великого масштабу з невідомими джерелами. Експериментальні дослідження продемонстрували зменшення обсягу даних завдяки використанню компактних представлень. Застосування розподіленої архітектури забезпечило прискорення обробки приблизно на 40–60% порівняно з традиційними підходами повного сканування таблиць. Дисертація складається зі вступу, чотирьох роздiлiв, висновків, переліку використаних джерел та чотирьох додатків. У вступі обґрунтовано актуальність теми дослідження, сформульовано мету, завдання, предмет, об’єкт та методи дослідження, вказано наукову новизну, подано та проаналізовано зв’язок роботи з науковими темами. Зазначено особистий внесок здобувача, а також наведено відомості про апробацію та публікації основних результатів дисертації. Перший розділ дисертації містить теоретичні засади аналізу великих та гетерогенних даних, обґрунтовує застосування спектральних методів та апарату випадкових матриць для дослідження їхньої структури. У другому розділі запропоновано узагальнену модель компактного представлення (CDR), що замінює повні набори даних їх стислими дескрипторами, які зберігають інформаційно значущі статистичні та структурні характеристики. Розроблено алгоритм автоматичної типізації змінних. Побудовано та обґрунтовано конвеєрну систему аналізу даних. У третьому розділі здійснено аналіз сучасних хмарних технологій та принципів побудови масштабованих обчислювальних систем. Розроблено багаторівневу модульну архітектуру інформаційної системи. У четвертому розділі проведено експериментальну перевірку інформаційної технології моделювання та структурного аналізу гетерогенних табличних даних, що базується на методі компактного представлення CDR та метриці структурної подібності DISS. У висновках підсумовано основні результати дисертаційного дослідження. У додатках подано наукові публікації, відомості про апробацію результатів дисертації, лістинг частини коду програмного забезпечення. Запропоновані підходи використовуються у роботі ТОВ «Кодерс ПРО» та ТОВ «Палетний сервіс». Результати теоретичних та практичних досліджень використовуються у навчальному процесі кафедр математичних проблем управління і кібернетики та програмного забезпечення комп’ютерних систем Чернівецького національного університету імені Юрія Федьковича. Ключові слова: набори даних, модель, моделювання, класифікація, точність, машинне навчання, аналіз даних, штучний інтелект, інформаційні технології / системи, програмне забезпечення, програмна система, нейронні мережі, Python, хмарна платформа, кластерний аналіз. Дата реєстрації 2026-04-25 Додано в НРАТ 2026-04-25 Закрити
Дисертація доктор філос.
Кириченко Євген Олександрович. Оптимізація структури гетерогенних даних в Big Data
: Доктор філософії :
спец.. 121 - Інженерія програмного забезпечення :
дата захисту ; Статус: Запланована;
Чернівецький національний університет імені Юрія Федьковича. – Чернівці, 0826U001174.
Знайдено документів: 1
Підписка
Повний текст наразі ще відсутній.
Повідомити вам про надходження повного тексту?
Повідомити вам про надходження повного тексту?
Оновлено: 2026-04-27
