Оптимізація структури гетерогенних даних в Big Data

1 documents found

Information × Registration Number 0826U001174, PhD dissertation Status Доктор філософії Date popup.evolution o Title Optimization of the Structure of Heterogeneous Data in Big Data Author Yevhen O. Kyrychenko, popup.head Ihor V. Malyk popup.opponent Yaroslav I. Vyklyuk popup.opponent Olena V. Kryvoruchko popup.review Sergiy V. Balovsyak popup.review Dmytro Uhryn Description У дисертаційній роботі здійснено аналіз існуючих підходів до порівняння табличних наборів даних, виявлено їх обмеження щодо роботи з гетерогенними даними. Розроблено підхід створення компактних представлень даних для різних типів змінних, запропоновано зважену метрику структурної подібності даних, а також створено алгоритми побудови графів та дерев подібності для організації корпусів даних. Розроблено хмарну масштабовану архітектуру на базі AWS для обробки великих корпусів табличних даних та проведено експериментальні дослідження ефективності запропонованого підходу. Об’єктом дослідження є процес порівняння гетерогенних табличних наборів даних з слабо документованих джерел. Предмет дослідження є моделі та методи класифікації змінних, створення компактних представлень гетерогенних табличних наборів даних, побудова графів подібності для ефективного порівняння та структурування корпусів даних за мінімальних припущень щодо схеми. Метою дослідження є розробка уніфікованої типо-орієнтованої інформаційної системи для ефективного порівняння гетерогенних табличних наборів даних з невідомих або слабо документованих джерел за допомогою створення компактних представлень даних з використанням зваженої метрики структурної подібності інформації даних та побудова масштабованої хмарної інформаційної системи для формування графів та дерев подібності корпусів. Наукова новизна одержаних результатів наступна: – вперше розроблено уніфіковану методологію конструювання компактних представлень даних для гетерогенних табличних змінних; – запропоновано нову метрику структурної подібності даних, що використовують одиничні метрики або векторні представлення для забезпечення принципово обґрунтованого порівняння характеристик різнотипних змінних; – розроблено новий метод побудови ієрархічних структур подібності корпусів табличних даних на основі графів суміжності; – розроблено та реалізовано наскрізну хмарну масштабовану інформаційну технологію обробки великих корпусів табличних даних; – модифіковано підхід до кластеризації гетерогенних даних на основі компактних представлень та матриці суміжності. Практичне значення отриманих результатів. Розроблено архітектуру інформаційної технології для порівняння гетерогенних табличних наборів даних, процедуру конструювання компактних представлень даних, метрики обчислення подібності та методи побудови структур корпусів даних для використання в умовах інформаційних систем великого масштабу з невідомими джерелами. Експериментальні дослідження продемонстрували зменшення обсягу даних завдяки використанню компактних представлень. Застосування розподіленої архітектури забезпечило прискорення обробки приблизно на 40–60% порівняно з традиційними підходами повного сканування таблиць. Дисертація складається зі вступу, чотирьох роздiлiв, висновків, переліку використаних джерел та чотирьох додатків. У вступі обґрунтовано актуальність теми дослідження, сформульовано мету, завдання, предмет, об’єкт та методи дослідження, вказано наукову новизну, подано та проаналізовано зв’язок роботи з науковими темами. Зазначено особистий внесок здобувача, а також наведено відомості про апробацію та публікації основних результатів дисертації. Перший розділ дисертації містить теоретичні засади аналізу великих та гетерогенних даних, обґрунтовує застосування спектральних методів та апарату випадкових матриць для дослідження їхньої структури. У другому розділі запропоновано узагальнену модель компактного представлення (CDR), що замінює повні набори даних їх стислими дескрипторами, які зберігають інформаційно значущі статистичні та структурні характеристики. Розроблено алгоритм автоматичної типізації змінних. Побудовано та обґрунтовано конвеєрну систему аналізу даних. У третьому розділі здійснено аналіз сучасних хмарних технологій та принципів побудови масштабованих обчислювальних систем. Розроблено багаторівневу модульну архітектуру інформаційної системи. У четвертому розділі проведено експериментальну перевірку інформаційної технології моделювання та структурного аналізу гетерогенних табличних даних, що базується на методі компактного представлення CDR та метриці структурної подібності DISS. У висновках підсумовано основні результати дисертаційного дослідження. У додатках подано наукові публікації, відомості про апробацію результатів дисертації, лістинг частини коду програмного забезпечення. Запропоновані підходи використовуються у роботі ТОВ «Кодерс ПРО» та ТОВ «Палетний сервіс». Результати теоретичних та практичних досліджень використовуються у навчальному процесі кафедр математичних проблем управління і кібернетики та програмного забезпечення комп’ютерних систем Чернівецького національного університету імені Юрія Федьковича. Ключові слова: набори даних, модель, моделювання, класифікація, точність, машинне навчання, аналіз даних, штучний інтелект, інформаційні технології / системи, програмне забезпечення, програмна система, нейронні мережі, Python, хмарна платформа, кластерний аналіз. Registration Date 2026-04-25 popup.nrat_date 2026-04-25 Close

PhD dissertation

Optimization of the Structure of Heterogeneous Data in Big Data

Yevhen O. Kyrychenko. Optimization of the Structure of Heterogeneous Data in Big Data : Доктор філософії : spec.. 121 - Інженерія програмного забезпечення : presented. ; popup.evolution: o; Yuriy Fedkovych Chernivtsi National University. – Чернівці, 0826U001174.

1 documents found

Updated: 2026-04-28

Роздрукувати цю сторінку

National Repository of Academic Texts

The NRAT database:

Reports in the field of scientific and scientific and technical activities

Dissertations for obtaining scientific degrees and abstracts

Materials from publications and local repositories

Search academic texts