Знайдено документів: 1
Інформація × Реєстраційний номер 0826U001064, Дисертація доктора філософії На здобуття Доктор філософії Дата захисту Статус Запланована Назва роботи Методи ідентифікації дублювання даних у галузево-розподілених інформаційних системах на основі онтологій та аналізу структурних залежностей Здобувач Власюк Євгеній Романович, Керівник Ролік Олександр Іванович Опонент Любченко Віра Вікторівна Опонент Циганок Віталій Володимирович Рецензент Ульяницька Ксенія Олександрівна Рецензент Гавриленко Олена Валеріївна Опис Дисертаційна робота присвячена вирішенню проблеми ідентифікації дублювання даних в галузево-розподілених інформаційних системах. Галузево-розподілені інформаційні системи оброблення та аналізу даних застосовуються компаніями за потреби оброблення та аналізу даних, які мають різну природу, походження, відносяться до різних сфер та галузей. Для оброблення, аналізу та оцінки якості, різних за своєю суттю, даних, потрібні спеціалізовані правила і політики, які враховують специфіку даних. Необхідність в поєднанні доменних правил оцінки та оброблення даних з глобальними політиками, що мають виконуватись незалежно від специфіки даних, забезпечується федеративною моделлю управління галузево-розподіленими системами. Існуючі методи оцінки якості даних і зокрема, ідентифікації дублювання даних, потребують адаптації і оптимізації до федеративної моделі, яка застосовується в галузево-розподілених інформаційних системах оброблення та аналізу даних. Для забезпечення підвищення ефективності ідентифікації дублювання даних, в роботі запропоновано метод ідентифікації дублювання об’єктів даних з використанням онтологій. Створено математичну модель методу з використанням описових, структурних атрибутів онтології, а також методу з комбінуванням описових і структурних атрибутів. Для комплексного вирішення питання ідентифікації дублювання даних в галузево-розподілених системах оброблення та аналізу даних розглянуто і вирішено проблему ідентифікації дублювання продуктів даних. На відміну від оригінальних даних, отриманих з систем джерел даних, продукти даних представляють собою набори даних, що створені шляхом трансформації даних в рамках галузево-розподілених систем оброблення даних. Саме продукти даних використовуються кінцевими користувачами, а тому недостатній рівень якості цих даних безпосередньо вплине на сприйняття даних і правильність прийняття бізнес-рішень. Для вирішення задачі виявлення дублювання продуктів даних запропоновано метод ідентифікації дублювання продуктів даних на основі аналізу структурних задежностей. Розроблено математичну модель цього методу, яка базується на математичному апараті теорії графів. Процес виявлення дублювання продуктів даних складається з етапу побудови графів залежностей продуктів даних і етапу порівняння графів залежностей продуктів даних. Проаналізовано методи збору метаданих для побудови графів залежностей продуктів даних, зокрема метод на основі журналів повідомлень. Виявлений недолік даного методу, який полягає в низькій точності побудови графів залежностей при використанні недостатнього проміжку часу для аналізу журналів повідомлень. Для вирішення виявленого недоліку запропоновано метод побудови графів залежностей продуктів даних на основі синтаксичних дерев коду. Запропонований метод відрізняється від існуючого побудовою синтаксичних дерев коду на основі вихідного програмного коду застосунків обро даних і ідентифікацією залежних об’єктів зберігання даних, що дає змогу не використовувати журнал повідомлень і уникнути проблеми низької точності графів залежностей при використанні недостатньої кількості записів журналів повідомлень. Експериментальні дослідження запропонованого методу побудови графів залежностей на основі синтаксичних дерев коду демонструють точність побудови графів залежностей на рівні 90% з можливістю подальшого збільшення за рахунок покращення програмного модуля аналізатора коду. Для оцінки дублювання продуктів даних, проаналізовано існуючі методи порівняння направлених ациклічних графів, як представляють залежності між застосунками оброблення даних і об’єктами зберігання даних. Виявлено недолік існуючого методу, що полягає в погіршенні точності порівняння графів за умови великої кількості залежних об’єктів, що мають однакові імена, але є різними сутностями. Для покращення точності порівняння направлених ациклічних графів продуктів даних в середовищі галузево-розподілених систем оброблення та аналізу даних, де існує велика кількість об’єктів даних з однаковими іменами, які представляють різні сутності, запропоновано комбінований метод порівняння направлених ациклічних графів залежностей продуктів даних. Розроблений метод відрізняється від існуючого інтеграцією з методом ідентифікації дублювання об’єктів даних, а саме використанням списку дубльованих об’єктів даних при порівнянні відповідних вершин графів залежностей продуктів даних, а також врахуванням рівня вершини. Це дозволяє досягти на 6% кращої ефективності в порівнянні з існуючим методом порівняння направлених ациклічних графів залежностей продуктів даних. Розроблені методи ідентифікації дублювання об’єктів даних і продуктів даних використано при розробленні інформаційної технології оцінки якості даних в галузево-розподілених системах оброблення та аналізу даних. Дата реєстрації 2026-04-16 Додано в НРАТ 2026-04-16 Закрити
Дисертація доктор філос.
Власюк Євгеній Романович. Методи ідентифікації дублювання даних у галузево-розподілених інформаційних системах на основі онтологій та аналізу структурних залежностей
: Доктор філософії :
спец.. 126 - Інформаційні системи та технології :
дата захисту ; Статус: Запланована;
Національний технічний університет України "Київський політехнічний інститут імені Ігоря Сікорського". – Київ, 0826U001064.
Знайдено документів: 1
Підписка
Повний текст наразі ще відсутній.
Повідомити вам про надходження повного тексту?
Повідомити вам про надходження повного тексту?
Оновлено: 2026-04-20
