1 documents found
Information × Registration Number 0416U003873, Candidate dissertation Status к.т.н. Date 30-06-2016 popup.evolution o Title Models and methods of cleaning and integration of text data in information systems Author Todoriko Olha Oleksiivna, popup.head Gomenyuk, Sergiy Ivanovich popup.opponent Шостак Ігор Володимирович popup.opponent Хайрова Ніна Феліксівна popup.opponent Шаронова Наталія Валеріївна Description Об’єкт дослідження – процеси очищення та інтеграції текстових даних в інформаційно-довідкових та пошукових системах. Мета дослідження - удосконалення технології очищення та інтеграції текстових даних в довідкових і пошукових інформаційних системах за рахунок використання моделі словозмінної парадигми та методу побудови лексемного індексу при організації пошуку за схожістю. Методи дослідження: методи математичного моделювання, методи об’єктно-орієнтованого аналізу та синтезу програмного забезпечення з використанням уніфікованої мови системного моделювання UML, методи створення лінійних та нейронних класифікаторів, методи теорії ймовірності та статистичного аналізу експериментальних даних. Теоретичні і практичні результати: створення програмного забезпечення у вигляді бібліотеки класів на мові Java для організації словникового пошуку за схожістю та інтеграції наборів даних. Наукова новизна одержаних результатів: вперше: - розроблено моделі словозмінної парадигми, які відрізняються способом представлення слів та обчислення приблизної міри схожості між представленнями, способом врахування форм слів та позицій символів у словах, що дозволило створити підґрунтя для побудови лексемного індексу, реалізації методу пошуку за схожістю, очищення та інтеграції наборів даних; - запропоновано метод побудови лексемного індексу, який відрізняється від існуючих зменшенням кількості записів за рахунок відображення всіх словоформ слова в один запис індексу, що дозволяє при попередній фільтрації скоротити кількість обчислень міри схожості між зразком та всіма формами слів; удосконалено метод пошуку за схожістю текстової інформації в довідкових та пошукових системах за рахунок використання моделей словозмінної парадигми та лексемного індексу, що дозволяє збільшити точність та повноту попередньої фільтрації; дістала подальшого розвитку інформаційна технологія очищення та інтеграції наборів даних, яка за рахунок вдосконалення методу пошуку за схожістю дозволяє спростити операцію обчислення міри схожості. Ступінь упровадження: результати дисертаційної роботи застосовано у процесі документообігу приймальної комісії для очищення даних в «Системі реєстрації абітурієнтів» Державного вищого навчального закладу «ЗНУ» та для зіставлення записів даної системи та системи електронної подачі заявок для вступу в вищі «Електронний вступ» МОН України, а також використані у навчальному процесі на кафедрі інформаційних технологій Державного вищого навчального закладу «ЗНУ». Галузь використання - очищення та інтеграція інформаційних систем. Registration Date 2016-06-30 popup.nrat_date 2020-04-03 Close
Candidate dissertation
Todoriko Olha Oleksiivna. Models and methods of cleaning and integration of text data in information systems
: к.т.н. :
spec.. 05.13.06 - Інформаційні технології :
presented. 2016-06-30; popup.evolution: .;
. – , 0416U003873.
1 documents found
search.subscribing
search.subscribe_text
Updated: 2026-03-20
