Знайдено документів: 1
Інформація × Реєстраційний номер 2120U007911, Матеріали видань та локальних репозитаріїв Категорія Бакалаврська робота Назва роботи Кластеризація даних, що збираються з відібраних джерел науково-технічної інформації Автор Крамар Іван ІгоровичKramar Ivan Ihorovych Дата публікації 01-06-2020 Постачальник інформації Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського» Першоджерело https://ela.kpi.ua/handle/123456789/36639 Видання Київ Опис Метою роботи є застосування кластеризації науково-технічних даних не тільки для наглядного представлення об’єктів, але і для розпізнавання нових. Метою кластеризації документів є автоматичне виявлення груп семантично схожих документів серед заданої фіксованої множини. Групи формуються тільки на основі попарної схожості описів документів, і ніякі характеристики цих груп не задаються заздалегідь. Для видалення неінформативних слів розглянуто методи: видалення стоп-слів, стеммінг, N-діаграми, приведення регістра. Для виділення ключових слів та класифікації результатів використано наступні методи: словниковий, статистичний та побудований на основі Y-інтерпретації закону Бредфорда, TF-IDF міра, F-міра та метод лакричних шаблонів. Для реалізації системи кластерного аналізу науково-технічних даних обрано високорівневу мову програмування Python, реалізація інтерпретатора 2.7. Даний програмний код читається легше, його багаторазове використання і обслуговування виконується набагато простіше, ніж використання програмного коду на інших мовах. The aim of the work is to use the clustering of scientific and technical data not only for the visual representation of objects, but also for the recognition of new ones. The purpose of document clustering is to automatically detect groups of semantically similar documents among a given fixed set. Groups are formed only on the basis of pairwise similarity of document descriptions, and no characteristics of these groups are set in advance. Methods for deleting uninformative words are considered: deletion of stop words, stemming, N-diagrams, case reduction. The following methods were used to highlight keywords and classify the results: dictionary, statistical and based on the Y-interpretation of Bradford's law, TF-IDF measure, F-measure and the method of licorice patterns. Python programming language was chosen to implement the system of cluster analysis of scientific and technical data, a high-level, the implementation of the interpreter 2.7. This program code is easier to read, its reuse and maintenance is much easier than using program code in other languages. Целью работы является применение кластеризации научно-технических данных не только для наглядного представления объектов, но и для распознавания новых. Целью кластеризации документов является автоматическое выявление групп семантически похожих документов среди заданной фиксированной множества. Группы формируются только на основе попарно сходства описаний документов, и никакие характеристики этих групп не задаются заранее. Для удаления неинформативных слов рассмотрены методы: удаление стоп-слов, стемминг, N-диаграммы, приведение регистра. Для выделения ключевых слов и классификации результатов использованы следующие методы: словарный, статистический и построен на основе Y-интерпретации закона Брэдфорда, TF-IDF мера, F-мера и способ лакричным шаблонов. Для реализации системы кластерного анализа научно-технических данных избран высокоуровневый язык программирования Python, реализация интерпретатора 2.7. Данный программный код читается легче, его многократное использование и обслуживание выполняется гораздо проще, чем использование программного кода на других языках. Додано в НРАТ 2025-11-05 Закрити
Матеріали
Бакалаврська робота
Крамар Іван Ігорович. Кластеризація даних, що збираються з відібраних джерел науково-технічної інформації : публікація 2020-06-01; Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського», 2120U007911
Знайдено документів: 1

Оновлено: 2026-03-20