МЕТОД k НАЙБЛИЖЧИХ СУСІДІВ ДЛЯ КЛАСИФІКАЦІЇ ТЕКСТОВИХ ДОКУМЕНТІВ ЗА ЇХ ТЕМАТИКОЮ

1 documents found

Information × Registration Number 2123U011483, Article popup.category Опубліковано, Стаття Title K-NN’S NEAREST NEIGHBORS METHOD FOR CLASSIFYING TEXT DOCUMENTS BY THEIR TOPICS popup.author Бойко Н. І.Михайлишин В. Ю.Boyko N. I.Mykhailyshyn V. Yu. popup.publication 13-10-2023 popup.source_user Журнал "Радіоелектроніка, інформатика, управління" (Національний університет "Запорізька політехніка") popup.source https://ric.zp.edu.ua/article/view/288116 popup.publisher National University "Zaporizhzhia Polytechnic" Description Актуальність. Оптимізація методу найближчих сусідів k-NN для класифікації текстових документів за їх темою, а також розв’язок задачі на основі методу експериментальним шляхом. Мета роботи є вивчення методу найближчих сусідів k-NN для класифікації текстових документів за їх темою. Завданням дослідження є на основі набору даних провести класифікацію текстових документів за їх темою за оптимальний час та з високою точністю. Метод. Метод k-найближчих сусідів – це метричний алгоритм для автоматичної класифікації об’єктів або регресії. Алгоритм k-NN зберігає всі наявні дані та класифікує нову точку на основі відстані між новою точкою та всіма точками в навчальному наборі. Для цього використовується певна метрика відстані, така як Евклідова відстань. У процесі навчання k-NN зберігає всі дані з навчального набору, тому він відноситься до «ледачих» алгоритмів, оскільки навчання відбувається в момент класифікації. Алгоритм не робить ніяких припущень про розподіл даних та він є непараметричним. Завдання алгоритму k-NN полягає в тому, щоб призначити тестовому документу x певну категорію на основі категорій k найближчих сусідів з навчального набору даних. Схожість між тестовим документом x та кожним з найближчих сусідів оцінюється балом категорії, до якої належить сусід. Якщо декілька з k найближчих сусідів належать до однієї категорії, то бал схожості цієї категорії для тестового документа x обчислюється як сума балів категорії для кожного з цих найближчих сусідів. Після цього, категорії ранжуються за балами, і тестовий документ призначається категорії з найвищим балом. Результати. Успішно реалізовано метод k-NN для класифікації текстових документів. Було проведено експерименти з різними методами, що впливають на ефективність k-NN, такими як вибір алгоритму та метрики. Результати експериментів показали, що використання певних методів може покращити точність класифікації та ефективність моделі. Висновки. Відображення результатів на різних метриках та алгоритмах показало, що вибір конкретного алгоритму та метрики може мати значний вплив на точність передбачень. Застосування алгоритму ball tree, а також використання різних метрик, таких як манхетівська або євклідова відстань, може призвести до покращення результатів. Використання кластеризації перед застосуванням k-NN показало позитивний вплив на результати та дозволяє краще групувати дані і зменшує вплив шуму або неправильно класифікованих точок, що призводить до покращення точності та розподілу класів. popup.nrat_date 2026-02-26 Close

Article

Опубліковано

Стаття

K-NN’S NEAREST NEIGHBORS METHOD FOR CLASSIFYING TEXT DOCUMENTS BY THEIR TOPICS

Бойко Н. І.. K-NN’S NEAREST NEIGHBORS METHOD FOR CLASSIFYING TEXT DOCUMENTS BY THEIR TOPICS : published. 2023-10-13; Журнал "Радіоелектроніка, інформатика, управління" (Національний університет "Запорізька політехніка"), 2123U011483

1 documents found

Updated: 2026-03-27

Роздрукувати цю сторінку

National Repository of Academic Texts

The NRAT database:

Reports in the field of scientific and scientific and technical activities

Dissertations for obtaining scientific degrees and abstracts

Materials from publications and local repositories

Search academic texts