Знайдено документів: 1
Інформація × Реєстраційний номер 2123U011483, Матеріали видань та локальних репозитаріїв Категорія Опубліковано, Стаття Назва роботи МЕТОД k НАЙБЛИЖЧИХ СУСІДІВ ДЛЯ КЛАСИФІКАЦІЇ ТЕКСТОВИХ ДОКУМЕНТІВ ЗА ЇХ ТЕМАТИКОЮ Автор Бойко Н. І.Михайлишин В. Ю.Boyko N. I.Mykhailyshyn V. Yu. Дата публікації 13-10-2023 Постачальник інформації Журнал "Радіоелектроніка, інформатика, управління" (Національний університет "Запорізька політехніка") Першоджерело https://ric.zp.edu.ua/article/view/288116 Видання National University "Zaporizhzhia Polytechnic" Опис Актуальність. Оптимізація методу найближчих сусідів k-NN для класифікації текстових документів за їх темою, а також розв’язок задачі на основі методу експериментальним шляхом. Мета роботи є вивчення методу найближчих сусідів k-NN для класифікації текстових документів за їх темою. Завданням дослідження є на основі набору даних провести класифікацію текстових документів за їх темою за оптимальний час та з високою точністю. Метод. Метод k-найближчих сусідів – це метричний алгоритм для автоматичної класифікації об’єктів або регресії. Алгоритм k-NN зберігає всі наявні дані та класифікує нову точку на основі відстані між новою точкою та всіма точками в навчальному наборі. Для цього використовується певна метрика відстані, така як Евклідова відстань. У процесі навчання k-NN зберігає всі дані з навчального набору, тому він відноситься до «ледачих» алгоритмів, оскільки навчання відбувається в момент класифікації. Алгоритм не робить ніяких припущень про розподіл даних та він є непараметричним. Завдання алгоритму k-NN полягає в тому, щоб призначити тестовому документу x певну категорію на основі категорій k найближчих сусідів з навчального набору даних. Схожість між тестовим документом x та кожним з найближчих сусідів оцінюється балом категорії, до якої належить сусід. Якщо декілька з k найближчих сусідів належать до однієї категорії, то бал схожості цієї категорії для тестового документа x обчислюється як сума балів категорії для кожного з цих найближчих сусідів. Після цього, категорії ранжуються за балами, і тестовий документ призначається категорії з найвищим балом. Результати. Успішно реалізовано метод k-NN для класифікації текстових документів. Було проведено експерименти з різними методами, що впливають на ефективність k-NN, такими як вибір алгоритму та метрики. Результати експериментів показали, що використання певних методів може покращити точність класифікації та ефективність моделі. Висновки. Відображення результатів на різних метриках та алгоритмах показало, що вибір конкретного алгоритму та метрики може мати значний вплив на точність передбачень. Застосування алгоритму ball tree, а також використання різних метрик, таких як манхетівська або євклідова відстань, може призвести до покращення результатів. Використання кластеризації перед застосуванням k-NN показало позитивний вплив на результати та дозволяє краще групувати дані і зменшує вплив шуму або неправильно класифікованих точок, що призводить до покращення точності та розподілу класів. Додано в НРАТ 2026-02-26 Закрити
Матеріали
Опубліковано
Стаття
Бойко Н. І.. МЕТОД k НАЙБЛИЖЧИХ СУСІДІВ ДЛЯ КЛАСИФІКАЦІЇ ТЕКСТОВИХ ДОКУМЕНТІВ ЗА ЇХ ТЕМАТИКОЮ : публікація 2023-10-13; Журнал "Радіоелектроніка, інформатика, управління" (Національний університет "Запорізька політехніка"), 2123U011483
Знайдено документів: 1

Оновлено: 2026-03-19