Знайдено документів: 1
Інформація × Реєстраційний номер 2120U009255, Матеріали видань та локальних репозитаріїв Категорія Опубліковано, Стаття Назва роботи КЛАСТЕРИЗАЦІЯ ТЕКСТІВ ІЗ ВИОКРЕМЛЕННЯМ ТЕМ ТА АНОТАЦІЯ КЛАСТЕРІВ ЗА ДОПОМОГОЮ КОНТЕКСТУАЛЬНИХ СЛІВ-ВЕКТОРІВ Автор Остапюк З. В.Коротєєва Т. О.Ostapiuk Z. V.Korotyeyeva T. O. Дата публікації 22-12-2020 Постачальник інформації Журнал "Радіоелектроніка, інформатика, управління" (Національний університет "Запорізька політехніка") Першоджерело https://ric.zp.edu.ua/article/view/218564 Видання National University "Zaporizhzhia Polytechnic" Опис Актуальність. У сучасній інформаційній ері все частіше виникає проблема аналізу великих обсягів текстових даних та їх групування із урахуванням семантичної схожості. Як результат, збільшується необхідність в надійних алгоритмах аналізу тексту, а саме – для кластеризації та виокремлення ключових слів із текстових даних. Незважаючи на недавній прогрес у галузі опрацювання мови, результати нових нейронних методів складно інтерпретувати при використанні для завдання кластеризації, тоді як традиційні методи розподіленої семантики та підрахунку слів, як правило, не враховують контекстну інформацію.Метою роботи є розробити методи кластеризації тексту, результати яких можна легко інтерпретувати, та анотації кластерів із врахуванням семантичної подібності, які не потребують додаткового навчання на наборах даних користувача.Метод. Щоб вирішити завдання кластеризації тексту, ми використовуємо контекстуалізовані слова-вектори та аналізуємо їх еволюцію між шарами попередньо натренованих моделей трансформерів. Ми шукаємо схожі лексеми у всьому корпусі за допомогою слів-векторів та формуємо теми, які можуть бути присутні у кількох реченнях. Ми об’єднуємо теми так, що речення, які поділяють багато тем, присвоюються одному кластеру. Оскільки одне речення може містити декілька тем, воно може бути присутнім у кількох кластерах одночасно. Аналогічно, для створення анотацій для існуючого кластера ми використовуємо слова-вектори, щоб упорядкувати слова залежно від того, наскільки добре вони описують кластер. Для цього ми пропонуємо нову міру відповідності кластеру – ранг слова.Результати. Описано та реалізовано новий підхід кластеризації тексту. Він здатний віднести один текст до одного та більше кластерів на основі семантичної подібності з іншими текстами групи. Розроблено та застосовано підхід до виокремлення ключових слів як для кластеризації тексту, так і для завдання анотації кластерів. Отримані кластери анотовані та можуть бути інтерпретовані через терміни, з яких сформовані відповідні теми.Висновки. Оцінка на різних наборах даних продемонструвала застосовність, відповідність та легкість інтерпретації отриманих результатів. Описано переваги та можливості вдосконалення запропонованих методів. Були надані рекомендації щодо використання методів, а також можливі їх модифікації.   Додано в НРАТ 2026-02-09 Закрити
Матеріали
Опубліковано
Стаття
Остапюк З. В.. КЛАСТЕРИЗАЦІЯ ТЕКСТІВ ІЗ ВИОКРЕМЛЕННЯМ ТЕМ ТА АНОТАЦІЯ КЛАСТЕРІВ ЗА ДОПОМОГОЮ КОНТЕКСТУАЛЬНИХ СЛІВ-ВЕКТОРІВ : публікація 2020-12-22; Журнал "Радіоелектроніка, інформатика, управління" (Національний університет "Запорізька політехніка"), 2120U009255
Знайдено документів: 1

Оновлено: 2026-03-15