1 documents found
Information × Registration Number 2123U011500, Article popup.category Опубліковано, Стаття Title UKRAINIAN LANGUAGE TWEETS ANALYSIS TECHNOLOGY FOR PUBLIC OPINION DYNAMICS CHANGE PREDICTION BASED ON MACHINE LEARNING popup.author Прокіпчук О. А.Висоцька В. А.Prokipchuk O.Vysotska V. popup.publication 30-06-2023 popup.source_user Журнал "Радіоелектроніка, інформатика, управління" (Національний університет "Запорізька політехніка") popup.source https://ric.zp.edu.ua/article/view/283495 popup.publisher National University "Zaporizhzhia Polytechnic" Description Актуальність. Автоматизація дослідження громадської думки дозволить не тільки зменшити кількість ручної праці, а й отримувати часові зрізи результатів без додаткових зусиль. Оскільки потрібно уникнути прямої взаємодії з респондентами, громадську думку необхідно аналізувати на основі джерел її вільного вираження. Соціальні мережі чудово підходять на цю роль, так як там люди вільно публікують свої думки або емоційно правдиво реагують на опубліковану інформації щодо певних подій. Статистика показує, що даних із соціальних мереж недостатньо для отримання повноцінного результату, бо чималий відсоток людей не користуються соціальними мережами. Проте автоматизація дослідження навіть такого прошарку населення уже є хорошим результатом для аналізу динаміки змін громадської думки відповідно подій в країні/світі та відповідно для корегування в подальшому процесів державного управління. Мета дослідження – розроблення технології аналізу україномовного потоку контенту в соціальних мережах для дослідження громадської думки на основі знаходження кластеризованих тематичних груп твітів. Метод. В статті розроблено технолгію пошуку трендів твітів на основі кластеризації, що формує потік даних у вигляді коротких репрезентацій кластерів та їхньої популярності для подальшого дослідження громадської думки. Описано ефективний підхід збору твітів, їх фільтрації, очищення та попереднього опрацювання на основі порівняльного аналізу алгоритмів Bag of Words, TF-IDF та BERT. Визначено вплив стемінгу та лематизації на якість отриманих кластерів. А також знайдено оптимальні поєднання методів кластеризації (ції K-Means, Agglomerative Hierarchical Clustering та HDBSCAN) та векторизації твітів на основі аналізу 27 кластеризацій однієї вибірки даних. Обрано спосіб подання кластерів твітів у короткому форматі. Результати. Найкращі результати показали алгоритми, що використовують Відстань Левенштейна, тобто fuzz sort, fuzz set та levenshtein. Дані алгоритми швидко здійснюють перевірки, мають більшу різницю подібностей, тож можна точніше визначити межу подібності. Згідно з результатами проведених кластеризацій, оптимальними рішеннями є використання алгоритму кластеризації HDBSCAN та алгоритму векторизації BERT для досягнення найточніших результатів, та використання K-Means разом із TF-IDF для досягнення найкращої швидкодії із оптимальним результатом. Для зменшення часу виконання можна застосовувати стемінг. Висновки. В даному дослідженні експериментально знайдено оптимальні варіанти для порівняння відбитків кластерів серед таких методів пошуку подібності: Fuzz Sort, Fuzz Set, Levenshtein, Jaro Winkler, Jaccard, Sorensen, Cosine, Sift4. У деяких алгоритмів середня подібність відбитків сягає вище 70%. Знайдено 3 ефективні інструменти для порівняння їхньої подібності, так як вони показують достатню відмінність між порівняннями подібних та різних кластерів (> 20%). На основі обраних ефективних методів, успішно проведено аналіз трендів для 90 000 твітів за 7 днів для 5 тем тижня за допомогою KMeans та TF-IDF для кластеризації та векторизації, а також fuzz sort для порівняння відбитків кластерів із межою подібності 55%. popup.nrat_date 2026-02-27 Close
Article
Опубліковано
Стаття
Прокіпчук О. А.. UKRAINIAN LANGUAGE TWEETS ANALYSIS TECHNOLOGY FOR PUBLIC OPINION DYNAMICS CHANGE PREDICTION BASED ON MACHINE LEARNING
:
published. 2023-06-30;
Журнал "Радіоелектроніка, інформатика, управління" (Національний університет "Запорізька політехніка"), 2123U011500
1 documents found
search.subscribing
search.subscribe_text
Updated: 2026-03-17
