Знайдено документів: 1
Інформація × Реєстраційний номер 2125U003989, Матеріали видань та локальних репозитаріїв Категорія Опубліковано, Стаття Назва роботи ОБРОБКА ТЕКСТОВИХ ДАНИХ СОЦІАЛЬНИХ МЕДІА НА ПРИРОДНІЙ МОВІ ЗА ДОПОМОГОЮ BERT ТА XGBOOST Автор Батюк T. M.Досин Д. Г.Batiuk T.Dosyn D. Дата публікації 29-06-2025 Постачальник інформації Журнал "Радіоелектроніка, інформатика, управління" (Національний університет "Запорізька політехніка") Першоджерело https://ric.zp.edu.ua/article/view/333014 Видання National University "Zaporizhzhia Polytechnic" Опис Актуальність. Зростання обсягу текстових даних у соціальних мережах вимагає розробки ефективних методів аналізу настроїв, здатних враховувати як лексичні, так і контекстуальні залежності. Традиційні підходи до обробки тексту мають обмеження у розумінні семантичних зв’язків між словами, що впливає на точність класифікації. Інтеграція глибоких нейронних мереж для векторизації тексту з ансамблевими алгоритмами машинного навчання та методами інтерпретації результатів дозволяє покращити якість аналізу настроїв.Метою дослідження є розробка та оцінка нового підходу до класифікації настроїв текстових повідомлень, що поєднує Sentence-BERT для глибокої семантичної векторизації, XGBoost для високоточної класифікації, SHAP для пояснення внеску ознак, sentence embedding similarity для оцінки семантичної подібності та λ-регуляризацію для покращення узагальнюючої здатності моделі. Дослідження спрямоване на аналіз впливу цих методів на якість класифікації, визначення найбільш значущих ознак та оптимізацію параметрів для забезпечення балансу між точністю та інтерпретованістю моделі.Метод. У дослідженні використовується Sentence-BERT для перетворення текстових даних у векторний простір із глибокими семантичними зв’язками. Для класифікації настроїв застосовується XGBoost, який забезпечує високу точність та стабільність навіть на нерівномірно розподілених наборах даних. Для пояснення внеску ознак використано метод SHAP, що дозволяє визначити, які фактори найбільше впливають на прогноз. Додатково використовується sentence embedding similarity для порівняння текстів за семантичною подібністю, а λ-регуляризація оптимізує баланс між узагальненням та точністю моделі.Результати. Запропонований підхід демонструє високу ефективність у задачах класифікації настроїв. Значення ROCAUC підтверджує здатність моделі точно розрізняти класи емоційного забарвлення тексту. Використання SHAP забезпечує інтерпретованість результатів, дозволяючи пояснити вплив кожної ознаки на класифікацію. Sentence embedding similarity підтверджує ефективність Sentence-BERT у виявленні семантично подібних текстів, а λ-регуляризація покращує узагальнюючу здатність моделі.Висновки. Дослідження демонструє наукову новизну через комплексне поєднання Sentence-BERT, XGBoost, SHAP, sentence embedding similarity та λ-регуляризації для покращення точності та інтерпретованості аналізу настроїв. Отримані результати підтверджують ефективність запропонованого підходу, що робить його перспективним для застосування у моніторингу громадської думки, автоматизованій модерації контенту та персоналізованих рекомендаційних системах. Подальші дослідження можуть бути спрямовані на адаптацію моделі до специфічних доменів, розширення джерел текстових даних та вдосконалення методів інтерпретації для покращення довіри до автоматизованого аналізу настроїв Додано в НРАТ 2026-02-26 Закрити
Матеріали
Опубліковано
Стаття
Батюк T. M.. ОБРОБКА ТЕКСТОВИХ ДАНИХ СОЦІАЛЬНИХ МЕДІА НА ПРИРОДНІЙ МОВІ ЗА ДОПОМОГОЮ BERT ТА XGBOOST
:
публікація 2025-06-29;
Журнал "Радіоелектроніка, інформатика, управління" (Національний університет "Запорізька політехніка"), 2125U003989
Знайдено документів: 1
Підписка
Повний текст наразі ще відсутній.
Повідомити вам про надходження повного тексту?
Повідомити вам про надходження повного тексту?
Оновлено: 2026-03-16
