1 documents found
Information × Registration Number 2125U003989, Article popup.category Опубліковано, Стаття Title NATURAL LANGUAGE PROCESSING OF SOCIAL MEDIA TEXT DATA USING BERT AND XGBOOST popup.author Батюк T. M.Досин Д. Г.Batiuk T.Dosyn D. popup.publication 29-06-2025 popup.source_user Журнал "Радіоелектроніка, інформатика, управління" (Національний університет "Запорізька політехніка") popup.source https://ric.zp.edu.ua/article/view/333014 popup.publisher National University "Zaporizhzhia Polytechnic" Description Актуальність. Зростання обсягу текстових даних у соціальних мережах вимагає розробки ефективних методів аналізу настроїв, здатних враховувати як лексичні, так і контекстуальні залежності. Традиційні підходи до обробки тексту мають обмеження у розумінні семантичних зв’язків між словами, що впливає на точність класифікації. Інтеграція глибоких нейронних мереж для векторизації тексту з ансамблевими алгоритмами машинного навчання та методами інтерпретації результатів дозволяє покращити якість аналізу настроїв.Метою дослідження є розробка та оцінка нового підходу до класифікації настроїв текстових повідомлень, що поєднує Sentence-BERT для глибокої семантичної векторизації, XGBoost для високоточної класифікації, SHAP для пояснення внеску ознак, sentence embedding similarity для оцінки семантичної подібності та λ-регуляризацію для покращення узагальнюючої здатності моделі. Дослідження спрямоване на аналіз впливу цих методів на якість класифікації, визначення найбільш значущих ознак та оптимізацію параметрів для забезпечення балансу між точністю та інтерпретованістю моделі.Метод. У дослідженні використовується Sentence-BERT для перетворення текстових даних у векторний простір із глибокими семантичними зв’язками. Для класифікації настроїв застосовується XGBoost, який забезпечує високу точність та стабільність навіть на нерівномірно розподілених наборах даних. Для пояснення внеску ознак використано метод SHAP, що дозволяє визначити, які фактори найбільше впливають на прогноз. Додатково використовується sentence embedding similarity для порівняння текстів за семантичною подібністю, а λ-регуляризація оптимізує баланс між узагальненням та точністю моделі.Результати. Запропонований підхід демонструє високу ефективність у задачах класифікації настроїв. Значення ROCAUC підтверджує здатність моделі точно розрізняти класи емоційного забарвлення тексту. Використання SHAP забезпечує інтерпретованість результатів, дозволяючи пояснити вплив кожної ознаки на класифікацію. Sentence embedding similarity підтверджує ефективність Sentence-BERT у виявленні семантично подібних текстів, а λ-регуляризація покращує узагальнюючу здатність моделі.Висновки. Дослідження демонструє наукову новизну через комплексне поєднання Sentence-BERT, XGBoost, SHAP, sentence embedding similarity та λ-регуляризації для покращення точності та інтерпретованості аналізу настроїв. Отримані результати підтверджують ефективність запропонованого підходу, що робить його перспективним для застосування у моніторингу громадської думки, автоматизованій модерації контенту та персоналізованих рекомендаційних системах. Подальші дослідження можуть бути спрямовані на адаптацію моделі до специфічних доменів, розширення джерел текстових даних та вдосконалення методів інтерпретації для покращення довіри до автоматизованого аналізу настроїв popup.nrat_date 2026-02-26 Close
Article
Опубліковано
Стаття
Батюк T. M.. NATURAL LANGUAGE PROCESSING OF SOCIAL MEDIA TEXT DATA USING BERT AND XGBOOST : published. 2025-06-29; Журнал "Радіоелектроніка, інформатика, управління" (Національний університет "Запорізька політехніка"), 2125U003989
1 documents found

Updated: 2026-03-25