Знайдено документів: 1
Інформація × Реєстраційний номер 2119U008554, Матеріали видань та локальних репозитаріїв Категорія Стаття, Опубліковано Назва роботи ВПЛИВ СИНТАКСИЧНИХ ЗВ’ЯЗКІВ У РЕЧЕННЯХ НА ЯКІСТЬ ІДЕНТИФІКАЦІЇ ТОКСИЧНИХ КОМЕНТАРІВ В СОЦІАЛЬНІЙ МЕРЕЖІ Автор Штовба Сергій ДмитровичШтовба Олена ВалеріївнаЯхимович Олександр ВікторовичПетричко Микола ВолодимировичShtovba Serhii DmytrovychShtovba Olena ValeriivnaYakhymovych Oleksandr ViktorovychPetrychko Mykola Volodymyrovych Дата публікації 26-11-2019 Постачальник інформації "Наукові праці Вінницького національного технічного університету" (Вінницький національний технічний університет) Першоджерело https://praci.vntu.edu.ua/index.php/praci/article/view/578 Видання Вінницький національний технічний університет Опис Соціальні мережі все частіше стають середовищем для погроз, образ та інших складових кібербулінгу. В онлайнових соціальних мережах задіяна величезна кількість людей, тому виникає потреба в автоматизації діяльності із захисту користувачів від антисоціального впливу. Одним із важливих напрямків такої діяльності є виявлення токсичних коментарів, що містять погрози, образи, зневагу до оточуючих тощо. Зазвичай ідентифікацію токсичних коментарів здійснюють за статистикою мішка слів та мішка символів. В статті досліджується вплив синтаксичних зв’язків у реченнях на якість ідентифікації токсичних коментарів в соціальній мережі. Під синтаксичними зв’язками розуміються зв'язки із власними назвами, з особовими займенниками, з присвійними займенниками тощо. Всього перевірено двадцять синтаксичних ознак речень. Встановлено, що додаткове врахування трьох специфічних ознак суттєво покращує якість ідентифікації токсичних коментарів. Цими трьома специфічними ознаками є такі: кількість зв'язків з власними назвами в однині, кількість зв'язків, в яких фігурують погані слова та кількість зв'язків між особовими займенниками та поганими словами. Експерименти проведено на основі даних із kaggle-змагання “Toxic Comment Classification Challenge”. Оригінальну kaggle-задачу категоризації токсичних коментарів було модифіковану у задачу класифікації з двома альтернативами: нейтральний коментар та токсичний коментар. Для наших експериментів оригінальну вибірку із 159751 коментарів скорочено до 106590 коментарів через проблеми з автоматичним виділенням синтаксичних ознак тексту. В модифікованій вибірці частка токсичних коментарів становить 12.8%. Для врахування незбалансованості вибірки даних метрикою якості обрано середнє значення частот помилок класифікації кожного типу. Класифікацію здійснено за допомогою дерева рішень. Дерева рішень синтезувалися за двох правил розщеплення: на основі індекса Джині та ентропійного критерію. Додано в НРАТ 2026-04-20 Закрити
Матеріали
Стаття
Опубліковано
Штовба Сергій Дмитрович. ВПЛИВ СИНТАКСИЧНИХ ЗВ’ЯЗКІВ У РЕЧЕННЯХ НА ЯКІСТЬ ІДЕНТИФІКАЦІЇ ТОКСИЧНИХ КОМЕНТАРІВ В СОЦІАЛЬНІЙ МЕРЕЖІ : публікація 2019-11-26; "Наукові праці Вінницького національного технічного університету" (Вінницький національний технічний університет), 2119U008554
Знайдено документів: 1

Оновлено: 2026-04-27