Знайдено документів: 1
Інформація × Реєстраційний номер 2125U003943, Матеріали видань та локальних репозитаріїв Категорія Опубліковано, Стаття Назва роботи ДОСЛІДЖЕННЯ ГІБРИДНОЇ МОДЕЛІ LSTM-CNN-ATTENTION ДЛЯ КЛАСИФІКАЦІЇ ВЕБ-КОНТЕНТУ НА ОСНОВІ ТЕКСТУ Автор Кузь М. В.Лазарович І. М.Козленко М. І.Пікуляк М. В.Кваснюк А. Д.Kuz M. V.Lazarovych I. M.Kozlenko M. I.Pikuliak M. V.Kvasniuk A. D. Дата публікації 24-12-2025 Постачальник інформації Журнал "Радіоелектроніка, інформатика, управління" (Національний університет "Запорізька політехніка") Першоджерело https://ric.zp.edu.ua/article/view/346199 Видання National University "Zaporizhzhia Polytechnic" Опис Актуальність. Класифікація веб-контенту на основі тексту відіграє ключову роль у різних завданнях обробки природної мови (NLP), включаючи виявлення фейкових новин, фільтрацію спаму, категоризацію контенту та автоматизовану модерацію. Оскільки обсяг і складність текстових даних в Інтернеті продовжують зростати, традиційні підходи до класифікації – особливо ті, що спираються на ручне створення ознак або поверхневі методи навчання – мають труднощі в уловлюванні тонких семантичних зв’язків і структурної мінливості сучасного веб-контенту. Ці обмеження призводять до зниження адаптивності та поганої здатності до узагальнення на реальних даних. Тому існує чітка потреба в удосконалених моделях, які можуть одночасно навчатися локальним мовним патернам і розуміти ширший контекстуальний зміст веб-тексту.Мета роботи – підвищення точності та узагальнювальних властивостей моделей класифікації веб-контенту на основі тексту шляхом використання передових технік глибинного навчання. Завданням є покращення витягування локальних та глобальних ознак тексту та навчання послідовностей, що дозволить створити більш ефективну та точну модель для класифікації веб-сторінок з урахуванням їх змісту та контексту.Метод. Це дослідження представляє гібридну архітектуру глибокого навчання, яка інтегрує мережі Long Short-Term Memory (LSTM), згорткові нейронні мережі (CNN) та механізм уваги для покращення класифікації веб-контенту на основі тексту. Для подання слів використовуються попередньо навчений вектор GloVe, який зберігає семантичну подібність. Згорткова мережа (CNN) видобуває локальні патерни n-грам і лексичні ознаки, в той час як LSTM моделює довготривалі залежності та послідовну структуру. Інтегрований механізм уваги дозволяє моделі вибірково фокусуватися на найважливіших частинах вхідної послідовності. Модель була оцінена за допомогою датасету, що складається з понад 10 000 веб-сторінок на основі HTML, позначених як легітимні або фейкові. Для оцінки стійкості та узагальненості запропонованого рішення використовувалася 5-кратна крос-валідація.Результати. Експериментальні результати показують, що гібридна модель LSTM-CNN-Attention досягла відмінних результатів, з точністю 0,98, точністю (precision) 0,94, відзивом (recall) 0,92 і F1-мірою 0,93. Ці результати перевершують ефективність базових моделей, що спираються лише на CNN, LSTM або трансформерні класифікатори, такі як BERT. Поєднання компонентів нейронних мереж дозволило моделі ефективно захоплювати як дрібні текстові структури, так і ширший семантичний контекст. Крім того, використання векторів GloVe надало ефективне та дієве подання текстових даних, роблячи модель придатною для інтеграції в системи з вимогами до реального часу або майже реального часу.Висновки. Запропонована гібридна архітектура демонструє високу ефективність у класифікації веб-контенту на основі тексту, особливо в завданнях, що вимагають одночасного видобутку синтаксичних ознак та семантичної інтерпретації. Поєднуючи згорткові, рекурентні та засновані на увазі механізми, модель долає обмеження окремих архітектур і досягає покращеного узагальнення. Ці висновки підтримують більш широке використання гібридних підходів глибокого навчання в додатках NLP, особливо там, де потрібно обробляти та класифікувати складні, неструктуровані текстові дані з високою надійністю. Додано в НРАТ 2026-02-09 Закрити
Матеріали
Опубліковано
Стаття
Кузь М. В.. ДОСЛІДЖЕННЯ ГІБРИДНОЇ МОДЕЛІ LSTM-CNN-ATTENTION ДЛЯ КЛАСИФІКАЦІЇ ВЕБ-КОНТЕНТУ НА ОСНОВІ ТЕКСТУ
:
публікація 2025-12-24;
Журнал "Радіоелектроніка, інформатика, управління" (Національний університет "Запорізька політехніка"), 2125U003943
Знайдено документів: 1
Підписка
Повний текст наразі ще відсутній.
Повідомити вам про надходження повного тексту?
Повідомити вам про надходження повного тексту?
Оновлено: 2026-03-20
