Знайдено документів: 1
Інформація × Реєстраційний номер 2122U007059, Матеріали видань та локальних репозитаріїв Категорія Опубліковано, Стаття Назва роботи ТЕХНОЛОГІЯ ІДЕНТИФІКАЦІЇ РЕРАЙТУ В ТЕКСТОВОМУ КОНТЕНТІ НА ОСНОВІ МЕТОДІВ МАШИННОГО НАВЧАННЯ Автор Холодна Н. M.Висоцька В. А.Kholodna N.Vysotska V. Дата публікації 13-12-2022 Постачальник інформації Журнал "Радіоелектроніка, інформатика, управління" (Національний університет "Запорізька політехніка") Першоджерело https://ric.zp.edu.ua/article/view/268989 Видання National University "Zaporizhzhia Polytechnic" Опис Актуальність. Перефразований текстовий контенту або рерайт є однією із складних проблем виявлення академічного плагіату. Більшість систем ідентифікації плагіату призначені для виявлення спільних слів, послідовності лінгвістичних одиниць та незначних змін, але не здатні виявити суттєві семантичні та структурні зміни. Тому більшість випадків плагіату із застосуванням перефразування залишаються непоміченими. Мета – розроблення технології виявлення перефразувань у тексті на основі моделі класифікації та методів машинного навчання через використання сіамської нейронної мережі на основі рекурентних та типу Transformer – RoBERTa для аналізу рівня подібності речень текстового контенту. Метод. Для даного дослідження у якості ознак обрані такі метрики семантичної подібності або показники: коефіцієнт Жаккара для спільних N-грам, косинусна відстань між векторними поданнями речень, Word Mover’s Distance, відстані за словниками WordNet, передбачення двох ML-моделей: сіамської нейронної мережі на основі рекурентних та типу Transformer – RoBERTa. Результати. Розроблено інтелектуальну систему виявлення перефразувань у тексті на основі моделі класифікації та методів машинного навчання. Розроблена система використовує принцип стекінгу моделей і інжиніринг ознак (feature engineering). Додаткові ознаки вказують на семантичну приналежність речень або нормовану кількість спільних N-грам. Додатково налаштована (fine-tuned) нейронної мережі RoBERTa (із додатковими повнозв’язними шарами) має меншу чутливість до пар речень, що не є перефразуваннями один одного. Така специфічність моделі може сприяти неправильному звинуваченню у плагіаті або некоректному об’єднанню згенерованого користувачами контенту. Додаткові ознаки збільшують як загальну точність класифікації, так і чутливість моделі до пар тих речень, що не є перефразуваннями один одного. Висновки. Створена модель показує відмінні результати класифікації на тестових даних PAWS: зважена влучність (precision) – 93%, зважена повнота (recall) – 92%, F-міра (F1-score)–92%, точність (accuracy) – 92%. Результати дослідження показали, що NN типу Transformer можуть бути успішно застосовані для виявлення перефразувань у парі текстів із досить високою точністю без потреби додаткового генерування ознак. Додано в НРАТ 2026-02-26 Закрити
Матеріали
Опубліковано
Стаття
Холодна Н. M.. ТЕХНОЛОГІЯ ІДЕНТИФІКАЦІЇ РЕРАЙТУ В ТЕКСТОВОМУ КОНТЕНТІ НА ОСНОВІ МЕТОДІВ МАШИННОГО НАВЧАННЯ : публікація 2022-12-13; Журнал "Радіоелектроніка, інформатика, управління" (Національний університет "Запорізька політехніка"), 2122U007059
Знайдено документів: 1

Оновлено: 2026-03-28