ТЕХНОЛОГІЯ ІДЕНТИФІКАЦІЇ РЕРАЙТУ В ТЕКСТОВОМУ КОНТЕНТІ НА ОСНОВІ МЕТОДІВ МАШИННОГО НАВЧАННЯ

1 documents found

Information × Registration Number 2122U007059, Article popup.category Опубліковано, Стаття Title REWRITING IDENTIFICATION TECHNOLOGY FOR TEXT CONTENT BASED ON MACHINE LEARNING METHODS popup.author Холодна Н. M.Висоцька В. А.Kholodna N.Vysotska V. popup.publication 13-12-2022 popup.source_user Журнал "Радіоелектроніка, інформатика, управління" (Національний університет "Запорізька політехніка") popup.source https://ric.zp.edu.ua/article/view/268989 popup.publisher National University "Zaporizhzhia Polytechnic" Description Актуальність. Перефразований текстовий контенту або рерайт є однією із складних проблем виявлення академічного плагіату. Більшість систем ідентифікації плагіату призначені для виявлення спільних слів, послідовності лінгвістичних одиниць та незначних змін, але не здатні виявити суттєві семантичні та структурні зміни. Тому більшість випадків плагіату із застосуванням перефразування залишаються непоміченими. Мета – розроблення технології виявлення перефразувань у тексті на основі моделі класифікації та методів машинного навчання через використання сіамської нейронної мережі на основі рекурентних та типу Transformer – RoBERTa для аналізу рівня подібності речень текстового контенту. Метод. Для даного дослідження у якості ознак обрані такі метрики семантичної подібності або показники: коефіцієнт Жаккара для спільних N-грам, косинусна відстань між векторними поданнями речень, Word Mover’s Distance, відстані за словниками WordNet, передбачення двох ML-моделей: сіамської нейронної мережі на основі рекурентних та типу Transformer – RoBERTa. Результати. Розроблено інтелектуальну систему виявлення перефразувань у тексті на основі моделі класифікації та методів машинного навчання. Розроблена система використовує принцип стекінгу моделей і інжиніринг ознак (feature engineering). Додаткові ознаки вказують на семантичну приналежність речень або нормовану кількість спільних N-грам. Додатково налаштована (fine-tuned) нейронної мережі RoBERTa (із додатковими повнозв’язними шарами) має меншу чутливість до пар речень, що не є перефразуваннями один одного. Така специфічність моделі може сприяти неправильному звинуваченню у плагіаті або некоректному об’єднанню згенерованого користувачами контенту. Додаткові ознаки збільшують як загальну точність класифікації, так і чутливість моделі до пар тих речень, що не є перефразуваннями один одного. Висновки. Створена модель показує відмінні результати класифікації на тестових даних PAWS: зважена влучність (precision) – 93%, зважена повнота (recall) – 92%, F-міра (F1-score)–92%, точність (accuracy) – 92%. Результати дослідження показали, що NN типу Transformer можуть бути успішно застосовані для виявлення перефразувань у парі текстів із досить високою точністю без потреби додаткового генерування ознак. popup.nrat_date 2026-02-26 Close

Article

Опубліковано

Стаття

REWRITING IDENTIFICATION TECHNOLOGY FOR TEXT CONTENT BASED ON MACHINE LEARNING METHODS

Холодна Н. M.. REWRITING IDENTIFICATION TECHNOLOGY FOR TEXT CONTENT BASED ON MACHINE LEARNING METHODS : published. 2022-12-13; Журнал "Радіоелектроніка, інформатика, управління" (Національний університет "Запорізька політехніка"), 2122U007059

1 documents found

Updated: 2026-04-11

Роздрукувати цю сторінку

National Repository of Academic Texts

The NRAT database:

Reports in the field of scientific and scientific and technical activities

Dissertations for obtaining scientific degrees and abstracts

Materials from publications and local repositories

Search academic texts