Знайдено документів: 1
Інформація × Реєстраційний номер 2122U007071, Матеріали видань та локальних репозитаріїв Категорія Опубліковано, Стаття Назва роботи МУЛЬТИМОВНИЙ КЛАСИФІКАТОР ТЕКСТУ З ВИКОРИСТАННЯМ ПРЕДТРЕНОВАНОЇ МОДЕЛІ UNIVERSAL SENTENCE ENCODER Автор Орловський О. В.Khalili SohrabОстапов С .Е.Газдюк К. П.Шумиляк Л. М.Orlovskiy O. V.Sohrab KhaliliOstapov S. E.Hazdyuk K. P.Shumylyak L. M. Дата публікації 16-10-2022 Постачальник інформації Журнал "Радіоелектроніка, інформатика, управління" (Національний університет "Запорізька політехніка") Першоджерело https://ric.zp.edu.ua/article/view/265730 Видання National University "Zaporizhzhia Polytechnic" Опис Актуальність. Онлайн-платформи продовжують сьогодні генерувати усе більші обсяги інформації. Автоматизація модерування контенту у таких платформах, у зв’язку з цим, залишається актуальною задачею. Особливої уваги потребують випадки, коли з різних причин, доступно лише невеликі обсяги даних для навчання класифікаторів. У таких випадках необхідно залучати попередньо навчені моделі, які використовували для навчання великі об’єми даних широкого діапазону. У цій роботі досліджено питання застосування попередньо навченої мультимовної моделі Universal Sentence Encoder (USE) як компоненту розробленого нами класифікатора, а також впливу різних параметрів на точність класифікації при навчанні на малому об’ємі даних (~ 0,05% обсягу повного набору). Метод. Для вирішення поставленого завдання використовується відносно новий підхід до навчання, – за допомогою невеликого набору повідомлень. Оскільки текстові повідомлення усе ще домінують як способ передавання інформації, застосовується розроблений класифікатор, навчений на невеликому (~ 0,002 – 0,05% повного набору) обсязі даних. Результати. Показано, що навіть при невеликій кількості прикладів для навчання (36 на клас) за рахунок використання ЕСЕ та оптимальної конфігурації в навчанні можна досягти високої точності класифікації за англійськими та російськими даними, що надзвичайно важливо, коли неможливо зібрати свій власний великий набір даних. Оцінено вплив підходу з використанням USE та набору різних конфігурацій гіперпараметрів на результат класифікатора текстових даних на прикладі наборів даних англійською та російською мовами. Висновки. У ході експериментів показана значна ступінь актуальності правильного підбору гіперпараметрів. Зокрема, у цій роботі розглядалися розмір пакету, оптимізатор, кількість епох навчання та відсоток даних із набору, взятих для навчання класифікатора. У процесі експерименту була обрана оптимальна конфігурація гіперпараметрів, згідно з якою 86,46% точності класифікації за російськомовним набором даних і 91,13% за англомовним відповідно можна досягти за десять секунд навчання ( на час навчання можуть істотно вплинути використовувані технічні засоби). Додано в НРАТ 2026-02-27 Закрити
Матеріали
Опубліковано
Стаття
Орловський О. В.. МУЛЬТИМОВНИЙ КЛАСИФІКАТОР ТЕКСТУ З ВИКОРИСТАННЯМ ПРЕДТРЕНОВАНОЇ МОДЕЛІ UNIVERSAL SENTENCE ENCODER : публікація 2022-10-16; Журнал "Радіоелектроніка, інформатика, управління" (Національний університет "Запорізька політехніка"), 2122U007071
Знайдено документів: 1

Оновлено: 2026-03-28