1 documents found
Information × Registration Number 2122U007071, Article popup.category Опубліковано, Стаття Title MULTILINGUAL TEXT CLASSIFIER USING PRE-TRAINED UNIVERSAL SENTENCE ENCODER MODEL popup.author Орловський О. В.Khalili SohrabОстапов С .Е.Газдюк К. П.Шумиляк Л. М.Orlovskiy O. V.Sohrab KhaliliOstapov S. E.Hazdyuk K. P.Shumylyak L. M. popup.publication 16-10-2022 popup.source_user Журнал "Радіоелектроніка, інформатика, управління" (Національний університет "Запорізька політехніка") popup.source https://ric.zp.edu.ua/article/view/265730 popup.publisher National University "Zaporizhzhia Polytechnic" Description Актуальність. Онлайн-платформи продовжують сьогодні генерувати усе більші обсяги інформації. Автоматизація модерування контенту у таких платформах, у зв’язку з цим, залишається актуальною задачею. Особливої уваги потребують випадки, коли з різних причин, доступно лише невеликі обсяги даних для навчання класифікаторів. У таких випадках необхідно залучати попередньо навчені моделі, які використовували для навчання великі об’єми даних широкого діапазону. У цій роботі досліджено питання застосування попередньо навченої мультимовної моделі Universal Sentence Encoder (USE) як компоненту розробленого нами класифікатора, а також впливу різних параметрів на точність класифікації при навчанні на малому об’ємі даних (~ 0,05% обсягу повного набору). Метод. Для вирішення поставленого завдання використовується відносно новий підхід до навчання, – за допомогою невеликого набору повідомлень. Оскільки текстові повідомлення усе ще домінують як способ передавання інформації, застосовується розроблений класифікатор, навчений на невеликому (~ 0,002 – 0,05% повного набору) обсязі даних. Результати. Показано, що навіть при невеликій кількості прикладів для навчання (36 на клас) за рахунок використання ЕСЕ та оптимальної конфігурації в навчанні можна досягти високої точності класифікації за англійськими та російськими даними, що надзвичайно важливо, коли неможливо зібрати свій власний великий набір даних. Оцінено вплив підходу з використанням USE та набору різних конфігурацій гіперпараметрів на результат класифікатора текстових даних на прикладі наборів даних англійською та російською мовами. Висновки. У ході експериментів показана значна ступінь актуальності правильного підбору гіперпараметрів. Зокрема, у цій роботі розглядалися розмір пакету, оптимізатор, кількість епох навчання та відсоток даних із набору, взятих для навчання класифікатора. У процесі експерименту була обрана оптимальна конфігурація гіперпараметрів, згідно з якою 86,46% точності класифікації за російськомовним набором даних і 91,13% за англомовним відповідно можна досягти за десять секунд навчання ( на час навчання можуть істотно вплинути використовувані технічні засоби). popup.nrat_date 2026-02-27 Close
Article
Опубліковано
Стаття
Орловський О. В.. MULTILINGUAL TEXT CLASSIFIER USING PRE-TRAINED UNIVERSAL SENTENCE ENCODER MODEL : published. 2022-10-16; Журнал "Радіоелектроніка, інформатика, управління" (Національний університет "Запорізька політехніка"), 2122U007071
1 documents found

Updated: 2026-03-21