1 documents found
Information × Registration Number 2125U002777, Article popup.category Бакалаврська робота Title Система класифікації текстів методами обробки природної мови та машинного навчання за допомогою генеративних змагальних мереж (AI translated) popup.author Литовченко Анна ОлександрівнаLytovchenko Anna Oleksandrivna popup.publication 01-01-2025 popup.source_user Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського» popup.source https://ela.kpi.ua/handle/123456789/75798 popup.publisher Київ Description Дипломна робота: 99 с., 17 рис., 12 табл., 25 посилань, додаток. Об’єктом дослідження є багатоміткова класифікація текстів за допомогою генеративних змагальних нейронних мереж.. Предметом дослідження є алгоритми та програмні засоби семантичного кодування й синтетичного збагачення текстових даних (NbAiLab / nb-bert-base, f-VAEGAN-D2, ансамблеві MLP-класифікатори), що визначають точність і стійкість класифікації при дисбалансі категорій. Метою роботи є створення ефективної системи багатоміткової класифікації листів, яка, поєднуючи BERT-ембеддинги, генерацію синтетичних ознак і ансамблеве навчання і коректно розпізнає як добре представлені, так і рідкісні категорії. У ході роботи здійснено обробку багатоміткового датасету електронних листів норвезькою мовою, включаючи токенізацію, лематизацію та векторизацію текстів з використанням BERT-ембеддингів моделі NbAiLab/nb-bert-base. Для покращення класифікації рідкісних категорій застосовано генеративну модель f-VAEGAN-D2, що забезпечила синтетичне збагачення даних. Побудовано та навчено MLP-класифікатор, оптимізований для роботи з розширеним набором ознак. Оцінка за метриками Precision, Recall та F1-score показала покращення точності класифікації. Реалізований програмний прототип має графічний інтерфейс і може інтегруватися в електронні системи документообігу. Проведено функціонально-економічний аналіз, що підтвердив доцільність впровадження розробки Bachelor's thesis: 99 p., 17 figures, 12 tables, 25 references, appendix. The object of the study is multi-label text classification using generative adversarial neural networks. The subject of research is algorithms and software tools for semantic encoding and synthetic augmentation of Norwegian texts (NbAiLab/nb-bert-base, f-VAEGAN-D2, ensemble MLP classifiers) that govern the accuracy and robustness of classification under class-imbalance conditions. The purpose of the work is to develop an efficient system for multi-label e-mail classification that combines BERT embeddings, synthetic feature generation and ensemble learning, accurately recognising both well-represented and rare categories. The study involved processing a multi-label dataset of Norwegian-language emails, including tokenization, lemmatization, and text vectorization using BERT embeddings from the NbAiLab/nb-bert-base model. To improve the classification of rare categories, the generative model f-VAEGAN-D2 was used for synthetic data augmentation. An MLP classifier was built and trained using the enriched feature set. Evaluation using Precision, Recall, and F1-score metrics demonstrated improved classification accuracy. The developed software prototype includes a graphical user interface and can be integrated into electronic document management systems. A functional and economic analysis confirmed the feasibility of implementing the proposed solution. popup.nrat_date 2025-11-05 Close
Article
Бакалаврська робота
Литовченко Анна Олександрівна. Система класифікації текстів методами обробки природної мови та машинного навчання за допомогою генеративних змагальних мереж (AI translated) : published. 2025-01-01; Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського», 2125U002777
1 documents found

Updated: 2026-03-25