Знайдено документів: 1
Інформація × Реєстраційний номер 2125U002777, Матеріали видань та локальних репозитаріїв Категорія Бакалаврська робота Назва роботи Система класифікації текстів методами обробки природної мови та машинного навчання за допомогою генеративних змагальних мереж Автор Литовченко Анна ОлександрівнаLytovchenko Anna Oleksandrivna Дата публікації 01-01-2025 Постачальник інформації Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського» Першоджерело https://ela.kpi.ua/handle/123456789/75798 Видання Київ Опис Дипломна робота: 99 с., 17 рис., 12 табл., 25 посилань, додаток. Об’єктом дослідження є багатоміткова класифікація текстів за допомогою генеративних змагальних нейронних мереж.. Предметом дослідження є алгоритми та програмні засоби семантичного кодування й синтетичного збагачення текстових даних (NbAiLab / nb-bert-base, f-VAEGAN-D2, ансамблеві MLP-класифікатори), що визначають точність і стійкість класифікації при дисбалансі категорій. Метою роботи є створення ефективної системи багатоміткової класифікації листів, яка, поєднуючи BERT-ембеддинги, генерацію синтетичних ознак і ансамблеве навчання і коректно розпізнає як добре представлені, так і рідкісні категорії. У ході роботи здійснено обробку багатоміткового датасету електронних листів норвезькою мовою, включаючи токенізацію, лематизацію та векторизацію текстів з використанням BERT-ембеддингів моделі NbAiLab/nb-bert-base. Для покращення класифікації рідкісних категорій застосовано генеративну модель f-VAEGAN-D2, що забезпечила синтетичне збагачення даних. Побудовано та навчено MLP-класифікатор, оптимізований для роботи з розширеним набором ознак. Оцінка за метриками Precision, Recall та F1-score показала покращення точності класифікації. Реалізований програмний прототип має графічний інтерфейс і може інтегруватися в електронні системи документообігу. Проведено функціонально-економічний аналіз, що підтвердив доцільність впровадження розробки Bachelor's thesis: 99 p., 17 figures, 12 tables, 25 references, appendix. The object of the study is multi-label text classification using generative adversarial neural networks. The subject of research is algorithms and software tools for semantic encoding and synthetic augmentation of Norwegian texts (NbAiLab/nb-bert-base, f-VAEGAN-D2, ensemble MLP classifiers) that govern the accuracy and robustness of classification under class-imbalance conditions. The purpose of the work is to develop an efficient system for multi-label e-mail classification that combines BERT embeddings, synthetic feature generation and ensemble learning, accurately recognising both well-represented and rare categories. The study involved processing a multi-label dataset of Norwegian-language emails, including tokenization, lemmatization, and text vectorization using BERT embeddings from the NbAiLab/nb-bert-base model. To improve the classification of rare categories, the generative model f-VAEGAN-D2 was used for synthetic data augmentation. An MLP classifier was built and trained using the enriched feature set. Evaluation using Precision, Recall, and F1-score metrics demonstrated improved classification accuracy. The developed software prototype includes a graphical user interface and can be integrated into electronic document management systems. A functional and economic analysis confirmed the feasibility of implementing the proposed solution. Додано в НРАТ 2025-11-05 Закрити
Матеріали
Бакалаврська робота
Литовченко Анна Олександрівна. Система класифікації текстів методами обробки природної мови та машинного навчання за допомогою генеративних змагальних мереж : публікація 2025-01-01; Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського», 2125U002777
Знайдено документів: 1

Оновлено: 2026-03-18