1 documents found
Information × Registration Number 0825U001587, PhD dissertation Status Доктор філософії Date 26-06-2025 popup.evolution o Title Methods and information technology of subject-oriented analysis of natural language texts. Author Maiia Bocharova, popup.head Eugene Malakhov popup.opponent Olena Arsirii popup.opponent Viktoria Vysotska popup.opponent Oleh Bisikalo popup.review Iryna Shpinareva Description У дисертаційній роботі представлені результати проведених здобувачем досліджень, які виконують актуальне наукове завдання створення моделей та методів предметно-орієнтованого аналізу природномовних текстів, яке має істотне значення для розвитку інформаційних технологій. У вступі дисертації обґрунтовано актуальність дослідження за темою предметно-орієнтованого аналізу природномовних текстів, сформульовані мета, задачі та методи дослідження, наведено наукову новизну та практичне значення отриманих результатів, зазначено особистий внесок здобувача. У першому розділі роботи досліджено актуальний стан проблеми автоматизованого аналізу документів в сфері управління персоналом із застосуванням штучного інтелекту. Показано, що обробка резюме для витягнення ключової інформації, зіставлення вакансій та резюме є необхідним елементом підвищення ефективності рекрутингу і перспективним напрямком для подальшого удосконалення і розвитку. Показано, що застосування моделей, які використовують компʼютерний зір, не є доцільним для обробки візуально насичених документів у сфері управління людськими ресурсами. На основі аналізу літературних джерел обґрунтована доцільність використання контексту під час моделювання подань фраз. Висвітлена проблема обробки документів, обсяг яких перевищує ліміт моделей, які використовуються для їх обробки. Показано, що відсутність даних щодо впливу обсягу тренувальних зразків при автоматичній їх генерації (з використанням великих мовних моделей) на якість сумаризації документів у домені управління персоналом потребує дослідження в цьому напрямку. Потребують дослідження підходи некерованого попереднього тренування з використанням структури документів, а також функції втрат, які використовуються для попереднього тренування (зважена функція втрат). Відзначена важливість англійської мови для поширення набутих знань щодо використання штучного інтелекту у рекрутингу. Встановлено необхідність удосконалення крос-лінгвістичної дистиляції векторних подань для підвищення ефективності рекрутингу із застосуванням штучного інтелекту. Встановлено доцільність дослідження впливу дистиляції на показники швидкості та якості етапів технології обробки природномовних текстів щодо аналізу резюме та зіставлення з вимогами вакансій. У другому розділі розроблено методи та моделі для предметно-орієнтованої обробки природномовних текстів. В тому числі представлено новий метод безпосередньої інтеграції параметрів про стильові ознаки, де додаткові дискретні ознаки векторизуються і передаються в архітектуру “Трансформер” разом із позиційними і токеновими поданнями. Запропоновано новий метод тренування подань назв посад, що базується на використання фраз навичок, які зазначені в описі роботи. Цей метод базується на введенні спеціального токена для виділення та представлення кожної навички у поєднанні з контрастним тренуванням з метою зіставлення усередненого подання навичок та назви посади з одного опису роботи. Запропоновано новий метод некерованого навчання моделі з використанням структури документів. На відміну від традиційного методу, в якій позитивні пари для подальшого контрастного навчання вибирають з документу випадковим чином, запропонований метод базуються на використанні структури документу. Запропоновано новий метод автоматичного створення датасету вакансія-резюме, який полягає у використанні структури документа і визначеного опису останньої ролі та перетворення цього запису на опис вакансій з використанням великої мовної моделі. Запропоновано метод скорочення тексту з урахуванням структури документу та ключових фраз. Цей метод полягає у скороченні кожної секції пропорційно до її відсоткового внеску у загальну довжину резюме на основі виділення ключових фраз. Розроблено метод некерованого попереднього тренування для сумаризації документів у сфері управління персоналом. Цей метод полягає у використанні секції “анотація” з резюме для некерованого тренування моделі сумаризації, а також у застосуванні зваженої функції втрат, яка підвищує вагомість для токенів, які формують ключові фрази. У третьому розділі представлена інформаційна технологія предметно-орієнтованого аналізу природномовних текстів, яка може бути застосована за двома напрямками: вироблення рекомендацій резюме в умовах відсутності рекрутера, та інтенсифікації процесу відбору та ранжування резюме рекрутером, що дає можливість рекрутерам швидко та зручно ознайомлюватися з рекомендованими кандидатами та відфільтровувати їх. Представлена технологія є послідовністю застосування наступних етапів: “Сегментація”, “Парсинг”, “Сумаризація”, “Векторизація”. В результаті застосування цих етапів документ перетворюється на сукупність атрибутів, анотації та векторного подання, які зберігаються у векторній базі даних. Показано, що для оцінювання етапів технології “AI ResJobFit” необхідно обчислювати наступні показники: F1, Recall@N, ???, MRR, nDCG, RougeN. Registration Date 2025-05-08 popup.nrat_date 2025-05-08 Close
PhD dissertation
Maiia Bocharova. Methods and information technology of subject-oriented analysis of natural language texts. : Доктор філософії : spec.. 122 - Комп’ютерні науки : presented. 2025-06-26; popup.evolution: .; Odesa I.I. Mechnikov National University. – Одеса, 0825U001587.
1 documents found

Updated: 2026-03-23