Знайдено документів: 1
Інформація × Реєстраційний номер 0825U001587, Дисертація доктора філософії На здобуття Доктор філософії Дата захисту 26-06-2025 Статус Наказ про видачу диплома Назва роботи Методи та інформаційна технологія предметно-орієнтованого аналізу природномовних текстів. Здобувач Бочарова Майя Юріївна, Керівник Малахов Євгеній Валерійович Опонент Арсірій Олена Олександрівна Опонент Висоцька Вікторія Анатоліївна Опонент Бісікало Олег Володимирович Рецензент Шпінарева Ірина Михайлівна Опис У дисертаційній роботі представлені результати проведених здобувачем досліджень, які виконують актуальне наукове завдання створення моделей та методів предметно-орієнтованого аналізу природномовних текстів, яке має істотне значення для розвитку інформаційних технологій. У вступі дисертації обґрунтовано актуальність дослідження за темою предметно-орієнтованого аналізу природномовних текстів, сформульовані мета, задачі та методи дослідження, наведено наукову новизну та практичне значення отриманих результатів, зазначено особистий внесок здобувача. У першому розділі роботи досліджено актуальний стан проблеми автоматизованого аналізу документів в сфері управління персоналом із застосуванням штучного інтелекту. Показано, що обробка резюме для витягнення ключової інформації, зіставлення вакансій та резюме є необхідним елементом підвищення ефективності рекрутингу і перспективним напрямком для подальшого удосконалення і розвитку. Показано, що застосування моделей, які використовують компʼютерний зір, не є доцільним для обробки візуально насичених документів у сфері управління людськими ресурсами. На основі аналізу літературних джерел обґрунтована доцільність використання контексту під час моделювання подань фраз. Висвітлена проблема обробки документів, обсяг яких перевищує ліміт моделей, які використовуються для їх обробки. Показано, що відсутність даних щодо впливу обсягу тренувальних зразків при автоматичній їх генерації (з використанням великих мовних моделей) на якість сумаризації документів у домені управління персоналом потребує дослідження в цьому напрямку. Потребують дослідження підходи некерованого попереднього тренування з використанням структури документів, а також функції втрат, які використовуються для попереднього тренування (зважена функція втрат). Відзначена важливість англійської мови для поширення набутих знань щодо використання штучного інтелекту у рекрутингу. Встановлено необхідність удосконалення крос-лінгвістичної дистиляції векторних подань для підвищення ефективності рекрутингу із застосуванням штучного інтелекту. Встановлено доцільність дослідження впливу дистиляції на показники швидкості та якості етапів технології обробки природномовних текстів щодо аналізу резюме та зіставлення з вимогами вакансій. У другому розділі розроблено методи та моделі для предметно-орієнтованої обробки природномовних текстів. В тому числі представлено новий метод безпосередньої інтеграції параметрів про стильові ознаки, де додаткові дискретні ознаки векторизуються і передаються в архітектуру “Трансформер” разом із позиційними і токеновими поданнями. Запропоновано новий метод тренування подань назв посад, що базується на використання фраз навичок, які зазначені в описі роботи. Цей метод базується на введенні спеціального токена для виділення та представлення кожної навички у поєднанні з контрастним тренуванням з метою зіставлення усередненого подання навичок та назви посади з одного опису роботи. Запропоновано новий метод некерованого навчання моделі з використанням структури документів. На відміну від традиційного методу, в якій позитивні пари для подальшого контрастного навчання вибирають з документу випадковим чином, запропонований метод базуються на використанні структури документу. Запропоновано новий метод автоматичного створення датасету вакансія-резюме, який полягає у використанні структури документа і визначеного опису останньої ролі та перетворення цього запису на опис вакансій з використанням великої мовної моделі. Запропоновано метод скорочення тексту з урахуванням структури документу та ключових фраз. Цей метод полягає у скороченні кожної секції пропорційно до її відсоткового внеску у загальну довжину резюме на основі виділення ключових фраз. Розроблено метод некерованого попереднього тренування для сумаризації документів у сфері управління персоналом. Цей метод полягає у використанні секції “анотація” з резюме для некерованого тренування моделі сумаризації, а також у застосуванні зваженої функції втрат, яка підвищує вагомість для токенів, які формують ключові фрази. У третьому розділі представлена інформаційна технологія предметно-орієнтованого аналізу природномовних текстів, яка може бути застосована за двома напрямками: вироблення рекомендацій резюме в умовах відсутності рекрутера, та інтенсифікації процесу відбору та ранжування резюме рекрутером, що дає можливість рекрутерам швидко та зручно ознайомлюватися з рекомендованими кандидатами та відфільтровувати їх. Представлена технологія є послідовністю застосування наступних етапів: “Сегментація”, “Парсинг”, “Сумаризація”, “Векторизація”. В результаті застосування цих етапів документ перетворюється на сукупність атрибутів, анотації та векторного подання, які зберігаються у векторній базі даних. Показано, що для оцінювання етапів технології “AI ResJobFit” необхідно обчислювати наступні показники: F1, Recall@N, ???, MRR, nDCG, RougeN. Дата реєстрації 2025-05-08 Додано в НРАТ 2025-05-08 Закрити
Дисертація доктор філос.
Бочарова Майя Юріївна. Методи та інформаційна технологія предметно-орієнтованого аналізу природномовних текстів. : Доктор філософії : спец.. 122 - Комп’ютерні науки : дата захисту 2025-06-26; Статус: Захищена; Одеський національний університет імені І. І. Мечникова. – Одеса, 0825U001587.
Знайдено документів: 1

Оновлено: 2026-03-17