1 documents found
Information × Registration Number 2124U009276, Article popup.category Опубліковано, Стаття Title TECHNOLOGY FOR AUTOMATED CONSTRUCTION OF DOMAIN DICTIONARIES WITH SPECIAL PROCESSING OF SHORT DOCUMENTS popup.author Кунгурцев О. Б.Милейко І. І.Новікова Н. О.Kungurtsev O. B.Mileiko I. I.Novikova N. O. popup.publication 04-01-2024 popup.source_user Журнал "Радіоелектроніка, інформатика, управління" (Національний університет "Запорізька політехніка") popup.source https://ric.zp.edu.ua/article/view/296240 popup.publisher National University "Zaporizhzhia Polytechnic" Description Актуальність. Розглянуто завдання автоматизації побудови словників предметної галузі у процесі виконання програмних проектів на основі аналізу документів з урахуванням їх розміру та форми подання. Мета роботи – підвищення якості словника на основі застосування нової технології, що включає спеціальну обробку коротких документів. Метод. Пропонується модель короткого документа, яка представляє його у вигляді трьох частин: заголовної, змістовної та заключної. У заголовній і заключній частинах зазвичай міститься інформація, що не має відношення до предметної області. Тому запропоновано метод виділення змістовної частини, заснований на використанні множини ключових слів. Розмір короткого документа (його змістовної частини) не дозволяє визначити частотні характеристики слів і виявити багатослівні терміни, частка яких сягає 50% від усіх термінів. Для забезпечення можливості виділення термінів у коротких документах запропоновано метод їх кластеризації, заснований на виділенні іменників та обчисленні їх частотних характеристик. Утворені кластери розглядаються як звичайні документи, оскільки їхній розмір дозволяє виділяти багатослівні терміни. Для виділення термінів запропоновано виділяти в тексті послідовності слів, що містять іменники. Аналіз частот повторення таких послідовностей дозволяє визначити багатослівні терміни. Для визначення тлумачення термінів використано раніше розроблений метод автоматизованого пошуку тлумачень у словниках. Результати. На основі запропонованої моделі та методів створено програмне забезпечення для побудови словника предметної галузі та проведено низку експериментів, що підтверджують ефективність розроблених рішень. Висновки. Проведені експерименти підтвердили працездатність запропонованого програмного забезпечення та дозволяють рекомендувати його до використання на практиці для створення словників предметної галузі різних інформаційних систем. Перспективи подальших досліджень можуть включати побудову корпоративних пошукових систем на основі словників термінів та кластеризації документів.  popup.nrat_date 2026-02-27 Close
Article
Опубліковано
Стаття
Кунгурцев О. Б.. TECHNOLOGY FOR AUTOMATED CONSTRUCTION OF DOMAIN DICTIONARIES WITH SPECIAL PROCESSING OF SHORT DOCUMENTS : published. 2024-01-04; Журнал "Радіоелектроніка, інформатика, управління" (Національний університет "Запорізька політехніка"), 2124U009276
1 documents found

Updated: 2026-02-28