Знайдено документів: 1
Інформація × Реєстраційний номер 2125U002973, Матеріали видань та локальних репозитаріїв Категорія Бакалаврська робота Назва роботи Алгоритми та технології текстово-голосового синтезу Автор Бобовик Денис МаксимовичBobovyk Denys Maksymovych Дата публікації 01-01-2025 Постачальник інформації Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського» Першоджерело https://ela.kpi.ua/handle/123456789/75896 Видання Київ Опис Дипломна робота: 85 с., 12 рис., 2 додатки, 18 посилань. Дипломна робота присвячена дослідженню та реалізації системи текстово-голосового синтезу мовлення на основі сучасних нейронних моделей FastSpeech 2 та HiFi-GAN. Актуальність дослідження зумовлена зростаючою потребою в природному синтезі мовлення для застосувань у цифрових помічниках, навігаційних системах, освіті та інклюзивних технологіях. Метою роботи є побудова високоякісної та швидкої системи TTS, здатної перетворювати текст в аудіо з реалістичним звучанням. У ході дослідження проаналізовано етапи синтезу мовлення, алгоритми генерації спектрограм, нейромережеві моделі та архітектури, а також методи оцінки результатів. Об’єктом дослідження є процес автоматичного синтезу мовлення, а предметом – використання послідовної архітектури FastSpeech 2 та вокодера HiFi-GAN для формування аудіосигналу на основі тексту. Реалізовано повний цикл побудови TTS-системи з використанням корпусу англомовних та українських аудіозаписів, здійснено навчання моделей, підготовку даних та оптимізацію параметрів. Проведено оцінку якості синтезованого мовлення за метриками MOS (Mean Opinion Score) та RTF (Real Time Factor). Результати показали, що система здатна генерувати мовлення високої якості зі швидкістю, що задовольняє вимоги реального часу. Робота має потенціал практичного застосування у голосових інтерфейсах та адаптивних навчальних системах. Thesis: 85 pages, 12 figures, 2 appendices, 18 references. This thesis is dedicated to the study and implementation of a text-to-speech (TTS) synthesis system based on modern neural models FastSpeech 2 and HiFiGAN. The relevance of the research is driven by the growing demand for naturalsounding speech synthesis in digital assistants, navigation systems, education, and inclusive technologies. The aim of the work is to develop a high-quality and fast TTS system capable of converting text into realistic-sounding audio. The study includes an analysis of the stages of speech synthesis, algorithms for spectrogram generation, neural network architectures, and methods for evaluating synthesis results. The object of the study is the process of automatic speech synthesis, and the subject is the use of the sequential FastSpeech 2 architecture and HiFi-GAN vocoder for generating audio from text. A complete TTS system was implemented using English and Ukrainian speech corpora; model training, data preprocessing, and parameter optimization were carried out. The quality of synthesized speech was evaluated using MOS (Mean Opinion Score) and RTF (Real Time Factor) metrics. The results show that the system can generate high-quality speech with a speed suitable for real-time applications. The developed system has potential for practical use in voice interfaces and adaptive learning systems. Додано в НРАТ 2025-11-05 Закрити
Матеріали
Бакалаврська робота
Бобовик Денис Максимович. Алгоритми та технології текстово-голосового синтезу
:
публікація 2025-01-01;
Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського», 2125U002973
Знайдено документів: 1
Підписка
Повний текст наразі ще відсутній.
Повідомити вам про надходження повного тексту?
Повідомити вам про надходження повного тексту?
Оновлено: 2026-03-15
