Алгоритми та технології текстово-голосового синтезу

1 documents found

Information × Registration Number 2125U002973, Article popup.category Бакалаврська робота Title Algorithms and Technologies for Text-to-Speech Synthesis (AI translated) popup.author Бобовик Денис МаксимовичBobovyk Denys Maksymovych popup.publication 01-01-2025 popup.source_user Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського» popup.source https://ela.kpi.ua/handle/123456789/75896 popup.publisher Київ Description Дипломна робота: 85 с., 12 рис., 2 додатки, 18 посилань. Дипломна робота присвячена дослідженню та реалізації системи текстово-голосового синтезу мовлення на основі сучасних нейронних моделей FastSpeech 2 та HiFi-GAN. Актуальність дослідження зумовлена зростаючою потребою в природному синтезі мовлення для застосувань у цифрових помічниках, навігаційних системах, освіті та інклюзивних технологіях. Метою роботи є побудова високоякісної та швидкої системи TTS, здатної перетворювати текст в аудіо з реалістичним звучанням. У ході дослідження проаналізовано етапи синтезу мовлення, алгоритми генерації спектрограм, нейромережеві моделі та архітектури, а також методи оцінки результатів. Об’єктом дослідження є процес автоматичного синтезу мовлення, а предметом – використання послідовної архітектури FastSpeech 2 та вокодера HiFi-GAN для формування аудіосигналу на основі тексту. Реалізовано повний цикл побудови TTS-системи з використанням корпусу англомовних та українських аудіозаписів, здійснено навчання моделей, підготовку даних та оптимізацію параметрів. Проведено оцінку якості синтезованого мовлення за метриками MOS (Mean Opinion Score) та RTF (Real Time Factor). Результати показали, що система здатна генерувати мовлення високої якості зі швидкістю, що задовольняє вимоги реального часу. Робота має потенціал практичного застосування у голосових інтерфейсах та адаптивних навчальних системах. Thesis: 85 pages, 12 figures, 2 appendices, 18 references. This thesis is dedicated to the study and implementation of a text-to-speech (TTS) synthesis system based on modern neural models FastSpeech 2 and HiFiGAN. The relevance of the research is driven by the growing demand for naturalsounding speech synthesis in digital assistants, navigation systems, education, and inclusive technologies. The aim of the work is to develop a high-quality and fast TTS system capable of converting text into realistic-sounding audio. The study includes an analysis of the stages of speech synthesis, algorithms for spectrogram generation, neural network architectures, and methods for evaluating synthesis results. The object of the study is the process of automatic speech synthesis, and the subject is the use of the sequential FastSpeech 2 architecture and HiFi-GAN vocoder for generating audio from text. A complete TTS system was implemented using English and Ukrainian speech corpora; model training, data preprocessing, and parameter optimization were carried out. The quality of synthesized speech was evaluated using MOS (Mean Opinion Score) and RTF (Real Time Factor) metrics. The results show that the system can generate high-quality speech with a speed suitable for real-time applications. The developed system has potential for practical use in voice interfaces and adaptive learning systems. popup.nrat_date 2025-11-05 Close

Article

Бакалаврська робота

Algorithms and Technologies for Text-to-Speech Synthesis (AI translated)

Бобовик Денис Максимович. Algorithms and Technologies for Text-to-Speech Synthesis (AI translated) : published. 2025-01-01; Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського», 2125U002973

1 documents found

Updated: 2026-03-23

Роздрукувати цю сторінку

National Repository of Academic Texts

The NRAT database:

Reports in the field of scientific and scientific and technical activities

Dissertations for obtaining scientific degrees and abstracts

Materials from publications and local repositories

Search academic texts