Αντικείμενο της διδακτορικής διατριβής αποτελεί η τεχνολογία σύνθεσης φωνής από κείμενο. Έμφαση δίνεται στην μεθοδολογία σύνθεσης με επιλογή και ένωση ακουστικών μονάδων στο πεδίο του χρόνου (unit selection concatenative speech synthesis), εστιάζοντας κυρίως στον αλγόριθμο επιλογής ακουστικών μονάδων (unit selection module) και στην σχεδίαση της συνάρτησης του κόστους ένωσης. Εξετάζονται προσεγγίσεις που αφορούν τόσο την γενική περίπτωση συστήματος σύνθεσης φωνής από κείμενο (general domain speech synthesis), όσο και την περίπτωση προσαρμογής αυτής της τεχνολογίας σε περιβάλλον ενσωματωμένων συστημάτων με περιορισμένους υπολογιστικούς πόρους (embedded speech synthesis). Απώτερος στόχος είναι η βελτίωση της ποιότητας της συνθετικής ομιλίας με σκοπό την ευρεία υιοθέτηση συστημάτων σύνθεσης φωνής σε σύγχρονα τηλεπικοινωνιακά περιβάλλοντα και τηλεπικοινωνιακές υπηρεσίες. Επιπρόσθετα, στην διατριβή εξετάζονται και νέες σύγχρονες εναλλακτικές παραμετρικές τεχνικές σύνθεσης φωνής (statistical parametric speech synthesis) για την περίπτωση της Ελληνικήςγλώσσας. Πιο συγκεκριμένα, η διατριβή συνεισφέρει και πραγματεύεται τις ερευνητικές προσπάθειες στα εξής επιμέρους σημεία: - Στην σχεδίαση και υλοποίηση του αλγόριθμου επιλογής ακουστικών μονάδων για γενικού σκοπού συστήματα Σύνθεσης Φωνής από κείμενο για την Ελληνική γλώσσα. - Στην σχεδίαση, την αποδοτική αποκλιμάκωση και προσαρμογή συστήματος σύνθεσης φωνής από κείμενο με επιλογή και ένωση ακουστικών μονάδων, σε περιβάλλοντα περιορισμένων υπολογιστικών πόρων όπως είναι τα ενσωματωμένα συστήματα και ιδιαίτερα το περιβάλλον των κινητών τηλεφώνων. - Στην υιοθέτηση και εφαρμογή ενός νέου μεθοδολογικού πλαισίου που βασίζεται σε δεδομένα (data driven), για την εκτίμηση και αποτίμηση των φασματικών ασυνεχειών που προκύπτουν στην ένωση των ακουστικών μονάδων και το οποίο μπορεί να επεκταθεί και στην συνολική συνάρτηση κόστους ένωσης ακουστικών μονάδων, προσφέροντας σημαντικά πλεονεκτήματα. Το νέο μεθοδολογικό πλαίσιο στηρίζεται σε τεχνικές μηχανικής μάθησης και συγκεκριμένα στην εφαρμογή ταξινομητών μιας τάξης (one‐class classification). - Στην μελέτη της παραμετρικής τεχνολογίας σύνθεσης φωνής από κείμενο με χρήση κρυφών Μαρκοβιανών μοντέλων (HMM speech synthesis) καθώς και στην υλοποίηση και προσαρμογή της στην περίπτωση της Ελληνικής γλώσσας. Η εν λόγω τεχνολογία δύναται να επιφέρει σημαντικά πλεονεκτήματα, τόσο για συστήματα γενικού σκοπού όσο και για ενσωματωμένα συστήματα. Επιπλέον, περιγράφονται καινοτόμες εφαρμογές που έχουν σαν κύριο συστατικό την τεχνολογία σύνθεσης φωνής από κείμενο και απευθύνονται σε σύγχρονα τηλεπικοινωνιακά περιβάλλοντα και τηλεπικοινωνιακές υπηρεσίες.
Περίληψη σε άλλη γλώσσα
The subject of this thesis is speech synthesis technology and, in particular, the improvement of the quality of Text‐to‐Speech (TTS) systems for application in contemporary telecommunication environments and services. Emphasis is given in Corpus‐based Speech Synthesis and in Unit Selection Concatenative TTS systems by focusing on the Unit Selection algorithm and the design of the cost functions which comprising it. Methods and approaches concerning the implementation of not only General Domain TTS systems, but also adapted scaled‐down TTS systems for computational environments with limited resources and embedded systems in general, are explored and evaluated. In addition, contemporary Statistical Parametric Speech Synthesis based on Hidden Markov Models is explored for the case of the Greek language. More particularly, this thesis deals with research efforts and contributes to the following: - The design and implementation of the unit selection algorithm for a general purpose Textto‐Speech system for the Greek language. - The design and implementation approaches for the efficient integration of Unit Selection technology in computational environments with limited resources, such as mobile devices, with no considerable speech quality degradation. In particular, the issues of database reduction, acoustic inventory compression and runtime computational load minimization are mainly addressed. Both objective and subjective assessments confirm the effectiveness of these approaches in terms of constructing a general purpose embedded unit selection TTS system and reducing the computational requirements while maintaining high speech quality. - The introduction of one‐class classification as a framework for the spectral join cost calculation in unit selection speech synthesis. A data‐driven approach is adopted which exploits the natural similarity of consecutive speech frames in the speech database. Experimental results provide evidence on the effectiveness of the proposed method which clearly outperforms the conventional approaches currently employed. This method can be extended for designing the Join Cost function, offering many advantages. - The adaption, implementation and the evaluation of a HMM speech synthesis framework for the case of the Greek language. This technology is capable of producing adequately natural speech in terms of intelligibility and intonation, offering many advantages and flexibility in constructing and manipulating general purpose TTS systems. In addition, innovative applications for telecommunication systems and services are described, having TTS technology as a main component.