Βελτίωση της ποιότητας συνθετικής φωνής και εφαρμογή σε σύγχρονα τηλεπικοινωνιακά περιβάλλοντα και υπηρεσίες

Αντικείμενο της διδακτορικής διατριβής αποτελεί η τεχνολογία σύνθεσης φωνής από κείμενο. Έμφαση δίνεται στην μεθοδολογία σύνθεσης με επιλογή και ένωση ακουστικών μονάδων στο πεδίο του χρόνου (unit selection concatenative speech synthesis), εστιάζοντας κυρίως στον αλγόριθμο επιλογής ακουστικών μονάδων (unit selection module) και στην σχεδίαση της συνάρτησης του κόστους ένωσης. Εξετάζονται προσεγγίσεις που αφορούν τόσο την γενική περίπτωση συστήματος σύνθεσης φωνής από κείμενο (general domain speech synthesis), όσο και την περίπτωση προσαρμογής αυτής της τεχνολογίας σε περιβάλλον ενσωματωμένων συστημάτων με περιορισμένους υπολογιστικούς πόρους (embedded speech synthesis). Απώτερος στόχος είναι η βελτίωση της ποιότητας της συνθετικής ομιλίας με σκοπό την ευρεία υιοθέτηση συστημάτων σύνθεσης φωνής σε σύγχρονα τηλεπικοινωνιακά περιβάλλοντα και τηλεπικοινωνιακές υπηρεσίες. Επιπρόσθετα, στην διατριβή εξετάζονται και νέες σύγχρονες εναλλακτικές παραμετρικές τεχνικές σύνθεσης φωνής (statistical parametric speech synthesis) για την περίπτωση της Ελληνικήςγλώσσας. Πιο συγκεκριμένα, η διατριβή συνεισφέρει και πραγματεύεται τις ερευνητικές προσπάθειες στα εξής επιμέρους σημεία: - Στην σχεδίαση και υλοποίηση του αλγόριθμου επιλογής ακουστικών μονάδων για γενικού σκοπού συστήματα Σύνθεσης Φωνής από κείμενο για την Ελληνική γλώσσα. - Στην σχεδίαση, την αποδοτική αποκλιμάκωση και προσαρμογή συστήματος σύνθεσης φωνής από κείμενο με επιλογή και ένωση ακουστικών μονάδων, σε περιβάλλοντα περιορισμένων υπολογιστικών πόρων όπως είναι τα ενσωματωμένα συστήματα και ιδιαίτερα το περιβάλλον των κινητών τηλεφώνων. - Στην υιοθέτηση και εφαρμογή ενός νέου μεθοδολογικού πλαισίου που βασίζεται σε δεδομένα (data driven), για την εκτίμηση και αποτίμηση των φασματικών ασυνεχειών που προκύπτουν στην ένωση των ακουστικών μονάδων και το οποίο μπορεί να επεκταθεί και στην συνολική συνάρτηση κόστους ένωσης ακουστικών μονάδων, προσφέροντας σημαντικά πλεονεκτήματα. Το νέο μεθοδολογικό πλαίσιο στηρίζεται σε τεχνικές μηχανικής μάθησης και συγκεκριμένα στην εφαρμογή ταξινομητών μιας τάξης (one‐class classification). - Στην μελέτη της παραμετρικής τεχνολογίας σύνθεσης φωνής από κείμενο με χρήση κρυφών Μαρκοβιανών μοντέλων (HMM speech synthesis) καθώς και στην υλοποίηση και προσαρμογή της στην περίπτωση της Ελληνικής γλώσσας. Η εν λόγω τεχνολογία δύναται να επιφέρει σημαντικά πλεονεκτήματα, τόσο για συστήματα γενικού σκοπού όσο και για ενσωματωμένα συστήματα. Επιπλέον, περιγράφονται καινοτόμες εφαρμογές που έχουν σαν κύριο συστατικό την τεχνολογία σύνθεσης φωνής από κείμενο και απευθύνονται σε σύγχρονα τηλεπικοινωνιακά περιβάλλοντα και τηλεπικοινωνιακές υπηρεσίες.

περισσότερα

Περίληψη σε άλλη γλώσσα

The subject of this thesis is speech synthesis technology and, in particular, the improvement of the quality of Text‐to‐Speech (TTS) systems for application in contemporary telecommunication environments and services. Emphasis is given in Corpus‐based Speech Synthesis and in Unit Selection Concatenative TTS systems by focusing on the Unit Selection algorithm and the design of the cost functions which comprising it. Methods and approaches concerning the implementation of not only General Domain TTS systems, but also adapted scaled‐down TTS systems for computational environments with limited resources and embedded systems in general, are explored and evaluated. In addition, contemporary Statistical Parametric Speech Synthesis based on Hidden Markov Models is explored for the case of the Greek language. More particularly, this thesis deals with research efforts and contributes to the following: - The design and implementation of the unit selection algorithm for a general purpose Textto‐Speech system for the Greek language. - The design and implementation approaches for the efficient integration of Unit Selection technology in computational environments with limited resources, such as mobile devices, with no considerable speech quality degradation. In particular, the issues of database reduction, acoustic inventory compression and runtime computational load minimization are mainly addressed. Both objective and subjective assessments confirm the effectiveness of these approaches in terms of constructing a general purpose embedded unit selection TTS system and reducing the computational requirements while maintaining high speech quality. - The introduction of one‐class classification as a framework for the spectral join cost calculation in unit selection speech synthesis. A data‐driven approach is adopted which exploits the natural similarity of consecutive speech frames in the speech database. Experimental results provide evidence on the effectiveness of the proposed method which clearly outperforms the conventional approaches currently employed. This method can be extended for designing the Join Cost function, offering many advantages. - The adaption, implementation and the evaluation of a HMM speech synthesis framework for the case of the Greek language. This technology is capable of producing adequately natural speech in terms of intelligibility and intonation, offering many advantages and flexibility in constructing and manipulating general purpose TTS systems. In addition, innovative applications for telecommunication systems and services are described, having TTS technology as a main component.

περισσότερα

Διαβάστε τη διατριβή (Online)

Κατεβάστε τη διατριβή σε μορφή PDF (3.25 MB) (Η υπηρεσία είναι διαθέσιμη μετά από δωρεάν εγγραφή)

Όλα τα τεκμήρια στο ΕΑΔΔ προστατεύονται από πνευματικά δικαιώματα.

DOI	10.12681/eadd/24814
Διεύθυνση Handle	http://hdl.handle.net/10442/hedi/24814
ND	24814
Εναλλακτικός τίτλος	Improvement of the quality of text to speech systems for application in contemporary telecommunication environments and services
Συγγραφέας	Καραμπέτσος, Σωτήριος (Πατρώνυμο: Χαρίλαος)
Ημερομηνία	2010
Ίδρυμα	Εθνικό Μετσόβιο Πολυτεχνείο (ΕΜΠ). Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Σημάτων, Ελέγχου και Ρομποτικής
Εξεταστική επιτροπή	Καραγιάννης Γεώργιος Μαραγκός Πέτρος Μήτρου Νικόλαος Κόλλιας Στέφανος Τσανάκας Παναγιώτης Μέρτζιος Βασίλειος Ράπτης Σπυρίδων
Επιστημονικό πεδίο	Επιστήμες Μηχανικού και Τεχνολογία ➨ Επιστήμη Ηλεκτρολόγου Μηχανικού, Ηλεκτρονικού Μηχανικού, Μηχανικού Η/Υ
Λέξεις-κλειδιά	Σύνθεση φωνής; Ταξινόμηση μιας τάξης; Επιλογή ακουστικών μονάδων; Φασματικές αποστάσεις; Κρυφά μαρκοβιανά μοντέλα; Κόστος ένωσης; Τηλεπικοινωνιακές υπηρεσίες; Κινητά τηλέφωνα
Χώρα	Ελλάδα
Γλώσσα	Ελληνικά
Άλλα στοιχεία	x, 143 σ., εικ.

Στατιστικά χρήσης

ΠΡΟΒΟΛΕΣ

Αφορά στις μοναδικές επισκέψεις της διδακτορικής διατριβής για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.

ΞΕΦΥΛΛΙΣΜΑΤΑ

Αφορά στο άνοιγμα του online αναγνώστη για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.

ΜΕΤΑΦΟΡΤΩΣΕΙΣ

Αφορά στο σύνολο των μεταφορτώσων του αρχείου της διδακτορικής διατριβής.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.

ΧΡΗΣΤΕΣ

Αφορά στους συνδεδεμένους στο σύστημα χρήστες οι οποίοι έχουν αλληλεπιδράσει με τη διδακτορική διατριβή. Ως επί το πλείστον, αφορά τις μεταφορτώσεις.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.

Σχετικές εγγραφές (με βάση τις επισκέψεις των χρηστών)

Κουβουκλιώτικα: ένα μικρασιατικό γλωσσικό ιδίωμα

Ο Πατριάρχης Αλεξανδρείας Θεόφιλος Β' Παγκώστας ο Πάτμιος (1805-1825)

Οικολογική μελέτη του δάκου της ελιάς bactrocera (dacus) oleae (gmelin), στην περιοχή της Αχαΐας

Επιδημιολογική μελέτη καταγμάτων ισχίου στην τρίτη ηλικία στην Πάτρα

Η σύγκρουση των εθνικών έννομων τάξεων και της υπό διαμόρφωση ενωσιακής τάξης ως προς την ενιαία διαδικασία για τις ευρωεκλογές

Η ΣΥΓΧΡΟΝΗ ΔΥΝΑΜΙΚΗ ΚΑΙ Η ΠΡΟΣΦΑΤΗ ΟΛΟΚΑΙΝΙΚΗ ΙΖΗΜΑΤΟΓΕΝΕΣΗ ΣΤΟ ΕΣΩΤΕΡΙΚΟ ΠΛΑΤΩΤΟΥ ΘΕΡΜΑΙΚΟΥ ΚΟΛΠΟΥ

Οι οργανώσεις της εξωκοινοβουλευτικής αριστεράς στην Ελλάδα κατά την περίοδο 1956 - 1981

Η μη εκπλήρωση της ενοχικής σύμβασης κατά τον ΑΚ ιδίως πρίν από το ληξιπρόθεσμο

Εκτίμηση παραμέτρων κλίμακος και ποσοστιαίων σημείων

Ρίζα Ιεσσαί: ο σύνθετος εικονογραφικός τύπος 13ος - 18ος αι.: γένεση, εξέλιξη και ερμηνεία ενός δυναστικού μύθου

"Βελτίωση της ποιότητας συνθετικής φωνής και εφαρμογή σε σύγχρονα τηλεπικοινωνιακά περιβάλλοντα και υπηρεσίες"
	Πληκτρολογήστε το κείμενο της εικόνας!
Δηλώνω ότι έλαβα γνώση και ανεπιφύλακτα συμφωνώ και αποδέχομαι τους Όρους Χρήσης του Εθνικού Αρχείου Διδακτορικών Διατριβών, καθώς και της .