Μοντελοποίηση προσωδίας με χρήση τεχνικών μηχανικής μάθησης στα πλαίσια ουδέτερης και συναισθηματικής συνθετικής ομιλίας

Περίληψη

Η παρούσα διδακτορική διατριβή πραγματεύεται προβλήματα που αφορούν στο χώρο της τεχνολογίας ομιλίας, ως στόχο την μοντελοποίηση προσωδίας με χρήση τεχνικών μηχανικής μάθησης στα πλαίσια ουδέτερης και συναισθηματικής συνθετικής ομιλίας. Μελετήθηκαν τρεις καινοτόμες μέθοδοι μοντελοποίησης προσωδίας, οι οποίες αξιολογήθηκαν με αντικειμενικά τεστ και με υποκειμενικά τεστ ποιότητας ομιλίας για την συνεισφορά τους στην βελτίωση της ποιότητας της συνθετικής ομιλίας. Η πρώτη τεχνική μοντελοποίησης διάρκειας φωνημάτων, βασίζεται στην μοντελοποίηση με χρήση Μηχανών Υποστήριξης Διανυσμάτων (Support Vector Regression - SVR). Η μέθοδος αυτή δεν έχει χρησιμοποιηθεί έως σήμερα στην πρόβλεψη διάρκειας φωνημάτων. Η μέθοδος αυτή συγκρίθηκε και ξεπέρασε σε απόδοση όλες τις μεθόδους της επικρατούσας τεχνολογίας (state-of-the-art) στη μοντελοποίηση της διάρκειας φωνημάτων. Η δεύτερη τεχνική, βασίζεται στην μοντελοποίηση διάρκειας φωνημάτων με συνδυαστικό μοντέλο πολλαπλών προβλέψεων. Συγκεκριμένα, οι προ ...
περισσότερα

Περίληψη σε άλλη γλώσσα

In this doctoral dissertation three proposed approaches were evaluated using two databases of different languages, one American-English and one Greek. The proposed approaches were compared to the state-of-the-art models in the phone duration modelling task. The SVR model outperformed all the other individual models evaluated in this dissertation. Their ability to outperform all the other models is mainly based on their advantage of coping in a better way with high-dimensionality feature spaces in respect to the other models used in phone duration modelling, which makes them appropriate even for the case when the amount of the training data would be small respectively to the number of the feature set used. The proposed fusion scheme, taking advantage of the observation that different prediction algorithms perform better in different conditions, when implemented with SVR (SVR-fusion), contributed to the improvement of the phone duration prediction accuracy over that of the best individua ...
περισσότερα

Όλα τα τεκμήρια στο ΕΑΔΔ προστατεύονται από πνευματικά δικαιώματα.

DOI
10.12681/eadd/25708
Διεύθυνση Handle
http://hdl.handle.net/10442/hedi/25708
ND
25708
Εναλλακτικός τίτλος
Prosody modelling using machine learning techniques for neutral and emotional speech synthesis
Συγγραφέας
Λαζαρίδης, Αλέξανδρος (Πατρώνυμο: Αναστάσιος-Γεώργιος)
Ημερομηνία
2011
Ίδρυμα
Πανεπιστήμιο Πατρών. Σχολή Πολυτεχνική. Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών. Εργαστήριο Ενσύρματης Τηλεπικοινωνίας
Εξεταστική επιτροπή
Φακωτάκης Νικόλαος
Μουτζόπουλος Ιωάννης
Δερματάς Ευάγγελος
Αναστασόπουλος Βασίλειος
Μπερμπερίδης Κωνσταντίνος
Κουρουπέτρογλου Γεώργιος
Παλιουράς Βασίλειος
Επιστημονικό πεδίο
Επιστήμες Μηχανικού και ΤεχνολογίαΕπιστήμη Ηλεκτρολόγου Μηχανικού, Ηλεκτρονικού Μηχανικού, Μηχανικού Η/Υ
Λέξεις-κλειδιά
Πρόβλεψη διάρκειας φωνημάτων; Μοντελοποίηση προσωδίας; Σύνθεση ομιλίας; Μηχανική μάθηση; Ουδέτερη ομιλία; Συναισθηματική ομιλία; Μηχανές υποστήριξης διανυσμάτων
Χώρα
Ελλάδα
Γλώσσα
Αγγλικά
Άλλα στοιχεία
xx, 227 σ.
Στατιστικά χρήσης
ΠΡΟΒΟΛΕΣ
Αφορά στις μοναδικές επισκέψεις της διδακτορικής διατριβής για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.
ΞΕΦΥΛΛΙΣΜΑΤΑ
Αφορά στο άνοιγμα του online αναγνώστη για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.
ΜΕΤΑΦΟΡΤΩΣΕΙΣ
Αφορά στο σύνολο των μεταφορτώσων του αρχείου της διδακτορικής διατριβής.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.
ΧΡΗΣΤΕΣ
Αφορά στους συνδεδεμένους στο σύστημα χρήστες οι οποίοι έχουν αλληλεπιδράσει με τη διδακτορική διατριβή. Ως επί το πλείστον, αφορά τις μεταφορτώσεις.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.
Σχετικές εγγραφές (με βάση τις επισκέψεις των χρηστών)