Μεγίστης πιθανοφάνειας στοχαστικοί μετασχηματισμοί για αναγνώριση συνεχούς ομιλίας

Περίληψη

Στην εργασία αυτή παρουσιάζουμε τις προσπάθειες μας να αντιμετωπίσουμε δύο σημαντικά προβλήματα στα σύγχρονα , μεγάλου λεξιλογίου, συστήματα αναγνώρισης συνεχούς ομιλίας. Το πρώτο πρόβλημα είναι οι συνθήκες αναντιστοιχίας ανάμεσα στα δεδομένα εκπαίδευσης και ελέγχου. Συγκεκριμένα εστιάζουμε στο πρόβλημα μειωμένης απόδοσης εξαιτίας διαφορών στους ομιλητές και στις διαλέκτους. Το δεύτερο πρόβλημα είναι η άμεση μοντελοποίηση των εσωτερικών (inter-frame) συσχετίσεων ενός χαρακτηριστικού διανύσματος σε ένα σύστημα ανεξάρτητο από ομιλητή (SI). Προσεγγίζουμε και τα δύο αυτά προβλήματα εφαρμόζοντας στρατηγικές βασισμένες στην διαδεδομένη οικογένεια των γραμμικών μετασχηματισμών των μοντέλων και επιπρόσθετα προτείνουμε ένα καινοτόμο σχήμα στοχαστικών μετασχηματισμών με την ονομασία Μεγίστης Πιθανοφάνειας Στοχαστικοί Μετασχηματισμοί (MLST).Οι MLST αποτελούνται από ένα σύνολο συστατικών γραμμικών μετασχηματισμών οι οποίοι μοιράζονται σε όλες τις Gaussian κατανομές σε κάθε μείγμα. Η επιλογή του συ ...
περισσότερα

Περίληψη σε άλλη γλώσσα

This thesis presents our efforts to address two major problems in current large vocabulary continuous speech recognition systems. The first problem is the mismatched conditions between the training and testing sets. We particularly focus on the performance degradation due to different speakers and dialects. The second problem is the explicit modeling of the inter-frame correlations in a speaker-independent (SI) system. We attack both of these problems by applying strategies based on the popular family of linear model transformations and we further propose a novel stochastic transformation scheme named Maximum Likelihood Stochastic Transformations (MLST).MLST consists of a collection of component, linear transformations that are shared among all the Gaussians in each mixture. The component transformation applied to each Gaussian is selected probabilistically, based on weight probabilities. For the estimation of the transformation parameters and weight probabilities we use the expectatio ...
περισσότερα

Όλα τα τεκμήρια στο ΕΑΔΔ προστατεύονται από πνευματικά δικαιώματα.

DOI
10.12681/eadd/32036
Διεύθυνση Handle
http://hdl.handle.net/10442/hedi/32036
ND
32036
Εναλλακτικός τίτλος
Maximum-likelihood stochastic transformations for continuous speech recognition
Συγγραφέας
Διακολουκάς, Βασίλειος (Πατρώνυμο: Δημήτριος)
Ημερομηνία
2000
Ίδρυμα
Πολυτεχνείο Κρήτης. Σχολή Ηλεκτρονικών Μηχανικών και Μηχανικών Υπολογιστών
Εξεταστική επιτροπή
Διγαλάκης Βασίλειος
Πατεράκης Μιχαήλ
Μαράς Ανδρέας
Ζερβάκης Μιχαήλ
Χριστοδουλάκης Σπύρος
Καραγιάννης Γεώργιος
Μαραγκός Πέτρος
Επιστημονικό πεδίο
Φυσικές ΕπιστήμεςΕπιστήμη Ηλεκτρονικών Υπολογιστών και Πληροφορική
Επιστήμες Μηχανικού και ΤεχνολογίαΕπιστήμη Ηλεκτρολόγου Μηχανικού, Ηλεκτρονικού Μηχανικού, Μηχανικού Η/Υ
Λέξεις-κλειδιά
Αναγνώριση ομιλίας; Στοχαστικοί μετασχηματισμοί; Προσαρμογή; Ακουστικά μοντέλα
Χώρα
Ελλάδα
Γλώσσα
Αγγλικά
Στατιστικά χρήσης
ΠΡΟΒΟΛΕΣ
Αφορά στις μοναδικές επισκέψεις της διδακτορικής διατριβής για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.
ΞΕΦΥΛΛΙΣΜΑΤΑ
Αφορά στο άνοιγμα του online αναγνώστη για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.
ΜΕΤΑΦΟΡΤΩΣΕΙΣ
Αφορά στο σύνολο των μεταφορτώσων του αρχείου της διδακτορικής διατριβής.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.
ΧΡΗΣΤΕΣ
Αφορά στους συνδεδεμένους στο σύστημα χρήστες οι οποίοι έχουν αλληλεπιδράσει με τη διδακτορική διατριβή. Ως επί το πλείστον, αφορά τις μεταφορτώσεις.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.
Σχετικές εγγραφές (με βάση τις επισκέψεις των χρηστών)