Περίληψη
Η αυτόματη αναγνώριση ομιλίας διαδραματίζει σημαντικό ρόλο στην αλληλεπίδραση ανθρώπου-υπολογιστή διότι η ομιλία αποτελεί ένα φυσικό, γρήγορο, και ασφαλές μέσο επικοινωνίας, με ευρύ πεδίο εφαρμογών στα σύγχρονα πολυαισθητηριακά ευφυή περιβάλλοντα (πχ. αυτοματοποιημένοι χώροι, ρομποτικά συστήματα) τα οποία σχεδιάζονται για τη βελτίωση της καθημερινότητας και της εργασίας των χρηστών τους. Τα τελευταία χρόνια, οι τεχνικές βαθιάς εκμάθησης με νευρωνικά δίκτυα έχουν επιφέρει σημαντικές βελτιώσεις, μειώνοντας το ποσοστιαίο λάθος αναγνώρισης λέξεων (word error rate) κάτω από 10% στις περισσότερες εφαρμογές με μικρόφωνα κοντά στον ομιλητή. Συνεπώς, τα φωνητικά συστήματα χρησιμοποιούνται όλο περισσότερο στην καθημερινότητα. Ωστόσο οι προκλήσεις παραμένουν αρκετές, ειδικά σε περιβάλλοντα με μικρόφωνα μακριά από τον ομιλητή, όπου ο θόρυβος και οι αντηχήσεις υποβαθμίζουν αισθητά την απόδοση της αναγνώρισης. Στην παρούσα διατριβή εξετάζουμε και συνδυάζουμε μεθόδους εύρωστης αναγνώρισης ομιλίας με ...
Η αυτόματη αναγνώριση ομιλίας διαδραματίζει σημαντικό ρόλο στην αλληλεπίδραση ανθρώπου-υπολογιστή διότι η ομιλία αποτελεί ένα φυσικό, γρήγορο, και ασφαλές μέσο επικοινωνίας, με ευρύ πεδίο εφαρμογών στα σύγχρονα πολυαισθητηριακά ευφυή περιβάλλοντα (πχ. αυτοματοποιημένοι χώροι, ρομποτικά συστήματα) τα οποία σχεδιάζονται για τη βελτίωση της καθημερινότητας και της εργασίας των χρηστών τους. Τα τελευταία χρόνια, οι τεχνικές βαθιάς εκμάθησης με νευρωνικά δίκτυα έχουν επιφέρει σημαντικές βελτιώσεις, μειώνοντας το ποσοστιαίο λάθος αναγνώρισης λέξεων (word error rate) κάτω από 10% στις περισσότερες εφαρμογές με μικρόφωνα κοντά στον ομιλητή. Συνεπώς, τα φωνητικά συστήματα χρησιμοποιούνται όλο περισσότερο στην καθημερινότητα. Ωστόσο οι προκλήσεις παραμένουν αρκετές, ειδικά σε περιβάλλοντα με μικρόφωνα μακριά από τον ομιλητή, όπου ο θόρυβος και οι αντηχήσεις υποβαθμίζουν αισθητά την απόδοση της αναγνώρισης. Στην παρούσα διατριβή εξετάζουμε και συνδυάζουμε μεθόδους εύρωστης αναγνώρισης ομιλίας με πολλαπλούς αισθητήρες. Συγκεκριμένα, η προτεινόμενη μεθοδολογία περιλαμβάνει 1) επιλογή αξιόπιστων μικροφώνων βάσει κριτηρίων ποιότητας των σημάτων, 2) συνδυασμό των αποφάσεων των μικροφώνων με αναδιάταξη των υποθέσεων αναγνώρισης, 3) εκπαίδευση τύπου multi-style με τεχνητή αύξηση των δεδομένων εκπαίδευσης προσομοιώνοντας ακουστικές σκηνές και σήματα ομιλίας μακρινού πεδίου (far-field) για εφαρμογές σε περιβάλλοντα με περιορισμένους πόρους, και 5) εξαγωγή μη-γραμμικών χαρακτηριστικών AM-FM.Προτείνεται μέθοδος πολυκαναλικής αποδιαμόρφωσης των σημάτων φωνής, για την εξαγωγή βελτιωμένων χαρακτηριστικών από τις στιγμιαίες διαμορφώσεις συχνότητας, οι οποίες μοντελοποιούν τις μικροδομές των συντονισμών της φωνής και αποτελούν χρήσιμη και συμπληρωματική πηγή πληροφορίας στα τυπικά χαρακτηριστικά ενέργειας (πχ. MFCC). Ενώ έχουν βρεθεί βελτιώσεις κυρίως σε συστήματα GMM-HMM μεγάλου λεξιλογίου, λίγες είναι οι εφαρμογές τους σε συστήματα DNN-HMM και στην αναγνώριση DSR γενικά. Εδώ, εργαζόμαστε για τη συνέργιά τους σε state-of-the-art σχήματα front-end στα οποία τα MFCCs ομαδοποιούνται σε μεγαλύτερα χρονικά πλαίσια (context) και μετασχηματίζονται έτσι ώστε να γίνουν πιο διακριτά και ανεξάρτητα του ομιλητή. Ερευνούμε 1) πολυκαναλικές μεθόδους αποδιαμόρφωσης, 2) νέους και πλουσιότερους περιγραφητές των συχνοτήτων διαμόρφωσης, και 3) μετασχηματισμούς και συνδυασμό χαρακτηριστικών μέσω ιεραρχικών βαθιών νευρωνικών δικτύων τύπου bottleneck. Παρουσιάζουμε αποτελέσματα στα σχήματα υβριδικής αναγνώρισης και αναγνώρισης tandem με μοντελοποίηση GMM και DNN αντίστοιχα, όπου τα βελτιωμένα χαρακτηριστικά διαμορφώσεων συνδυάζονται αποδοτικά με τα MFCC και οδηγούν σε βελτιωμένη απόδοση σε γνωστές πολυκαναλικές βάσεις αξιολόγησης της αναγνώρισης από απόσταση (Distant Speech Recognition).Βασιζόμαστε στις προτεινόμενες πολυκαναλικές μεθόδους για να σχεδιάζουμε ένα πρακτικό σύστημα συνεχούς αναγνώρισης φωνητικών εντολών μακρινού πεδίου, σε ευφυή οικιακά περιβάλλοντα με διάσπαρτες συστοιχίες μικροφώνων σε ένα ή περισσότερα δωμάτια. Ακολουθούμε μία τυπική σειρά (cascade) διεργασιών για τον εντοπισμό και την αναγνώριση εντολών, με τον εντοπισμό να γίνεται βάσει φράσεων ενεργοποίησης. Στην αρχή της αλυσίδας επεξεργασίας, τα τμήματα ομιλίας εντοπίζονται και διαχωρίζονται σε κάθε δωμάτιο, επιτρέποντας την αναγνώριση ανά δωμάτιο. Με την προτεινόμενη προσέγγιση, η οποία αναπτύσσεται για τα Ελληνικά, επιτυγχάνεται ικανοποιητική απόδοση σε πραγματικές και δύσκολες οικιακές ακουστικές σκηνές, φτάνοντας έως 76.6% στην ακρίβεια αναγνώρισης εντολών, επιφέροντας σχετική βελτίωση 46% συγκριτικά με ένα τυπικό σύστημα στο οποίο χρησιμοποιείται beamforming για αποθορυβοποίηση.Υλοποιούμε την online εκδοχή του προτεινόμενου συστήματος αναγνώρισης φωνητικών εντολών για τέσσερις γλώσσες (Ελληνικά, Γερμανικά, Ιταλικά, Αγγλικά) και το συνδυάζουμε με την αναγνώριση χειρονομιών στοχεύοντας στην πολυτροπική αλληλεπίδραση ανθρώπου-ρομπότ. Στο πλαίσιο σχεδιασμού ρομποτικών βοηθών, αναπτύσσουμε ένα φυσικό περιβάλλον αλληλεπίδρασης εκμεταλλευόμενοι τις πολλαπλές ροές πληροφορίας από το πολυαισθητηριακό περιβάλλον του ρομπότ. Οι συμπληρωματικές ροές συνδυάζονται σε επίπεδο αποφάσεων για να εξαχθεί μία πολυτροπική υπόθεση αναγνώρισης. Επιπλέον, μέσω της αλληλεπίδρασης με το ρομπότ, εξετάζουμε νέες πτυχές στο πεδίο της ρομποτικής για υποβοήθηση στην καθημερινότητα (assistive living), αναπτύσσοντας ένα σύνολο εργαλείων και δεδομένων για πολυτροπική αναγνώριση, τα οποία εφαρμόζουμε σε δύο πραγματικά παραδείγματα χρήσης (use cases) για ηλικιωμένους χρήστες: κατά την υποβοήθηση στην κίνηση από ένα ρομποτικό τροχήλατο όχημα και κατά την υποβοήθηση σε εργασίες πλύσης από έναν ρομποτικό βοηθό στο μπάνιο. Ακολουθώντας την προτεινόμενη σύμμειξη των δύο μέσων επιτυγχάνουμε υψηλά ποσοστά πολυτροπικής αναγνώρισης (έως 90%) σε απαιτητικά σενάρια αλληλεπίδρασης με ηλικιωμένους και χρήστες με κινητικά και ενδεχομένως νοητικά προβλήματα.
περισσότερα
Περίληψη σε άλλη γλώσσα
Automatic speech recognition is extensively used in human-computer interaction mainly because communication via speech is natural, fast, and safe. Speech applications and voice-enabled, hands-free technologies are increasingly integrated to the modern area of multisensory smart environments (e.g., smart homes, assistive robotics), targeting life wellness and effectiveness at work. The recent advancements of deep learning have brought significant improvements, yielding word error rates below 10% in most cases of recognition with close-talk microphones. However, many challenges remain unsolved, especially in Distant Speech Recognition (DSR) applications where noise and reverberation effects degrade significantly the performance.In this dissertation, we examine a combination of multichannel methods for robust DSR using microphone arrays. More specifically, the proposed methodology includes 1) microphone selection using signal-based criteria of confidence, 2) microphone combination in the ...
Automatic speech recognition is extensively used in human-computer interaction mainly because communication via speech is natural, fast, and safe. Speech applications and voice-enabled, hands-free technologies are increasingly integrated to the modern area of multisensory smart environments (e.g., smart homes, assistive robotics), targeting life wellness and effectiveness at work. The recent advancements of deep learning have brought significant improvements, yielding word error rates below 10% in most cases of recognition with close-talk microphones. However, many challenges remain unsolved, especially in Distant Speech Recognition (DSR) applications where noise and reverberation effects degrade significantly the performance.In this dissertation, we examine a combination of multichannel methods for robust DSR using microphone arrays. More specifically, the proposed methodology includes 1) microphone selection using signal-based criteria of confidence, 2) microphone combination in the decision level following a hypothesis rescoring approach, 3) data augmentation and multi-style training by simulating domestic acoustic scenes with noisy far-field speech for applications in environments with limited amount of training data, 4) multi-microphone adaptation schemes, and 5) extraction of non-linear AM-FM features that are combined with traditional energy-based features. A multichannel demodulation approach is proposed for the extraction of improved frequency modulation features that capture the fine structure of speech formants and constitute beneficial and supplementary to the traditional energy-based cepstral features (e.g, MFCCs). Improvements have been demonstrated mainly in GMM-HMM systems for small and large vocabulary tasks. Yet, they have limited applications in DNN-HMM systems and DSR tasks. Herein, we elaborate on their integration within state-of-the-art front-end schemes that include tansformation of MFCCs resulting in discriminant and speaker-adapted features of large temporal contexts. We explore 1) multichannel demodulation schemes for multi-microphone setups, 2) richer descriptors of frequency modulations, and 3) feature transformation and combination via hierarchical deep bottleneck networks. We present results for tandem and hybrid recognition with GMM and DNN acoustic models, respectively. The improved modulation features are combined efficiently with MFCCs yielding modest and consistent improvements in widely known and challenging corpora for multi-microphone DSR benchmarking.Based on the proposed multichannel methods, a practical system pipeline is designed for always-listening, far-field spoken command recognition in every-day smart indoor environments of multiple rooms equipped with sparsely distributed microphone arrays. The system consists of a traditional cascade of far-field spoken command detection and recognition, the former based on the detection of activating key-phrases. A room-dependent speech activity detection module is used to enable parallel recognition pipelines in each room. The proposed approach is developed for the Greek language, exhibiting promising performance in real and challenging domestic acoustic scenes, reaching 76.6% command recognition accuracy, a result that represents 46% relative improvement over conventional beamforming.An online version of the proposed spoken command recognition system is implemented for four languages (Greek, German, Italian, English) and combined with gesture recognition, aiming at multimodal human-robot interaction. Within the context of assistive robotics, we develop a smart and natural interface that provides multimodal sensory processing capabilities. By fusing the complementary unimodal information streams, we obtain the optimum multimodal hypothesis. Additionally, we explore new aspects on assistive living via smart social human-robot interaction (HRI). We provide a framework of resources, including datasets and tools that are demonstrated in two real-life use cases for elderly subjects: a multi-modal interface of an assistive robotic rollator and an assistive bathing robot, where following the proposed fusion scheme, the obtained command accuracy reaches 90% in real interaction scenarios with elderly users.
περισσότερα