Περίληψη
Ευρύτερο αντικείμενο της παρούσας διδακτορικής διατριβής αποτελεί η διερεύνηση της χειρονομιακής τεχνογνωσίας του μουσικού και συγκεκριμένα του πιανίστα, η οποία περιλαμβάνει την απόκτηση όχι μόνο θεωρητικών γνώσεων αλλά και πρακτικών δεξιοτήτων. Στη συγκεκριμένη διατριβή, έμφαση δίνεται κυρίως στην εκφραστική χειρονομία και στις διακυμάνσεις της. Η αναγνώριση της χειρονομίας επιτυγχάνεται με τη χρήση αλγορίθμων μηχανικής μάθησης και τεχνολογιών αναγνώρισης της κίνησης. Σύμφωνα με τη βιβλιογραφική επισκόπηση, αρκετές έρευνες που έχουν διεξαχθεί στοχεύουν όχι μόνο στην αναγνώριση της χειρονομίας που εκτελείται από το χρήστη αλλά και στην ηχοποίηση αυτής. Μια αδυναμία όμως που αναδύεται, έγκειται στο ότι οι υπάρχουσες μεθοδολογίες αδυνατούν να λάβουν υπόψη τους πιθανές εκφραστικές διακυμάνσεις και μεταβολές που μπορεί να συμβούν κατά τη διάρκεια εκτέλεσης της εισερχόμενης χειρονομίας του χρήστη σε σχέση με τη χειρονομία πρότυπο του ειδικού. Αυτό έχει ως συνέπεια η αναγνώριση να μην είναι ...
Ευρύτερο αντικείμενο της παρούσας διδακτορικής διατριβής αποτελεί η διερεύνηση της χειρονομιακής τεχνογνωσίας του μουσικού και συγκεκριμένα του πιανίστα, η οποία περιλαμβάνει την απόκτηση όχι μόνο θεωρητικών γνώσεων αλλά και πρακτικών δεξιοτήτων. Στη συγκεκριμένη διατριβή, έμφαση δίνεται κυρίως στην εκφραστική χειρονομία και στις διακυμάνσεις της. Η αναγνώριση της χειρονομίας επιτυγχάνεται με τη χρήση αλγορίθμων μηχανικής μάθησης και τεχνολογιών αναγνώρισης της κίνησης. Σύμφωνα με τη βιβλιογραφική επισκόπηση, αρκετές έρευνες που έχουν διεξαχθεί στοχεύουν όχι μόνο στην αναγνώριση της χειρονομίας που εκτελείται από το χρήστη αλλά και στην ηχοποίηση αυτής. Μια αδυναμία όμως που αναδύεται, έγκειται στο ότι οι υπάρχουσες μεθοδολογίες αδυνατούν να λάβουν υπόψη τους πιθανές εκφραστικές διακυμάνσεις και μεταβολές που μπορεί να συμβούν κατά τη διάρκεια εκτέλεσης της εισερχόμενης χειρονομίας του χρήστη σε σχέση με τη χειρονομία πρότυπο του ειδικού. Αυτό έχει ως συνέπεια η αναγνώριση να μην είναι σωστή καθ’ όλη τη διάρκεια εκτέλεσης της εκφραστικής χειρονομίας και να υπάρχουν αλληλοεπικαλύψεις ανάμεσα στις διαφορετικές κλάσεις της ταξινόμησης, με αποτέλεσμα να μην είναι ομαλή και συνεχόμενη και η ηχοποίηση της εκφραστικής χειρονομίας. Για το λόγο αυτό, η παρούσα διδακτορική διατριβή παρουσιάζει μια πρωτότυπη μεθοδολογία που αποσκοπεί α) στη στοχαστική μοντελοποίηση, β) στην αναγνώριση και γ) στην ηχοποίηση της εκφραστικής χειρονομίας του χρήστη, λαμβάνοντας υπόψη τις πιθανές μεταβολές και διακυμάνσεις που μπορεί να συμβούν κατά τη διάρκεια εκτέλεσης της εκφραστικής χειρονομίας. Αυτό επιτυγχάνεται με τη δημιουργία και την ανάπτυξη του Λειτουργικού Μοντέλου του Ειδικού, μέσω του οποίου υπολογίζονται τα όρια εμπιστοσύνης. Η προστιθέμενη αξία του Λειτουργικού Μοντέλου του Ειδικού και κατ’ επέκταση των ορίων εμπιστοσύνης, είναι ότι κατά τη διάρκεια της αναγνώρισης, το σύστημα αποτρέπει αριθμητικά σφάλματα που μπορεί να συμβούν λόγω μεταβολών και διακυμάνσεων, που γίνονται είτε εσκεμμένα είτε όχι, και τα οποία μπορούν επίσης να θεωρηθούν ως εκφραστικά στοιχεία της εκτέλεσης της χειρονομίας. Η αναγνώριση της εκφραστικής χειρονομίας υλοποιείται με τη χρήση αλγορίθμων μηχανικής μάθησης και συγκεκριμένα του αλγορίθμου Φίλτρο Σωματιδίων. Επιπρόσθετα για την ηχοποίηση της εκφραστικής χειρονομίας εφαρμόζονται μέθοδοι σύνθεσης ήχου, παρέχοντας στο χρήστη τη δυνατότητα επανασύνθεσης και χειρισμού του ήχου συνεχόμενα και σε πραγματικό χρόνο. Η αξιολόγηση της μεθοδολογίας μέσω της συγκριτικής μελέτης με άλλους αλγορίθμους γνωστούς στη βιβλιογραφία, έδειξε υψηλότερα ποσοστά αναγνώρισης, ακρίβειας και ομοιότητας ανάμεσα στον παραγόμενο και στον πρωτότυπο ήχο. Παρατηρήθηκε επίσης ότι η ποιότητα του παραγόμενου ήχου που επανασυντίθεται σε πραγματικό χρόνο από τα χειρονομιακά δεδομένα του χρήστη, εξαρτάται άμεσα από την ποιότητα αναγνώρισης των εκφραστικών χειρονομιών. Δηλαδή, όσο καλύτερη είναι η εκτέλεση της εισερχόμενης εκφραστικής χειρονομίας, τόσο καλύτερη, ομαλότερη και χωρίς ταλαντώσεις είναι η αναγνώριση της εκφραστικής χειρονομίας και άρα τόσο καλύτερη και ομαλότερη είναι και η επανασύνθεση του ήχου. Τέλος, τα θετικά αποτελέσματα της αξιολόγησης, σε συνδυασμό με το προτεινόμενο θεωρητικό πλαίσιο, επιβεβαιώνουν ότι είναι αποδοτική η χρήση των ορίων εμπιστοσύνης κατά την αναγνώριση και την ηχοποίηση της εκφραστικής χειρονομίας.
περισσότερα
Περίληψη σε άλλη γλώσσα
A wider scope of this thesis is to investigate the gestural know-how of a musician and specifically of a pianist, which includes not only the acquisition of theoretical knowledge but also that of practical skills. Emphasis is given, in this thesis, in the expressive gesture and its variations. The gesture recognition is accomplished by using machine-learning algorithms and motion capture technologies. According to the literature review, several research approaches have been conducted aiming not only at the recognition of the performed gesture but also at the sonification of the gesture. However, a weakness that emerges is that the existing methodologies fail to take into account expressive variations that may occur during the performance of the incoming gesture with respect to the template gesture. This results in the recognition not being correct throughout the performance of the expressive gesture and in overlaps occurring between the different classes of classification. As a consequ ...
A wider scope of this thesis is to investigate the gestural know-how of a musician and specifically of a pianist, which includes not only the acquisition of theoretical knowledge but also that of practical skills. Emphasis is given, in this thesis, in the expressive gesture and its variations. The gesture recognition is accomplished by using machine-learning algorithms and motion capture technologies. According to the literature review, several research approaches have been conducted aiming not only at the recognition of the performed gesture but also at the sonification of the gesture. However, a weakness that emerges is that the existing methodologies fail to take into account expressive variations that may occur during the performance of the incoming gesture with respect to the template gesture. This results in the recognition not being correct throughout the performance of the expressive gesture and in overlaps occurring between the different classes of classification. As a consequence, the sonification of the expressive gesture is not fluid and immediate.For this purpose, the proposed thesis presents a novel methodology which aims at a) the stochastic modeling, b) the gesture recognition and c) the sonification of the expressive gesture of the user, taking into account possible variations that may occur during the performance of the expressive gesture. This is achieved with the development of the Expert Operational Model, through which the confidence bounds are extracted. The added value of the Expert Operational Model, and thus of the confidence bounds, is that, during the recognition, the system prevents numerical errors that may occur due to variations, made either intentionally or not, and which may also be regarded as expressive elements of the performance of the gesture. The recognition of the expressive gesture is implemented by using machine-learning algorithms and specifically the Particle Filter algorithm. In addition, sound synthesis methods are applied to gesture sonification, providing the user the ability to resynthesize and manipulate the sound continuously and in real-time.The evaluation of the proposed methodology in comparison with established techniques and machine-learning algorithms, shows higher percentages of recognition, accuracy and similarity between the produced sound and the original. Another observation is that the quality of the produced and resynthesized sound in real-time, directly depends on the quality of the recognition of the expressive gesture. The better the performance of the incoming expressive gesture, the better, more fluid and without oscillations is the recognition of the expressive gesture. Hence, the re-synthesis of the sound is better and more fluid. Finally, the positive results of the evaluation, along with the proposed theoretical framework, confirm the efficient use of the confidence bounds in the recognition and sonification of the expressive gesture.
περισσότερα