Περίληψη
Τα τελευταία χρόνια, η αυξημένη διαθεσιμότητα φθηνού υλικού ψηφιοποίησης τριδιάστατων αντικειμένων και απλοποιημένου λογισμικού προσομοίωσης είχε ως αποτέλεσμα τη δημιουργία μαζικών βάσεων δεδομένων δυναμικών τριδιάστατων εκφράσεων προσώπου, οι οποίες είτε είναι διαθέσιμες στο κοινό ή αποκλειστικά για ιδιωτική χρήση. Αυτές οι βάσεις αποτελούνται από τριαδιάστατες πλεγματοσειρές εκφράσεων προσώπου. Ως εκ τούτου, παρουσιάστηκαν δυο νέα προβλήματα για την ερευνητική κοινότητα: Η Αναγνώριση και η Ανάκτηση ανθρώπινων εκφράσεων προσώπου από τριδιάστατες πλεγματοσειρές. Το πρώτο πρόβλημα παρουσίασε αυξημένο ενδιαφέρον στην ερευνητική κοινότητα. Αντίθετα, δεν υπάρχει επαρκής ερευνητική δραστηριότητα για το δεύτερο πρόβλημα που αφορά την ανάκτηση.Η παρούσα διατριβή εστιάζει στην ανάκτηση. Αναπτύχθηκε ένα σχήμα ανάκτησης τριών βημάτων: (Α) Αρχικά, ανιχνεύονται οκτώ τριαδιάστατα σημεία ορόσημα του προσώπου σε κάθε τριαδιάστατο πλέγμα της ακολουθίας. (Β) Στην συνέχεια, τα ορόσημα που εξάχθηκαν, χρ ...
Τα τελευταία χρόνια, η αυξημένη διαθεσιμότητα φθηνού υλικού ψηφιοποίησης τριδιάστατων αντικειμένων και απλοποιημένου λογισμικού προσομοίωσης είχε ως αποτέλεσμα τη δημιουργία μαζικών βάσεων δεδομένων δυναμικών τριδιάστατων εκφράσεων προσώπου, οι οποίες είτε είναι διαθέσιμες στο κοινό ή αποκλειστικά για ιδιωτική χρήση. Αυτές οι βάσεις αποτελούνται από τριαδιάστατες πλεγματοσειρές εκφράσεων προσώπου. Ως εκ τούτου, παρουσιάστηκαν δυο νέα προβλήματα για την ερευνητική κοινότητα: Η Αναγνώριση και η Ανάκτηση ανθρώπινων εκφράσεων προσώπου από τριδιάστατες πλεγματοσειρές. Το πρώτο πρόβλημα παρουσίασε αυξημένο ενδιαφέρον στην ερευνητική κοινότητα. Αντίθετα, δεν υπάρχει επαρκής ερευνητική δραστηριότητα για το δεύτερο πρόβλημα που αφορά την ανάκτηση.Η παρούσα διατριβή εστιάζει στην ανάκτηση. Αναπτύχθηκε ένα σχήμα ανάκτησης τριών βημάτων: (Α) Αρχικά, ανιχνεύονται οκτώ τριαδιάστατα σημεία ορόσημα του προσώπου σε κάθε τριαδιάστατο πλέγμα της ακολουθίας. (Β) Στην συνέχεια, τα ορόσημα που εξάχθηκαν, χρησιμοποιούνται για να κατασκευαστούν οι περιγραφείς της πλεγματοσειράς. (Γ) Τέλος, εφαρμόζονται κατάλληλες συναρτήσεις απόστασης για σύγκριση μεταξύ διαφορετικών περιγραφέων (π.χ. επερώτησης με βάσης) και παραγωγή λίστας ανάκτησης. Ο πυρήνας του προβλήματος είναι η κατασκευή περιγραφέων. Στην παρούσα διατριβή δημιουργήθηκαν έξι νέοι περιγραφείς ανάκτησης εκφράσεων προσώπου από τριαδιάστατες πλεγματοσειρές (GeoTopo, GeoTopo+, DCT-GeoTopo, WT-GeoTopo+, CVD, WT-CVD). Οι εν λόγο περιγραφείς σταθερά αύξησαν τις επιδόσεις του σχήματος ανάκτησης. Οι δυο περιγραφείς είναι χωρικοί, δηλαδή βασίζονται μόνο στις χωρικές μεταβολές του προσώπου, εξαιτίας μιας έκφρασης. Οι τέσσερις είναι χωροχρονικοί, δηλαδή βασίζονται και σε χωρικές αλλά και χρονικές μεταβολές στο ανθρώπινο πρόσωπο, εξαιτίας των εκφράσεων. Ο GeoTopo είναι ένας υβριδικός χωρικός περιγραφέας που αποθηκεύει στην τοπολογική αλλά και γεωμετρική πληροφορία των τριδιάστατων πλεγμάτων προσώπου με την συνένωση δυο υπο-περιγραφέων, ενός για την τοπολογία και ενός για την γεωμετρία του τριαδιάστατου προσώπου του εκάστοτε πλέγματος. Ο GeoTopo+ είναι, επίσης, ένας υβριδικός χωρικός περιγραφέας και πρόκειται για μια βελτιωμένη έκδοση του GeoTopo. Ο GeoTopo+ συνενώνει δυο γεωμετρικούς και έναν τοπολογικό υπο-περιγραφέα. Το κίνητρο για την κατασκευή των παραπάνω υβριδικών και χωρικών περιγραφέων είναι ότι κάποιες εκφράσεις προσώπου (χαρά, έκπληξη) χαρακτηρίζονται από εμφανείς μεταβολές στην τοπολογία του προσώπου, ενώ άλλες (θυμός, φόβος, λύπη) χαρακτηρίζονται από γεωμετρικές αλλά όχι εμφανείς τοπολογικές μεταβολές.Ο DCT-GeoTopo, είναι ο πρώτος χωροχρονικός περιγραφέας που κατασκευάστηκε. Αρχικά, αποθηκεύεται μόνο η τοπολογική πληροφορία των πλεγμάτων προσώπου. Έπειτα, εφαρμόζεται ο μετασχηματισμός συνημίτονου. Ο WT-GeoTopo+ είναι ένας υβριδικός χωροχρονικός περιγραφέας που αποθηκεύει την τοπολογική και γεωμετρική πληροφορία όπως ο περιγραφέας GeoTopo+. Στην συνέχεια, η εν λόγο πληροφορία φιλτράρεται με μετασχηματισμό κυματιδίων. Ο CVD είναι ένας χωροχρονικός περιγραφέας που εκμεταλλεύεται το βάθος των οκτώ οροσήμων προσώπου. Τέλος, ο WT-CVD είναι μια βελτιωμένη έκδοση του CVD και παράγεται μετά το φιλτράρισμα της πληροφορίας βάθους με μετασχηματισμό κυματιδίων. Εν γένει, οι χωροχρονικοί περιγραφείς είναι πολύ λιγότερο απαιτητικοί σε θέματα χωριτικότητας αλλά και ταχύτητας από τους χωρικούς περιγραφείς. Επιπλέον, είναι ανεξάρτητοι από το πλήθος των πλεγμάτων εντός της πλεγματοσειράς.Οι περιγραφείς που αναπτύχθηκαν και περιγράφηκαν αξιολογούνται με όρους ακρίβειας ανάκτησης και συγκρίνονται ποσοτικά και ποιοτικά με τους περιγραφείς της τρέχουσας τεχνολογικής στάθμης στις ευρέως χρησιμοποιούμενες βάσεις δεδομένων. Η εν λόγο σύγκριση φανερώνει την ανωτερότητα των προτεινόμενων περιγραφέων. Επιπλέον παρουσιάζεται μια τεχνική η οποία εκμεταλλεύεται τα αποτελέσματα της ανάκτησης προκειμένου να επιτύχει μη-καθοδηγούμενη αναγνώριση έκφρασης προσώπου από τριδιάστατες πλεγματοσειρές. Η τεχνική που προτάθηκε στην παρούσα διατριβή επιτυγχάνει καλύτερα αποτελέσματα, σε όρους ακρίβειας ταξινόμησης
περισσότερα
Περίληψη σε άλλη γλώσσα
In recent years, the increased availability of inexpensive 3D object acquisition hardware and simplified 3D modeling software has resulted in the creation of massive 3D facial expression mesh sequences datasets that are either publicly available or for proprietary use. Consiquently, two new problems for the research community arose: Facial Expression Recognition from 3D mesh sequences and Facial Expression Retrieval from 3D mesh sequences. The first problem has gained a lot of interest among the research community. On the contrary, no sufficient research has been conducted on the second problem that deals with Retrieval.This dissertation focuses on the problem of facial expression retrieval from large datasets of 3D facial expressions mesh sequences. In order to address this problem we develop a 3-step retrieval scheme: (i) initially, eight 3D facial landmarks are automatically detected on each 3D face mesh of the sequence. (ii) Next, the landmarks extracted in the previous step, are u ...
In recent years, the increased availability of inexpensive 3D object acquisition hardware and simplified 3D modeling software has resulted in the creation of massive 3D facial expression mesh sequences datasets that are either publicly available or for proprietary use. Consiquently, two new problems for the research community arose: Facial Expression Recognition from 3D mesh sequences and Facial Expression Retrieval from 3D mesh sequences. The first problem has gained a lot of interest among the research community. On the contrary, no sufficient research has been conducted on the second problem that deals with Retrieval.This dissertation focuses on the problem of facial expression retrieval from large datasets of 3D facial expressions mesh sequences. In order to address this problem we develop a 3-step retrieval scheme: (i) initially, eight 3D facial landmarks are automatically detected on each 3D face mesh of the sequence. (ii) Next, the landmarks extracted in the previous step, are used in order for the descriptors of the 3D facial expression mesh sequence to be created. (iii) Finally, appropriate distance functions are used in order for different descriptors (i.e. query descriptor vs dataset descriptor) to be compared and the retrieval list is produced. The core of the problem is the creation of appropriate descriptors. Six pioneer descriptors were created during this dissertation for 3D mesh sequence facial expression retrieval purposes (GeoTopo, GeoTopo+, DCT-GeoTopo, WT-GeoTopo+, CVD, WT-CVD). The aforementioned descriptors steadily increased the retrieval evaluation metrics. Two of them are spatial, which means that they are based only on spatial modifications of the facial expressions across time, and the remaining four are spatio-temporal, which means that they are based on both time and space modifications of the facial expressions.GeoTopo is a hybrid spatial descriptor which captures the topological as well as the geometric information of the 3D face meshes along time. This is achieved by concatenating two different sub-descriptors, one for the topology and one for the geometry of the 3D face mesh. GeoTopo+ is a hybrid spatial descriptor and is an improved version of GeoTopo. GeoTopo+ used two sub-descriptors for capturing the facial geometry and one for capturing facial topology.The motivation behind the proposed spatial, hybrid facial expression descriptors is the fact that some facial expressions, like happiness and surprise, are characterized by obvious changes in the mouth topology while others, like anger, fear and sadness, produce geometric but no significant topological changes.DCT-GeoTopo is the first attempt of constructing a spatio-temporal descriptor for 3D mesh sequence facial expression retrieval purposes. Initially, DCT-GeoTopo descriptor captures topological information of the 3D facial expression sequence. In the sequel, Discrete Cosine Transformation is applied on the aforementioned information consulting to the final spatio-temporal descriptor. WT-GeoTopo+ is a hybrid spatio-temporal descriptor which captures the geometric and the topological information of the 3D meshes in a similar way as GeoTopo+ does. In the sequel, the aforementioned spatial information is filtered by using Wavelet Transformation resulting to our final spatio-temporal descriptor. CVD descriptor is a spatio-temporal descriptor which exploits the depth information of the eight chosen facial landmarks. Finally, WT-CVD is an improved version of CVD which is produced after performing the Wavelet Transformation, on the depth information of the extracted facial landmarks.The motivation behind the proposed spatio-temporal descriptors is the fact that, in general, spatio-temporal descriptors are much more frugal, in terms of space and time requirements, than spatial descriptors. In addition, spatio-temporal descriptors are invariant to the number of the 3D face meshes of a facial expression sequence.The descriptors developed and described in this dissertation are evaluated in terms of retrieval accuracy and demonstrated using both quantitative and qualitative measures via an extensive consistent evaluation against state-of-the-art descriptors on standard datasets. This comparison illustrates the superiority of our descriptors compared to the state-of-the-art ones. Furthermore, a technique which exploits the retrieval results, in order to achieve unsupervised facial expression recognition from 3D mesh sequences, is presented. Our proposed technique achieve better results in terms of classification accuracy compared to the supervised dynamic 3D facial expression recognition state-of-the-art techniques.
περισσότερα