Περίληψη
Η παρούσα διατριβή εντοπίζεται στο χώρο της μηχανικής όρασης και πιο συγκεκριμένα στον τομέα της ανάλυσης της ανθρώπινης κίνησης σε ακολουθίες εικόνων βάδισης. Σκοπός της διατριβής είναι, χρησιμοποιώντας πολυεπίπεδες τεχνικές μηχανικής εκμάθησης, να συλλάβει την υποκείμενη δομή της πληροφορίας που προκύπτει από την ανθρώπινη βάδιση στοχεύοντας σε προβλήματα ταξινόμησης. Αρχικά, εξετάζονται διαφορετικοί τρόποι εξαγωγής (τοπικών) χαρακτηριστικών από ακολουθίες βάδισης. Τα χαρακτηριστικά αυτά κωδικοποιούν τοπική ή περιορισμένη χώρο-χρονικά πληροφορία, ενώ στη συνέχεια αξιοποιούνται ώστε να δημιουργηθούν περιγραφές υψηλού επιπέδου, χρησιμοποιώντας πολλαπλές απεικονίσεις των χαρακτηριστικών. Αυτό επιτυγχάνεται χρησιμοποιώντας τρεις διαφορετικές προσεγγίσεις, οι οποίες μοιράζονται μια κοινή ιδιότητα- επιτρέπουν την κωδικοποίηση των ακολουθιών βάδισης σε διανύσματα σταθερού μεγέθους. Αυτή η ιδιότητα είναι σημαντική καθώς επιτρέπει την επεξεργασία χρονοσειρών ή κατανομών με τη χρήση ταξινομητώ ...
Η παρούσα διατριβή εντοπίζεται στο χώρο της μηχανικής όρασης και πιο συγκεκριμένα στον τομέα της ανάλυσης της ανθρώπινης κίνησης σε ακολουθίες εικόνων βάδισης. Σκοπός της διατριβής είναι, χρησιμοποιώντας πολυεπίπεδες τεχνικές μηχανικής εκμάθησης, να συλλάβει την υποκείμενη δομή της πληροφορίας που προκύπτει από την ανθρώπινη βάδιση στοχεύοντας σε προβλήματα ταξινόμησης. Αρχικά, εξετάζονται διαφορετικοί τρόποι εξαγωγής (τοπικών) χαρακτηριστικών από ακολουθίες βάδισης. Τα χαρακτηριστικά αυτά κωδικοποιούν τοπική ή περιορισμένη χώρο-χρονικά πληροφορία, ενώ στη συνέχεια αξιοποιούνται ώστε να δημιουργηθούν περιγραφές υψηλού επιπέδου, χρησιμοποιώντας πολλαπλές απεικονίσεις των χαρακτηριστικών. Αυτό επιτυγχάνεται χρησιμοποιώντας τρεις διαφορετικές προσεγγίσεις, οι οποίες μοιράζονται μια κοινή ιδιότητα- επιτρέπουν την κωδικοποίηση των ακολουθιών βάδισης σε διανύσματα σταθερού μεγέθους. Αυτή η ιδιότητα είναι σημαντική καθώς επιτρέπει την επεξεργασία χρονοσειρών ή κατανομών με τη χρήση ταξινομητών σχεδιασμένων να εργάζονται σε διανυσματικούς χώρους. Στην πρώτη προσέγγιση, οι ακολουθίες βάδισης απεικονίζονται σε ένα διανυσματικό χώρο με χρήση των απεικονίσεων στο χώρο των ανομοιοτήτων. Τα διανύσματα του χώρου αυτού στη συνέχεια κωδικοποιούνται με χρήση της Αραιής Αναπαράστασης (Sparse Representation), ενώ με αυτά τα διανύσματα είναι εφικτός ο διαχωρισμός των κλάσεων. Στη δεύτερη προσέγγιση, συνδυάζονται οι εξαιρετικές ιδιότητες των Αραιών Αναπαραστάσεων μαζί με αυτές των τεχνικών συσσώρευσης υπολοίπου. Πιο συγκεκριμένα, οι Αραιές Αναπαραστάσεις χρησιμοποιούνται ώστε να καθορίσουν τη διαδικασία συσσώρευσης υπολοίπου, η οποία και λαμβάνει χώρα στον αρχικό χώρο των χαρακτηριστικών. Στη συνέχεια κάθε δείγμα αναπαρίσταται εκ νέου ως ένα διάνυσμα αραιών συντελεστών- το οποίο και χρησιμοποιείται για τον διαχωρισμό των κλάσεων. Στην τρίτη προσέγγιση, συνδυάζεται πληροφορία από δύο διαφορετικές πολλαπλότητες, κάθε μια εκ των οποίων συλλαμβάνει διαφορετικά και συμπληρωματικά χαρακτηριστικά της βάδισης. Ο συνδυασμός της πληροφορίας γίνεται μεταβαίνοντας σε ένα κοινό χώρο Reproducing Kernel Hilbert Space (RKHS), ενώ στη συνέχεια κάθε δείγμα απεικονίζεται ως ένα διάνυσμα αραιών συντελεστών και το οποίο χρησιμοποιείται για το διαχωρισμό των κλάσεων. Οι προτεινόμενες τεχνικές δοκιμάζονται σε δημόσια διαθέσιμες βάσεις βάδισης με ακολουθίες σκελετικών αναπαραστάσεων και τα αποτελέσματα είναι εξαιρετικά. Τα αποτελέσματα επιβεβαιώνονται όπου είναι εφικτό και στο πρόβλημα της ταξινόμησης εικόνων κυττάρων ανοσοφθορισμού χρησιμοποιώντας αποκλειστικά δημόσια διαθέσιμες βάσεις.
περισσότερα
Περίληψη σε άλλη γλώσσα
This thesis focuses in the area of computer vision and in particular in the field of human motion analysis in sequence of images. Its main goal is, to develop feature extraction methods based on multilayer feature representations, which will be able to capture the underlying structure of human gait information that will be used for classification tasks. In this context, initially, methods for extracting features from gait sequences are studied. These features, which mostly encode frame-level or small spatio-temporal information are then used in order to create higher level feature representations using multiple feature mappings. These mappings are implemented using three methods which share a common property- they result in a fixed length vector representation. This property is very important as they allow one to treat time-series or distributions using classifiers originally designed to operate in vector spaces. In the first approach, gait sequences are mapped in the dissimilarity spa ...
This thesis focuses in the area of computer vision and in particular in the field of human motion analysis in sequence of images. Its main goal is, to develop feature extraction methods based on multilayer feature representations, which will be able to capture the underlying structure of human gait information that will be used for classification tasks. In this context, initially, methods for extracting features from gait sequences are studied. These features, which mostly encode frame-level or small spatio-temporal information are then used in order to create higher level feature representations using multiple feature mappings. These mappings are implemented using three methods which share a common property- they result in a fixed length vector representation. This property is very important as they allow one to treat time-series or distributions using classifiers originally designed to operate in vector spaces. In the first approach, gait sequences are mapped in the dissimilarity space using statistical measures between distributions or distribution distances. In that space the vector is mapped again using the Sparse Representation (SR) which is used in order to discriminate between gait sequences. The second approach combines the intriguing properties of Sparse Representations with the residual encoding methods. More specifically, the Sparse Representation is used here in order to determine the residual encoding procedure, which occurs in the original feature space. Then, each sample is also encoded using SR which is used to discriminate between different classes. In the third approach, information from different manifolds each one capturing different properties of human gait is fused. Using a mapping in a common space (Reproducing Kernel Hilbert Space), information is fused and then represented using SR- which is then used for the discrimination. The proposed methods are evaluated on publicly available datasets with skeletal gait sequences and the results are very interesting. Whenever it is possible, methods are also evaluated on the task of Human Epithelial type 2 (HEp-2) cells using publicly available datasets.
περισσότερα