Περίληψη
Στόχος της παρούσας διδακτορικής διατριβής ήταν η ανάπτυξη και μελέτη τεχνικών υπολογιστικής όρασης και μηχανικής μάθησης που αφορούν στην ανάλυση εικόνων και εικονοσειρών που απεικονίζουν ανθρώπους (μεμονωμένους ή σε πλήθη). Οι τεχνικές αυτές, με την εξαίρεση μιας τεχνικής που αφορά στην διάδοση ετικετών ταυτότητας ατόμου σε εικόνες προσώπου, έχουν σαν στόχο να επικουρήσουν στην λειτουργία και την πλοήγηση αυτόνομων συστημάτων (ρομπότ, μη επανδρωμένα αεροχήματα, UAVs) ή εμπλέκουν τέτοια συστήματα για την αποτελεσματικότερη συλλογή δεδομένων (ενεργητική όραση). Το πρώτο κεφάλαιο καταπιάνεται με το θέμα της αναγνώρισης προσώπων και συγκεκριμένα με την επιτάχυνση και αύξηση της απόδοσης του (δημοσιευμένου στην βιβλιογραφία) αλγορίθμου διάδοσης ετικετών ταυτότητας ατόμου σε πολλαπλούς γράφους με βάση την ομαδοποίηση και τις προβολές που διατηρούν την τοπικότητα (Multiple-graph Locality Preserving Projections - Cluster-based Label Propagation, MLPP-CLP). Προτείνεται επίσης μια τεχνική επαυ ...
Στόχος της παρούσας διδακτορικής διατριβής ήταν η ανάπτυξη και μελέτη τεχνικών υπολογιστικής όρασης και μηχανικής μάθησης που αφορούν στην ανάλυση εικόνων και εικονοσειρών που απεικονίζουν ανθρώπους (μεμονωμένους ή σε πλήθη). Οι τεχνικές αυτές, με την εξαίρεση μιας τεχνικής που αφορά στην διάδοση ετικετών ταυτότητας ατόμου σε εικόνες προσώπου, έχουν σαν στόχο να επικουρήσουν στην λειτουργία και την πλοήγηση αυτόνομων συστημάτων (ρομπότ, μη επανδρωμένα αεροχήματα, UAVs) ή εμπλέκουν τέτοια συστήματα για την αποτελεσματικότερη συλλογή δεδομένων (ενεργητική όραση). Το πρώτο κεφάλαιο καταπιάνεται με το θέμα της αναγνώρισης προσώπων και συγκεκριμένα με την επιτάχυνση και αύξηση της απόδοσης του (δημοσιευμένου στην βιβλιογραφία) αλγορίθμου διάδοσης ετικετών ταυτότητας ατόμου σε πολλαπλούς γράφους με βάση την ομαδοποίηση και τις προβολές που διατηρούν την τοπικότητα (Multiple-graph Locality Preserving Projections - Cluster-based Label Propagation, MLPP-CLP). Προτείνεται επίσης μια τεχνική επαυξητικής (incremental) διάδοσης ετικετών η οποία μπορεί να μειώσει την υπολογιστική πολυπλοκότητα της διάδοσης ετικετών σε εικόνες προσώπου όταν αυτή εφαρμόζεται σε δεδομένα των οποίων το πλήθος αυξάνεται με τον χρόνο. Στο δεύτερο κεφάλαιο παρέχεται μια επισκόπηση τεχνικών υπολογιστικής όρασης (π.χ. τεχνικών σημασιολογικής κατάτμησης εικόνας, χαρτογράφησης εξωτερικών χώρων για ανίχνευση τοποθεσίας προσγείωσης, σημασιολογικής χαρτογράφησης για ΣμηΕΑ και κινούμενα ρομπότ κλπ) που συμβάλλουν στην ασφάλεια πτήσεων, θέμα κρίσιμο για την πλοήγηση μη-επανδρωμένων αεροσκαφών. Δίνεται επίσης μια σύνοψη της σχετικής νομοθεσίας και κανονισμών ανά τον κόσμο. Οι τεχνικές αυτές είναι σχετικές με οποιοδήποτε είδος πτήσης αυτόνομων ΣμηΕΑ (π.χ., για την παραγωγή ταινιών/ τηλεόρασης, έρευνας/διάσωσης, επιθεώρησης, χαρτογράφησης, διαχείριση πλήθους) καθιστώντας το θέμα αυτό ευρέος ενδιαφέροντος. Στο τρίτο κεφάλαιο παρουσιάζονται εργαλεία που μπορούν να περιληφθούν σε αλγοριθμικές αλληλουχίες ασφάλειας πτήσεων των UAVs. Αρχικά, παρουσιάζεται μια τεχνική για τον εντοπισμό πιθανής τοποθεσίας προσγείωσης Μη Επανδρωμένων Αεροσκαφών (UAV) με χρήση πληροφοριών εδάφους μέσω αναγνώρισης επίπεδων περιοχών. Επίσης, προτείνεται μία μέθοδος αυτόματης επισημείωσης τρισδιάστατων χαρτών με περιοχές πλήθους, μέσω προβολής δισδιάστατων επισημειώσεων που προέρχονται από την οπτική ανάλυση βίντεο UAV. Στο τέταρτο κεφάλαιο παρουσιάζεται μια μέθοδος για εύρωστο, εν κινήσει 3D εντοπισμό και χαρτογράφηση πλήθους ανθρώπων σε μεγάλης κλίμακας εξωτερικά περιβάλλοντα. Η μέθοδος προϋποθέτει (και χρησιμοποιεί) την ανεξάρτητη οπτική ανίχνευση του πλήθους από αντίστοιχους ανιχνευτές στα βίντεο από τις κάμερες πολλαπλών ΣμηΕΑ. Το τελευταίο κεφάλαιο καταπιάνεται με ένα θέμα ενεργητικής υπολογιστικής όρασης που εμπλέκει ρομποτικά αυτόνομα συστήματα. Συγκεκριμένα, προσπαθώντας να αντιμετωπίσουμε την έλλειψη αλγορίθμων ενεργητικής αναγνώρισης προσώπου, σε αυτήν την Ενότητα, προτείνουμε μια προσέγγιση που χρησιμοποιεί φωτορεαλιστικές συνθετικές όψεις προσώπου που παράγονται από μία όψη.
περισσότερα
Περίληψη σε άλλη γλώσσα
The aim of this PhD thesis was the development and study of computer vision and machine learning techniques related to the analysis of images and image sequences depicting people (individuals or in crowds). These techniques, with the exception of a technique involving the propagation of person identity labels in facial images, are intended to assist in the operation and navigation of autonomous systems (robots, unmanned aerial vehicles, UAVs) or involve such systems for more efficient data collection (active vision). The first chapter tackles the subject of face recognition, and deals with speeding up and increasing the performance of a (published in the literature) person identity label propagation algorithm, namely the Multiple-graph Locality Preserving Projections - Cluster-based Label Propagation, MLPP-CLP algorithm. An incremental label propagation technique is also proposed which can reduce the computational complexity of facial image label propagation when applied to images whos ...
The aim of this PhD thesis was the development and study of computer vision and machine learning techniques related to the analysis of images and image sequences depicting people (individuals or in crowds). These techniques, with the exception of a technique involving the propagation of person identity labels in facial images, are intended to assist in the operation and navigation of autonomous systems (robots, unmanned aerial vehicles, UAVs) or involve such systems for more efficient data collection (active vision). The first chapter tackles the subject of face recognition, and deals with speeding up and increasing the performance of a (published in the literature) person identity label propagation algorithm, namely the Multiple-graph Locality Preserving Projections - Cluster-based Label Propagation, MLPP-CLP algorithm. An incremental label propagation technique is also proposed which can reduce the computational complexity of facial image label propagation when applied to images whose number increases with time, e.g. frames from a video feed. The second chapter provides an overview of computer vision techniques (e.g., for landing site detection, semantic mapping, semantic segmentation, obstacle avoidance etc.) that contribute to flight safety, a critical issue for the navigation of unmanned aircraft. A summary of relevant legislations and regulations around the world is also provided. These techniques are relevant to any type of autonomous UAV flight (e.g., for film/television production, search/rescue, inspection, mapping, crowd management) making this topic of broad interest. The third chapter presents tools that can be included in algorithmic UAV flight safety pipelines. First, a technique is presented to locate a potential (UAV) landing site using terrain information through flat area detection. Also, a method for the labeling of 3D maps with crowd areas is proposed. The method projects 2D crowd annotations derived from UAV video analysis on a 3D map using the UAV camera parameters. The fourth chapter presents a method for robust, on-the-fly 3D crowd detection and mapping in largescale outdoor environments. The method utilizes and fuses the independent crowd detections, by the corresponding detectors, in videos captured from the cameras of multiple UAVs. The final chapter tackles a topic of active computer vision involving robotic autonomous systems. Specifically, by trying to address the lack of active face recognition algorithms, in this chapter, we propose such an approach that uses photorealistic synthetic facial images in order to guide a robot towards view points that provide increased recognition accuracy.
περισσότερα