Περίληψη
Στις μέρες μας, υπάρχει ένα αυξανόμενο ενδιαφέρον για τη βελτίωση της αλληλεπίδρασης ανθρώπου-υπολογιστή λόγω της διείσδυσης των υπολογιστών σε κάθε πτυχή της καθημερινής ζωής. Τα μάτια αποτελούν τα πιο χαρακτηριστικά γνωρίσματα του ανθρώπινου προσώπου, καθώς παρέχουν πολύτιμες πληροφορίες για τη συμπεριφορά και τη γνωστική λειτουργία του ανθρώπου. Το ανθρώπινο βλέμμα αποτελεί μια επαναστατική προσέγγιση αλληλεπίδρασης χωρίς σωματική επαφή, ενισχύοντας μια πιο φυσική αλληλεπίδραση μεταξύ ανθρώπων και υπολογιστών. Κύριο στόχο αυτής της διατριβής αποτελεί η ανάπτυξη αξιόπιστων μεθόδων για τον εντοπισμό του κέντρου των ματιών και την εκτίμηση του βλέμματος, χρησιμοποιώντας τυπικές κάμερες κάτω από φυσικό φωτισμό, χωρίς την απαίτηση ειδικού εξοπλισμού. Παρά την ενεργό έρευνα στον τομέα αυτό, ο ακριβής εντοπισμός του κέντρου των ματιών και η εκτίμηση του βλέμματος παραμένουν δυσεπίλυτα προβλήματα λόγω πολλών περιορισμών που σχετίζονται με τη μεγάλη ποικιλία στο σχήμα και το χρώμα των ανθρώπ ...
Στις μέρες μας, υπάρχει ένα αυξανόμενο ενδιαφέρον για τη βελτίωση της αλληλεπίδρασης ανθρώπου-υπολογιστή λόγω της διείσδυσης των υπολογιστών σε κάθε πτυχή της καθημερινής ζωής. Τα μάτια αποτελούν τα πιο χαρακτηριστικά γνωρίσματα του ανθρώπινου προσώπου, καθώς παρέχουν πολύτιμες πληροφορίες για τη συμπεριφορά και τη γνωστική λειτουργία του ανθρώπου. Το ανθρώπινο βλέμμα αποτελεί μια επαναστατική προσέγγιση αλληλεπίδρασης χωρίς σωματική επαφή, ενισχύοντας μια πιο φυσική αλληλεπίδραση μεταξύ ανθρώπων και υπολογιστών. Κύριο στόχο αυτής της διατριβής αποτελεί η ανάπτυξη αξιόπιστων μεθόδων για τον εντοπισμό του κέντρου των ματιών και την εκτίμηση του βλέμματος, χρησιμοποιώντας τυπικές κάμερες κάτω από φυσικό φωτισμό, χωρίς την απαίτηση ειδικού εξοπλισμού. Παρά την ενεργό έρευνα στον τομέα αυτό, ο ακριβής εντοπισμός του κέντρου των ματιών και η εκτίμηση του βλέμματος παραμένουν δυσεπίλυτα προβλήματα λόγω πολλών περιορισμών που σχετίζονται με τη μεγάλη ποικιλία στο σχήμα και το χρώμα των ανθρώπινων ματιών, τα εμπόδια από τα μαλλιά ή τα γυαλιά, τις σκιές και τις παραλλαγές φωτισμού, τις ποικιλομορφίες έκφρασης του προσώπου και του κεφαλιού, κ.λπ. και γίνονται ακόμη πιο δύσκολα σε εφαρμογές όπου η ανάγκη για απόδοση σε πραγματικό χρόνο είναι ζωτικής σημασίας. Οι μέθοδοι που αναπτύχθηκαν για τον εντοπισμό του κέντρου των ματιών στοχεύουν στην αντιμετώπιση των προαναφερθέντων προβλημάτων εισάγοντας νέες προσεγγίσεις, ενώ παρέχουν ακριβή αποτελέσματα βελτιώνοντας την ακρίβεια της τεχνολογίας αιχμής. Συγκεκριμένα, προτάθηκε μία τροποποιημένη εκδοχή του Γρήγορου Μετασχηματισμού Ακτινικής Συμμετρίας, με την ονομασία MFRST, η οποία δίνει έμφαση στο σχήμα της ίριδας και στοχεύει στον εντοπισμό σχημάτων ακτινικής συμμετρίας. Ο μετασχηματισμός αυτός επίσης συνδυάστηκε με ένα συνελικτικό νευρωνικό δίκτυο (ΣΝΝ) προκειμένου να μειώσει τους εσφαλμένους εντοπισμούς του MFRST και επομένως να αυξήσει την συνολική απόδοση. Στην συνέχεια προτάθηκε μία νέα αρχιτεκτονική εντοπισμού του κέντρου των ματιών η οποία επιτελεί παλινδρόμηση εικόνας σε χάρτη θερμότητας μεταξύ των περιοχών των ματιών και των αντίστοιχων χαρτών θερμότητας. Τέλος, προτάθηκε ένα καινοτόμο πλαίσιο, με την ονομασία PupilTAN, το οποίο προσπάθησε να λύσει το πρόβλημα του εντοπισμού του κέντρου των ματιών με μη επιβλεπόμενο τρόπο, οδηγώντας σε νέες τεχνικές επίλυσης του προβλήματος στην περίπτωση της περιορισμένης επίβλεψης. Επιπλέον, το πρόβλημα της εκτίμησης βλέμματος εξετάζεται εκτενώς, παρέχοντας λύσεις που βασίζονται σε περιορισμένη εποπτεία, αξιοποιώντας μεγάλο αριθμό δεδομένων χωρίς ετικέτα. Συγκεκριμένα, προτάθηκε ένα μη επιβλεπόμενο πλαίσιο εκπαίδευσης αναπαράστασης βλέμματος, το οποίο βασίζεται στην μεταφορά βλέμματος προκειμένου να διαχωρίσει το διάνυσμα του βλέμματος, εκπαιδεύοντας στην συνέχεια έναν εκτιμητή βλέμματος με λίγα δείγματα. Όλες οι προτεινόμενες μέθοδοι αξιολογήθηκαν εκτενώς σε ποικίλες βάσεις δεδομένων και συγκρίθηκαν με την τεχνολογία αιχμής, αποκαλύπτοντας βελτιωμένη ακρίβεια. Αυτή η εργασία οδήγησε επίσης σε νέες ιδέες για την επίλυση των προβλημάτων εντοπισμού του κέντρου των ματιών και της εκτίμησης του βλέμματος, ειδικά σε περιπτώσεις περιορισμένης επίβλεψης, ενώ η χαμηλή πολυπλοκότητα των προτεινόμενων τεχνικών τις καθιστά αξιόπιστη λύση για εφαρμογές πραγματικού χρόνου.
περισσότερα
Περίληψη σε άλλη γλώσσα
Nowadays, there is a growing interest in improving human-computer interaction (HCI) due to the penetration of computer systems in every aspect of everyday life. Eyes constitute the most characteristic features of the human face, as they provide valuable insights into human behavior and cognition. Eye gaze constitutes a revolutionary approach to interact without physical contact fostering a more natural and responsive interaction between humans and computers. The main objective of this thesis is to develop accurate and reliable methods for localizing the positions of the eye centers and estimating the eye gaze, using standard cameras under natural illumination, without the requirement of any dedicated equipment. Despite the active research in this field, precise eye center localization and gaze estimation remain challenging problems due to many limitations related to the great variety in shape and color of human eyes, occlusions from hair or glasses, shadows and illumination variations, ...
Nowadays, there is a growing interest in improving human-computer interaction (HCI) due to the penetration of computer systems in every aspect of everyday life. Eyes constitute the most characteristic features of the human face, as they provide valuable insights into human behavior and cognition. Eye gaze constitutes a revolutionary approach to interact without physical contact fostering a more natural and responsive interaction between humans and computers. The main objective of this thesis is to develop accurate and reliable methods for localizing the positions of the eye centers and estimating the eye gaze, using standard cameras under natural illumination, without the requirement of any dedicated equipment. Despite the active research in this field, precise eye center localization and gaze estimation remain challenging problems due to many limitations related to the great variety in shape and color of human eyes, occlusions from hair or glasses, shadows and illumination variations, facial expression and head pose diversities, etc. and become even more challenging in applications where the need of real-time performance is crucial. The methods developed for the localization of the eye centers aim to deal with the aforementioned degradations by introducing novel approaches and provide accurate results improving the state-of-the-art accuracy. A modified version of the Fast Radial Symmetry Transform, namely MFRST, that emphasizes on the shape of the iris and aims to find shapes with high radial symmetry, was introduced. Moreover, this shape-based transform was combined with a Convolutional Neural Network (CNN) in order to reduce the false detections of the MFRST and thus increase the overall performance. In the sequel, a novel end-to-end eye center localization architecture that performs image to heatmap regression between the eye regions and the corresponding heatmaps was introduced. Finally, a novel framework, dubbed PupilTAN, that tried to solve the eye localization problem in an unsupervised way was also presented, revealing a novel insight on solving the eye localization problem in the case of limited supervision. Moreover, the gaze estimation problem is also extensively examined, providing solutions based on limited supervision by exploiting a large amount of unlabeled data. An unsupervised gaze representation learning approach based on gaze transfer that aims to disentangle the gaze feature, was introduced, and then, a gaze estimator was trained using few calibration samples. All the proposed methods have been extensively evaluated in challenging datasets and compared to the state-of-the-art, revealing enhanced accuracy. This work has also led to novel insights on solving the eye localization and gaze estimation problems especially in the case of limited supervision, while the low complexity of the proposed techniques makes them a reliable solution for real-time applications.
περισσότερα