Περίληψη
Η αναγνώριση ανθρώπινης δραστηριότητας ασχολείται με την αναγνώριση της ανθρώπινης συμπεριφοράς με βάση μετρήσεις και παρατηρήσεις. Πρόκειται για ένα ερευνητικό πεδίο που εντάσσεται στο ευρύτερο επιστημονικό πεδίο της υπολογιστικής όρασης και τυγχάνει σημαντικής προσοχής από την ερευνητική κοινότητα. Οι προσεγγίσεις αναγνώρισης ανθρώπινης συμπεριφοράς μπορούν να χρησιμοποιήσουν διάφορους τύπους αισθητήρων, για να καταγράψουν και να αναλύσουν τις σχετικές δραστηριότητες. Ωστόσο, οι φορετοί αισθητήρες δεν προτιμώνται από τους χρήστες, ενώ οι αισθητήρες που τοποθετούνται στο περιβάλλον μπορεί να είναι δαπανηροί ή να απαιτούν παρεμβάσεις στο χώρο τους. Ως εκ τούτου, χρησιμοποιούνται συνήθως λύσεις χαμηλού κόστους που βασίζονται στην καταγραφή της κίνησης με κάμερες σε τρισδιάστατο χώρο. Η αναγνώριση ανθρώπινης δραστηριότητας έχει εφαρμογές στη επιτήρηση με χρήση βίντεο, την αλληλεπίδραση ανθρώπου-υπολογιστή/ρομπότ, την επαυξημένη πραγματικότητα, την παρακολούθηση της υγείας, την έξυπνη οδή ...
Η αναγνώριση ανθρώπινης δραστηριότητας ασχολείται με την αναγνώριση της ανθρώπινης συμπεριφοράς με βάση μετρήσεις και παρατηρήσεις. Πρόκειται για ένα ερευνητικό πεδίο που εντάσσεται στο ευρύτερο επιστημονικό πεδίο της υπολογιστικής όρασης και τυγχάνει σημαντικής προσοχής από την ερευνητική κοινότητα. Οι προσεγγίσεις αναγνώρισης ανθρώπινης συμπεριφοράς μπορούν να χρησιμοποιήσουν διάφορους τύπους αισθητήρων, για να καταγράψουν και να αναλύσουν τις σχετικές δραστηριότητες. Ωστόσο, οι φορετοί αισθητήρες δεν προτιμώνται από τους χρήστες, ενώ οι αισθητήρες που τοποθετούνται στο περιβάλλον μπορεί να είναι δαπανηροί ή να απαιτούν παρεμβάσεις στο χώρο τους. Ως εκ τούτου, χρησιμοποιούνται συνήθως λύσεις χαμηλού κόστους που βασίζονται στην καταγραφή της κίνησης με κάμερες σε τρισδιάστατο χώρο. Η αναγνώριση ανθρώπινης δραστηριότητας έχει εφαρμογές στη επιτήρηση με χρήση βίντεο, την αλληλεπίδραση ανθρώπου-υπολογιστή/ρομπότ, την επαυξημένη πραγματικότητα, την παρακολούθηση της υγείας, την έξυπνη οδήγηση, τα παιχνίδια, τα κινούμενα σχέδια και άλλα. Ως δραστηριότητες θεωρούνται πλήρεις ανθρώπινες κινήσεις ή ακολουθίες ενεργειών που σχηματίζουν μια ουσιαστική ανθρώπινη δράση, ενώ η αναγνώρισή τους από δεδομένα κίνησης θεωρείται ένα από τα πιο δύσκολα προβλήματα υπολογιστικής όρασης, που περιλαμβάνει την αναγνώριση της ανθρώπινης συμπεριφοράς σε εικόνες ή ακολουθίες βίντεο. Οι προσεγγίσεις αναγνώρισης συμπεριφοράς που βασίζονται σε κάμερες είναι χαμηλού κόστους και αποδίδουν καλά σε εργαστηριακές συνθήκες. Ωστόσο, αντιμετωπίζουν προκλήσεις σε πραγματικές συνθήκες, συμπεριλαμβανομένων των αλλαγών οπτικής γωνίας και φωτισμού, καθώς και της παρεμπόδισης. Η μεταβολή του σημείου παρατήρησης συμβαίνει όταν το θέμα παρατηρείται από διαφορετικό σημείο από αυτό που χρησιμοποιήθηκε για την εκπαίδευση. Οι πολλαπλές κάμερες μπορούν να αντισταθμίσουν αυτό το πρόβλημα. Οι αλλαγές φωτισμού επηρεάζουν τις προσεγγίσεις που βασίζονται σε βίντεο, αλλά οι πληροφορίες βάθους μπορούν να βοηθήσουν να ξεπεραστεί αυτή η πρόκληση. Η παρεμπόδιση, που προκαλείται από έπιπλα ή την παρουσία άλλων ανθρώπων, είναι το πιο περιοριστικό πρόβλημα. Η πλήρης παρεμποδιση καθιστά αδύνατη την αναγνώριση, αλλά η μερική παρεμπόδιση μπορεί να επιτρέψει την αναγνώριση ανάλογα με το ορατό υποσύνολο του σκελετού. Η επίδραση της μερικής παρεμπόδισης στην ακρίβεια της αναγνώρισης έχει μελετηθεί, δείχνοντας ότι μπορεί να επηρεάσει σημαντικά την απόδοση με την έκταση να ποικίλλει ανά δραστηριότητα. Η παρούσα διατριβή αρχίζει με την παρουσίαση των συνόλων δεδομένων που θα χρησιμοποιηθούν για την πειραματική αξιολόγηση των προτεινόμενων προσεγγίσεων. Παρουσιάζονται οι οπτικοί αισθητήρες που χρησιμοποιούνται συνήθως στις σύγχρονες προσεγγίσεις υπολογιστικής όρασης για την αναγνώριση της δραστηριότητας, καθώς και διάφορες βιβλιοθήκες λογισμικού υπολογιστικής όρασης που μπορούν να συμπληρώσουν αυτούς τους αισθητήρες. Παρέχεται επίσης μια επισκόπηση των ερευνητικών προσπαθειών στην ευρύτερη ερευνητική περιοχή, με χρήση οπτικών δεδομένων. Στη συνέχεια, παρουσιάζεται το θεωρητικό και πειραματικό υπόβαθρο για τις μεθοδολογίες που θα συζητηθούν στην παρούσα διατριβή. Συγκεκριμένα, περιγράφονται οι κυριότεροι αλγόριθμοι μηχανικής μάθησης που χρησιμοποιούνται, συμπεριλαμβανομένων των νευρωνικών δικτύων συνελικτικής μάθησης, των αναδρομικών νευρωνικών δικτύων και των γεννητικών ανταγωνιστικών δικτύων. Επιπλέον, περιγράφονται οι γλώσσες προγραμματισμού και οι βιβλιοθήκες που χρησιμοποιήθηκαν για την υλοποίηση, παρέχεται λεπτομερή εξήγηση των τρισδιάστατων σκελετικών δεδομένων που χρησιμοποιήθηκαν ως δεδομένα εισόδου για τις προτεινομενες προσεγγίσεις και παρουσιάζονται τα πρωτόκολλα πειραματικής αξιολόγησης που ευθυγραμμίζονται με την υπάρχουσα βιβλιογραφία. Στη συνέχεια, ακολουθεί η παρουσίαση της πραγματοποιηθήσας έρευνας, η οποία ξεκινά με μια ψευδο-χρωματική αναπαράσταση εικόνας που έχει ως στόχο να συλλάβει τα χαρακτηριστικά της τρισδιάστατης σκελετικής κίνησης κατά τη διάρκεια μιας δραστηριότητας μέσα σε μοναδική εικόνα. Έπειτα, προτείνεται μια προσέγγιση σύντηξης που συνδυάζει χειροποίητα και χαρακτηριστικά βαθιάς μάθησης. Ο στόχος αυτής της προσέγγισης είναι να αξιολογηθεί κατά πόσον τα χαρακτηριστικά που εξάγονται από ένα συνελικτικό νευρωνικό δίκτυο που εκπαιδεύεται με ψευδοχρωματικές αναπαραστάσεις της τρισδιάστατης σκελετικής κίνησης μπορούν να βελτιώσουν την απόδοση των παραδοσιακών προσεγγίσεων. Με άλλα λόγια, διερευνάται κατά πόσον τα χαρακτηριστικά αυτά μπορούν να παρέχουν πρόσθετες ενδείξεις για την αναγνώριση δραστηριοτήτων. Επιπλέον, προτείνεται μια προσέγγιση για την αντιμετώπιση του προβλήματος της απόκρυψης σε προβλήματα αναγνώρισης συμπεριφοράς. Η προσέγγιση αυτή περιλαμβάνει την επαύξηση του συνόλου δεδομένων εκπαίδευσης με δείγματα τόσο με όσο και χωρίς παρεμπόδιση. Στη συνέχεια γίνεται χρήση ενός βαθιού δικτύου το οποίο υλοποιεί παλινδρόμηση, με σκοπό να ανακατασκευάσει αρθρώσεις του σκελετού που δεν είναι ορατές λόγω της παρεμπόδισης. Τέλος διερευνάται η χρήση ενός γεννητικού ανταγωνιστικού δικτύου για την ανακατασκευή αρθρώσεων. Και στις δύο προσεγγίσεις ανακατασκευής, η ταξινόμηση πραγματοποιείται με τη χρήση ενός δικτύου που εκπαιδεύεται αποκλειστικά με πλήρη δείγματα. Η διατριβή κλείνει με την παρουσίαση εκτενών συμπερασμάτων σχετικά με όλες τις προσεγγίσεις που έχουν παρουσιαστεί και συζητώνται πιθανές ερευνητικές κατευθύνσεις προς τη συνέχιση των προτεινόμενων μεθολογιών.
περισσότερα
Περίληψη σε άλλη γλώσσα
Human activity recognition (HAR) is the task of identifying human behavior based on measurements and observations. It is a challenging computer vision task that has gained significant attention in the research community. HAR approaches can utilize various types of sensors, to capture and analyze human activities. However, wearable sensors are not preferred by users, and sensors placed in the environment can be costly or require interventions. Therefore, low-cost solutions based on camera-based motion capture in 3D space are commonly used. HAR has applications in video surveillance, human-computer/robot interaction, augmented reality, health monitoring, intelligent driving, gaming, animation, and more. Actions and activities are considered complete human motions or sequences of actions forming a meaningful human action, although these terms are mostly used interchangeably, while their recognition from motion data is considered one of the most challenging computer vision problems, invol ...
Human activity recognition (HAR) is the task of identifying human behavior based on measurements and observations. It is a challenging computer vision task that has gained significant attention in the research community. HAR approaches can utilize various types of sensors, to capture and analyze human activities. However, wearable sensors are not preferred by users, and sensors placed in the environment can be costly or require interventions. Therefore, low-cost solutions based on camera-based motion capture in 3D space are commonly used. HAR has applications in video surveillance, human-computer/robot interaction, augmented reality, health monitoring, intelligent driving, gaming, animation, and more. Actions and activities are considered complete human motions or sequences of actions forming a meaningful human action, although these terms are mostly used interchangeably, while their recognition from motion data is considered one of the most challenging computer vision problems, involving the recognition of human behavior in images or video sequences. Camera-based HAR approaches are low-cost and perform well in laboratory conditions. However, they face challenges in real-life conditions, including viewpoint and illumination changes, as well as occlusion. Viewpoint variance occurs when the subject is observed from a different viewpoint than during training. Multiple cameras can compensate for this. Illumination changes affect video-based approaches, but depth information can help overcome this challenge. Occlusion, caused by furniture or the presence of other humans, is the most limiting problem. Full occlusion makes HAR impossible, but partial occlusion can still allow recognition depending on the visible skeleton subset. The effect of partial occlusion on HAR accuracy has been studied, showing that it can significantly impact recognition performance, with the extent varying for each activity. This Thesis begins by introducing the datasets that will be used to experimentally evaluate the proposed approaches. We discuss the primary visual sensors commonly used in contemporary computer vision approaches for Human Activity Recognition (HAR), as well as various computer vision libraries that can complement these sensors. We also provide an overview of the research efforts in the broader field of HAR using visual data. Next, we present the theoretical and experimental background for the methodologies that will be discussed in this Thesis. Specifically, we outline the main machine learning algorithms employed, including Convolutional Neural Networks, Recurrent Neural Networks, and Generative Adversarial Networks. Additionally, we describe the programming languages and libraries utilized for implementation, we provide a detailed explanation of the 3D skeletal data used as input for our approaches, and we present the experimental evaluation protocols that align with the existing literature. Subsequently, we commence the presentation of our research with a pseudo-colored image representation for HAR. This representation aims to capture the characteristics of 3D skeletal motion during an activity within a single image. We propose a fusion approach that combines handcrafted and contextual features for HAR. The objective of this approach is to assess whether features extracted from a Convolutional Neural Network trained with pseudo-colored representations of 3D skeletal motion can enhance the performance of traditional approaches. In other words, we investigate whether these features can provide additional cues for activity recognition. Furthermore, we propose an approach to address the issue of occlusion in HAR problems. This approach involves augmenting the training dataset with both occluded and non-occluded samples. We then attempt to overcome the occlusion problem using a deep regression network, which aims to reconstruct missing skeletal joints. Additionally, we explore the use of a Generative Adversarial Network for joint reconstruction. In both reconstruction approaches, classification is performed using a network trained exclusively on non-occluded samples. Finally, we present extensive conclusions regarding all approaches that are presented and we discuss possible research directions towards the continuation of this work.
περισσότερα