Περίληψη
Η εκθετική ανάπτυξη των μεθοδολογιών υπολογιστικής όρασης, ιδιαίτερα των αρχιτεκτονικών βαθιάς μάθησης, έχει αυξήσει σημαντικά τη ζήτηση για δεδομένα υψηλής ποιότητας σε πολλούς τομείς, για την χρήση τους ως είσοδο ή έξοδο συστημάτων. Ενώ η παραγωγή συνθετικών δεδομένων έχει δει πολυάριθμες εξελίξεις σε πολλούς τομείς, δυστυχώς δεν ισχύει το ίδιο στον τομέα των εργασιών που σχετίζονται με το ανθρώπινο χέρι. Οι λίγες διαθέσιμες προσεγγίσεις σύνθεσης δεν επιτυγχάνουν ικανοποιητικό ρεαλισμό σε πολλαπλά πεδία (όπως το χρώμα, το βάθος, κλπ). Αυτή η διατριβή στοχεύει να αντιμετωπίσει αυτό το κενό, προτείνοντας νέες μεθοδολογίες για τη σύνθεση εικόνας χεριού στα πεδία του χρώματος και βάθους, εστιάζοντας συγκεκριμένα στην εκτίμηση βάθους, την αποτελεσματική πιθανολογική παραγωγική μοντελοποίηση και τη ελεγχόμενη παραγωγή δεδομένων. Για να αντιμετωπίσουμε το πρόβλημα εκτίμησης βάθους χεριού, στοχεύουμε στην εξισορρόπηση της ακρίβειας και της υπολογιστικής πολυπλοκότητας. Σε αυτή την κατεύθυνση ...
Η εκθετική ανάπτυξη των μεθοδολογιών υπολογιστικής όρασης, ιδιαίτερα των αρχιτεκτονικών βαθιάς μάθησης, έχει αυξήσει σημαντικά τη ζήτηση για δεδομένα υψηλής ποιότητας σε πολλούς τομείς, για την χρήση τους ως είσοδο ή έξοδο συστημάτων. Ενώ η παραγωγή συνθετικών δεδομένων έχει δει πολυάριθμες εξελίξεις σε πολλούς τομείς, δυστυχώς δεν ισχύει το ίδιο στον τομέα των εργασιών που σχετίζονται με το ανθρώπινο χέρι. Οι λίγες διαθέσιμες προσεγγίσεις σύνθεσης δεν επιτυγχάνουν ικανοποιητικό ρεαλισμό σε πολλαπλά πεδία (όπως το χρώμα, το βάθος, κλπ). Αυτή η διατριβή στοχεύει να αντιμετωπίσει αυτό το κενό, προτείνοντας νέες μεθοδολογίες για τη σύνθεση εικόνας χεριού στα πεδία του χρώματος και βάθους, εστιάζοντας συγκεκριμένα στην εκτίμηση βάθους, την αποτελεσματική πιθανολογική παραγωγική μοντελοποίηση και τη ελεγχόμενη παραγωγή δεδομένων. Για να αντιμετωπίσουμε το πρόβλημα εκτίμησης βάθους χεριού, στοχεύουμε στην εξισορρόπηση της ακρίβειας και της υπολογιστικής πολυπλοκότητας. Σε αυτή την κατεύθυνση, παρουσιάζουμε ένα μοντέλο με μικρό πλήθος παραμέτρων εκμάθησης που βασίζεται στην αρχιτεκτονική στοιβαγμένης κλεψύδρας (stacked hourglass model) για εκτίμηση βάθους εικόνων χεριών από έγχρωμες εικόνες. Χρησιμοποιώντας ενδιάμεση επίβλεψη και μια προσέγγιση σταδιακής μάθησης, το προτεινόμενο μοντέλο επιτυγχάνει ακρίβεια 22mm που δεν μπορούν να επιτύχουν άλλες μέθοδοι εκτίμησης βάθους γενικής χρήσης. Για να διευκολύνουμε την εκπαίδευση και την αξιολόγηση του μοντέλου, παρουσιάζουμε το HandRGBD, ένα νέο σύνολο δεδομένων με περισσότερα από 20.000 ευθυγραμμισμένα ζεύγη έγχρωμων εικόνων χεριού και βάθους. Με ακρίβεια συγκρίσιμη με αυτή των χαμηλού κόστους καμερών βάθους, αυτή η προσέγγιση γεφυρώνει το χάσμα μεταξύ των πεδίων χρώματος και βάθους, επιτρέποντας τις μεθόδους εκτίμησης πόζας χεριού που βασίζονται σε βάθος να εφαρμόζονται στην είσοδο έγχρωμης εικόνας.Για να βελτιώσουμε τις μεθόδους παραγωγής με επικείμενο στόχο να καταστεί δυνατή η πιο ακριβής και ελεγχόμενη παραγωγή εικόνων, χρειαζόμαστε άμεσο χειρισμό της λανθάνουσας αναπαράστασης των δεδομένων μας. Οι Αποκωδικοποιητές Διακύμανσης (Variational Autoencoders) διαθέτουν αυτήν την ιδιότητα. Για το λόγο αυτό, επαυξάνουμε αυτήν την οικογένεια μοντέλων εισάγοντας τους Αποκωδικοποιητές Διακύμανσης Τυχαίας Μεταβλητής (Random Variable-Variational Autoencoders (RV-VAE)), μια νέα εκδοχή που αντιμετωπίζει τις ενεργοποιήσεις ενός Τεχνητού Νευρωνικού δικτύου ως συνεχείς Τυχαίες Μεταβλητές (τ.μ.). Αυτό το επιτυγχάνουμε ενσωματώνοντας ειδικά σχεδιασμένες μονάδες Τεχνητών Νευρωνικών Δικτύων που εφαρμόζονται σε τ.μ. ως τελεστέους χρησιμοποιώντας κανόνες που ορίζονται από την άλγεβρα των τυχαίων μεταβλητών. Βελτιστοποιώντας τα μοντέλα μας στις πλήρεις κατανομές στον λανθάνοντα χώρο και όχι σε διακριτά δείγματα, τα RV-VAE ενσωματώνουν μαθηματικές προγενέστερες κατανομές, μειώνοντας το υπολογιστικό φόρτο και βελτιώνοντας την ανακατασκευή και την απόδοση παραγωγής. Τέλος, προτείνουμε τον Εποπτευόμενο Αποκωδικοποιητή Διακύμανσης Τυχαίας Μεταβλητής (Supervised Random Variable-Variational Autoencoder (SRV-VAE)), ένα νέο πλαίσιο για τη δημιουργία φωτορεαλιστικών εικόνων χεριών που εξαρτώνται από ακριβείς επισημειώσεις πόζας. Το SRV-VAE καταφέρνει να διαχωρίσει τη πόζα και την εμφάνιση της εικόνας του χεριού εισόδου, εξασφαλίζοντας ισχυρό έλεγχο κατά τη σύνθεση, διατηρώντας παράλληλα τον ρεαλισμό κατά την εκτίμηση. Το μοντέλο επιδεικνύει αποτελεσματικότητα στη δημιουργία διαφορετικών εικόνων χεριών χρησιμοποιώντας τις δυνατότητες των μοντέλων με επίγνωση στις τυχαίες μεταβλητές. Επιπλέον, χρησιμοποιώντας αυτό το πλαίσιο, είμαστε σε θέση να αυξήσουμε και να διαφοροποιήσουμε σύνολα δεδομένων εκπαίδευσης χεριών με σκοπό τη βελτίωση της εκτίμησης πόζας. Συνολικά, αυτές οι συνεισφορές δημιουργούν ένα θεμέλιο για την προώθηση εργασιών που σχετίζονται με το χέρι στην υπολογιστική όραση, προσφέροντας λύσεις για τη σύνθεση εικόνας χεριού σε πολλαπλά πεδία. Οι παρουσιαζόμενες μεθοδολογίες γεφυρώνουν κρίσιμα κενά στη δημιουργία δεδομένων και έχουν τη δυνατότητα να ανταποκριθούν στην αυξανόμενη ζήτηση για υψηλής ποιότητας δεδομένα χεριών, ενώ αντιμετωπίζουν προκλήσεις σε σχέση με την αποτελεσματικότητα και τον ρεαλισμό, θέτοντας τα θεμέλια για μελλοντικές εξελίξεις σε συστήματα παραγωγής και ανάλυσης χεριών.
περισσότερα
Περίληψη σε άλλη γλώσσα
The exponential growth of computer vision methodologies, particularly deep learning architectures, has significantly increased the demand for high-quality data across multiple domains, to serve as input or output modalities. While synthetic data generation has seen numerous developments in many areas, unfortunately the same does not apply to the field of human hand-related tasks. The few available synthesis approaches fail to achieve satisfactory realism and multi-domain variety. This dissertation aims to address this gap by proposing novel methodologies for hand image synthesis in the RGB and depth domains, focusing specifically on depth estimation, efficient probabilistic generative modeling, and controllable data generation. To tackle the hand depth estimation problem, we aim at balancing accuracy and computational complexity. In that direction, we present a lightweight model based on the stacked-hourglass architecture for monocular RGB-to-depth estimation of hand images. Employing ...
The exponential growth of computer vision methodologies, particularly deep learning architectures, has significantly increased the demand for high-quality data across multiple domains, to serve as input or output modalities. While synthetic data generation has seen numerous developments in many areas, unfortunately the same does not apply to the field of human hand-related tasks. The few available synthesis approaches fail to achieve satisfactory realism and multi-domain variety. This dissertation aims to address this gap by proposing novel methodologies for hand image synthesis in the RGB and depth domains, focusing specifically on depth estimation, efficient probabilistic generative modeling, and controllable data generation. To tackle the hand depth estimation problem, we aim at balancing accuracy and computational complexity. In that direction, we present a lightweight model based on the stacked-hourglass architecture for monocular RGB-to-depth estimation of hand images. Employing intermediate supervision and a staged learning approach, the proposed model achieves an accuracy of 22mm that other general-purpose depth estimating methods cannot achieve. To facilitate training and evaluation, we introduce HandRGBD, a new dataset of over 20,000 aligned hand image pairs of RGB and depth. With an accuracy comparable to that of low-cost depth cameras, this work bridges the gap between RGB and RGBD domains, enabling RGBD-based hand pose estimation methods to be applicable to RGB input. To enhance generative methods with the imminent goal of enabling more accurate and controllable generation of images, we require direct manipulation of the latent representation of our data. Variational Autoencoders (VAE) possess that property. For this reason, we augment this family of models by introducing Random Variable Variational Autoencoders (RV-VAE), a novel formulation that treats artificial neural network activations as continuous Random Variables (RV). We achieve this by integrating specially designed Artificial Neural Network modules, that are applied to RV operands using rules defined by the algebra of random variables. By optimizing over full distributions in the latent space rather than discrete samples, RV-VAE incorporate mathematical priors, reducing computational load and improving reconstruction and generative performance. Finally, we propose the Supervised Random Variable Variational Autoencoder (SRV-VAE), a novel framework for generating photorealistic hand images conditioned on precise pose annotations. The SRV-VAE manages to disentangle the pose and appearance of the input hand image, ensuring robust control over synthesis while maintaining realism during inference. The model demonstrates efficacy in generating diverse hand images by utilizing the capabilities of RV-aware modalities. Moreover, using this framework, we are able to augment and diversify hand training sets with the purpose of enhancing pose estimation tasks. Collectively, these contributions establish a foundation for advancing hand-related tasks in computer vision by offering solutions to multi-domain hand image synthesis. The presented methodologies bridge critical gaps in data generation and have the potential to meet the growing demand for high-quality hand data while addressing challenges in efficiency and realism, laying the foundation for future advancements in generative systems and hand analysis.
περισσότερα