Περίληψη
Στην παρούσα διατριβή διερευνώνται και αναπτύσσονται καινοτόμες μέθοδοι για την εκμάθηση οπτικών και οπτικο-γλωσσικών (πολυτροπικών) αναπαραστάσεων, με έμφαση στη βαθιά εκμάθηση μετρικής, την ταξινόμηση εικόνων και τη σύνθετη ανάκτηση εικόνων. Οι προκλήσεις της εκμάθησης αναπαραστάσεων αντιμετωπίζονται τόσο σε επίπεδο δεδομένων όσο και μοντέλων. Η μέθοδος Metrix προτείνεται για τη βαθιά εκμάθηση μετρικής, χρησιμοποιώντας την τεχνική της ανάμειξης (mixup) για επαύξηση δεδομένων. Το Metrix επιλύει το πρόβλημα της παρεμβολής εικόνων και ετικετών, κάτι που είναι δύσκολο λόγω της μη προσθετικής φύσης των παραδοσιακών συναρτήσεων απώλειας. Γενικεύοντας τις υπάρχουσες συναρτήσεις απώλειας, το Metrix εισάγει την έννοια της "θετικότητας" για ζεύγη εικόνων και αξιοποιεί τη γραμμική παρεμβολή για να βελτιώσει τη μάθηση και να εξερευνήσει νέες περιοχές στο χώρο ενσωματωμένων αναπαραστάσεων. Τα πειράματα δείχνουν ότι το Metrix ξεπερνά τις υπάρχουσες μεθόδους σε ανθεκτικότητα και γενίκευση. Η μέθοδο ...
Στην παρούσα διατριβή διερευνώνται και αναπτύσσονται καινοτόμες μέθοδοι για την εκμάθηση οπτικών και οπτικο-γλωσσικών (πολυτροπικών) αναπαραστάσεων, με έμφαση στη βαθιά εκμάθηση μετρικής, την ταξινόμηση εικόνων και τη σύνθετη ανάκτηση εικόνων. Οι προκλήσεις της εκμάθησης αναπαραστάσεων αντιμετωπίζονται τόσο σε επίπεδο δεδομένων όσο και μοντέλων. Η μέθοδος Metrix προτείνεται για τη βαθιά εκμάθηση μετρικής, χρησιμοποιώντας την τεχνική της ανάμειξης (mixup) για επαύξηση δεδομένων. Το Metrix επιλύει το πρόβλημα της παρεμβολής εικόνων και ετικετών, κάτι που είναι δύσκολο λόγω της μη προσθετικής φύσης των παραδοσιακών συναρτήσεων απώλειας. Γενικεύοντας τις υπάρχουσες συναρτήσεις απώλειας, το Metrix εισάγει την έννοια της "θετικότητας" για ζεύγη εικόνων και αξιοποιεί τη γραμμική παρεμβολή για να βελτιώσει τη μάθηση και να εξερευνήσει νέες περιοχές στο χώρο ενσωματωμένων αναπαραστάσεων. Τα πειράματα δείχνουν ότι το Metrix ξεπερνά τις υπάρχουσες μεθόδους σε ανθεκτικότητα και γενίκευση. Η μέθοδος SimPool επικεντρώνεται στη βελτίωση της διαδικασίας συγκέντρωσης (pooling) στα νευρωνικά δίκτυα, τόσο σε συνελικτικά νευρωνικά δίκτυα (CNNs) όσο και σε οπτικούς μετασχηματιστές (ViTs). Το SimPool αντικαθιστά την προεπιλεγμένη συγκέντρωση με μια προσέγγιση βασισμένη στην προσοχή (attention). Μέσω ενός γενικού πλαισίου, αναλύονται και συγκρίνονται υπάρχουσες μέθοδοι συγκέντρωσης, οδηγώντας στη δημιουργία του SimPool, το οποίο βελτιώνει την απόδοση σε επιβλεπόμενη και αυτο-επιβλεπόμενη μάθηση. Δημιουργεί υψηλής ποιότητας χάρτες προσοχής, βελτιώνοντας τον εντοπισμό αντικειμένων και τη σταθερότητα σε αλλαγές στο υπόβαθρο. Η τρίτη μέθοδος, FreeDom, είναι μια λύση για σύνθετη ανάκτηση εικόνων μηδενικής λήψης (zero-shot) σε σενάρια μετατροπής τομέων ανοιχτού κόσμου. Σε αντίθεση με τις παραδοσιακές μεθόδους που αντιστρέφουν τις εικόνες σε συνεχή χώρο χαρακτηριστικών, το FreeDom χρησιμοποιεί διακριτή αντιστροφή στον χώρο του κειμένου, κάτι που το καθιστά αποτελεσματικότερο στην αναζήτηση. Χρησιμοποιεί ένα προ-εκπαιδευμένο και παγωμένο οπτικο-γλωσσικό μοντέλο, επιτρέποντας την ευέλικτη σύνθεση ερωτημάτων εικόνας και κειμένου. Τα πειράματα δείχνουν ότι το FreeDom αποδίδει καλύτερα από υπάρχουσες μεθόδους σε σενάρια σύνθετης ανάκτησης. Τέλος, η μέθοδος WeiCom εισάγεται για σύνθετη ανάκτηση εικόνων τηλεπισκόπησης, επιτρέποντας την αναζήτηση με βάση την τροποποίηση χαρακτηριστικών όπως το χρώμα, η πυκνότητα και το σχήμα. Χωρίς να απαιτεί εκπαίδευση, το WeiCom χρησιμοποιεί ένα προ-εκπαιδευμένο οπτικο-γλωσσικό μοντέλο και έναν μηχανισμό ελέγχου τροπικότητας για την παραγωγή αποτελεσμάτων προσανατολισμένων είτε στην εικόνα είτε στο κείμενο. Το σύστημα δοκιμάζεται σε ένα νέο σετ δεδομένων, το PatternCom, επιδεικνύοντας ανώτερη απόδοση σε σχέση με άλλες μεθόδους.
περισσότερα
Περίληψη σε άλλη γλώσσα
Representations lie at the heart of artificial intelligence, enabling machines to perceive, interpret and interact with the world. Visual representations, extracted from images or videos, enable tasks such as image classification, image retrieval, and object detection. Visual-textual representations, bridging the gap between the visual and linguistic domains, enable tasks like image captioning, visual question answering, and cross-modal retrieval. The ability to learn and manipulate these representations is paramount for advancing the state-of-the-art in computer vision and beyond. In this dissertation, we investigate novel methods for learning both visual (unimodal) and visual-textual (multimodal) representations, focusing mainly on applications in deep metric learning, image classification, and composed image retrieval. We address the challenges of learning representations from both datacentric and model-centric perspectives, aiming to unlock new capabilities for visual understanding ...
Representations lie at the heart of artificial intelligence, enabling machines to perceive, interpret and interact with the world. Visual representations, extracted from images or videos, enable tasks such as image classification, image retrieval, and object detection. Visual-textual representations, bridging the gap between the visual and linguistic domains, enable tasks like image captioning, visual question answering, and cross-modal retrieval. The ability to learn and manipulate these representations is paramount for advancing the state-of-the-art in computer vision and beyond. In this dissertation, we investigate novel methods for learning both visual (unimodal) and visual-textual (multimodal) representations, focusing mainly on applications in deep metric learning, image classification, and composed image retrieval. We address the challenges of learning representations from both datacentric and model-centric perspectives, aiming to unlock new capabilities for visual understanding and interaction. In visual representation learning, we first focus on data and introduce Metrix, a deep metric learning method utilizing mixup for data augmentation. Metrix addresses the challenge of interpolating both examples and target labels, overcoming the non-additive nature of traditional metric learning loss functions. By generalizing existing loss functions to incorporate mixup, Metrix enhances learning and explores new embedding space regions. We introduce a novel metric, utilization, to measure this exploration. Experiments on four benchmark datasets, including various mixup settings, show that Metrix significantly outperforms state-of-the-art methods, improving robustness and generalization. This work exemplifies our aim to advance visual representation learning through innovative data augmentation. Next, we shift our focus to the model architecture, introducing SimPool, a simple attention-based pooling method designed to replace the default pooling in both convolutional neural networks (CNNs) and vision transformers (ViTs). We develop a generic pooling framework and formulate existing pooling methods as its instantiations, allowing us to analyze, compare, and discuss their properties. Through this, we derive SimPool, which improves performance in supervised and self-supervised settings on standard benchmarks and downstream tasks. SimPool generates high-quality attention maps that accurately delineate object boundaries, significantly enhancing object localization and robustness to background changes. It improves object discovery metrics and performs efficiently, even when removing ViT blocks, thus optimizing the balance between performance and model complexity. This work exemplifies our aim to advance visual representation learning through innovative model architecture components. Transitioning to visual-textual representations, we introduce FreeDom, a training-free method for zero-shot composed image retrieval in open-world domain conversion. FreeDom leverages the descriptive power of a frozen vision-language model (VLM) and employs textual inversion, enabling flexible image and text query composition. Unlike traditional methods that invert query images to the continuous latent space of tokens, FreeDom’s inversion into the discrete input space of text is pivotal for its success. Experiments on four benchmark domain conversion datasets, including three newly introduced by us, demonstrate its superior performance. Additionally, FreeDom performs on par with the best methods in generic composed image retrieval. This work exemplifies our aim to advance multimodal representation learning through innovative discrete-space textual inversion. Expanding on visual-textual representations, we now focus on their applications in remote sensing to introduce a novel task: remote sensing composed image retrieval (RSCIR). This task aims to provide a more expressive and flexible search capability within the remote sensing domain. We explore and qualitatively evaluate the unique challenges and capabilities this task introduces. Users can now pair a query image with a query text specifying modifications related to color, shape, size, texture, density, context, quantity, or the presence of certain classes. To quantitatively assess this, we establish a benchmark, PatternCom, and an evaluation protocol focusing on shape, color, density, and quantity modifications. Our method, WeiCom, operates training-free by utilizing a frozen vision-language model and incorporates a modality control parameter for generating more image- or text-oriented results based on specific search needs. This work exemplifies our aim to advance multimodal representation learning by introducing a flexible method that showcases the potential of this novel task in a new domain.
περισσότερα