Εκμάθηση οπτικών και πολυτροπικών αναπαραστάσεων

Περίληψη

Στην παρούσα διατριβή διερευνώνται και αναπτύσσονται καινοτόμες μέθοδοι για την εκμάθηση οπτικών και οπτικο-γλωσσικών (πολυτροπικών) αναπαραστάσεων, με έμφαση στη βαθιά εκμάθηση μετρικής, την ταξινόμηση εικόνων και τη σύνθετη ανάκτηση εικόνων. Οι προκλήσεις της εκμάθησης αναπαραστάσεων αντιμετωπίζονται τόσο σε επίπεδο δεδομένων όσο και μοντέλων. Η μέθοδος Metrix προτείνεται για τη βαθιά εκμάθηση μετρικής, χρησιμοποιώντας την τεχνική της ανάμειξης (mixup) για επαύξηση δεδομένων. Το Metrix επιλύει το πρόβλημα της παρεμβολής εικόνων και ετικετών, κάτι που είναι δύσκολο λόγω της μη προσθετικής φύσης των παραδοσιακών συναρτήσεων απώλειας. Γενικεύοντας τις υπάρχουσες συναρτήσεις απώλειας, το Metrix εισάγει την έννοια της "θετικότητας" για ζεύγη εικόνων και αξιοποιεί τη γραμμική παρεμβολή για να βελτιώσει τη μάθηση και να εξερευνήσει νέες περιοχές στο χώρο ενσωματωμένων αναπαραστάσεων. Τα πειράματα δείχνουν ότι το Metrix ξεπερνά τις υπάρχουσες μεθόδους σε ανθεκτικότητα και γενίκευση. Η μέθοδο ...
περισσότερα

Περίληψη σε άλλη γλώσσα

Representations lie at the heart of artificial intelligence, enabling machines to perceive, interpret and interact with the world. Visual representations, extracted from images or videos, enable tasks such as image classification, image retrieval, and object detection. Visual-textual representations, bridging the gap between the visual and linguistic domains, enable tasks like image captioning, visual question answering, and cross-modal retrieval. The ability to learn and manipulate these representations is paramount for advancing the state-of-the-art in computer vision and beyond. In this dissertation, we investigate novel methods for learning both visual (unimodal) and visual-textual (multimodal) representations, focusing mainly on applications in deep metric learning, image classification, and composed image retrieval. We address the challenges of learning representations from both datacentric and model-centric perspectives, aiming to unlock new capabilities for visual understanding ...
περισσότερα

Όλα τα τεκμήρια στο ΕΑΔΔ προστατεύονται από πνευματικά δικαιώματα.

DOI
10.12681/eadd/57401
Διεύθυνση Handle
http://hdl.handle.net/10442/hedi/57401
ND
57401
Εναλλακτικός τίτλος
Learning visual and multimodal representations
Συγγραφέας
Ψωμάς, Βασίλειος (Πατρώνυμο: Εμμανουήλ)
Ημερομηνία
2024
Ίδρυμα
Εθνικό Μετσόβιο Πολυτεχνείο (ΕΜΠ). Σχολή Αγρονόμων και Τοπογράφων Μηχανικών - Μηχανικών Γεωπληροφορικής. Τομέας Τοπογραφίας. Εργαστήριο Τηλεπισκόπησης
Εξεταστική επιτροπή
Καράντζαλος Κωνσταντίνος
Αργιαλάς Δημήτριος
Τόλιας Γεώργιος
Καραθανάση Βασιλεία
Παπουτσής Ιωάννης
Κομοντάκης Νικόλαος
Βακαλοπούλου Μαρία
Επιστημονικό πεδίο
Επιστήμες Μηχανικού και ΤεχνολογίαΕπιστήμη Ηλεκτρολόγου Μηχανικού, Ηλεκτρονικού Μηχανικού, Μηχανικού Η/Υ ➨ Τεχνολογία μέσων
Λέξεις-κλειδιά
Νευρωνικά δίκτυα; Όραση υπολογιστών; Βαθιά μάθηση; Τηλεπισκόπηση; Εκμάθηση αναπαραστάσεων
Χώρα
Ελλάδα
Γλώσσα
Αγγλικά
Άλλα στοιχεία
εικ., πιν., σχημ., γραφ.
Στατιστικά χρήσης
ΠΡΟΒΟΛΕΣ
Αφορά στις μοναδικές επισκέψεις της διδακτορικής διατριβής για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.
ΞΕΦΥΛΛΙΣΜΑΤΑ
Αφορά στο άνοιγμα του online αναγνώστη για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.
ΜΕΤΑΦΟΡΤΩΣΕΙΣ
Αφορά στο σύνολο των μεταφορτώσων του αρχείου της διδακτορικής διατριβής.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.
ΧΡΗΣΤΕΣ
Αφορά στους συνδεδεμένους στο σύστημα χρήστες οι οποίοι έχουν αλληλεπιδράσει με τη διδακτορική διατριβή. Ως επί το πλείστον, αφορά τις μεταφορτώσεις.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.