Περίληψη
Τα τελευταία χρόνια, με τη χρήση βαθιών νευρωνικών δικτύων (Deep Neural Networks - DNN) και μέσω της επιβλεπόμενης μάθησης (supervised learning) έχει σημειωθεί σημαντική πρόοδος σε τεράστιο πλήθος εφαρμογών στην όραση υπολογιστών και στην τηλεπισκόπηση. Συγκεκριμένα, τα DNN εκπαιδεύονται έτσι ώστε να αντιστοιχίζουν σωστά τις εισόδους στις εξόδους. Ωστόσο, τα συστήματα αυτά απαιτούν τεράστιες ποσότητες επισημασμένων δεδομένων προκειμένου να επιτύχουν υψηλή απόδοση. Αυτό σημαίνει ότι η μάθηση με επίβλεψη απαιτεί μεγάλο όγκο ανθρώπινης εργασίας για την παραγωγή και ψηφιοποίηση επαρκών επισημάνσεων υψηλής ποιότητας. Επίσης, υπάρχουν περιπτώσεις όπου η συλλογή ικανοποιητικού αριθμού επισημάνσεων είναι πολύ δύσκολη. Ένα τέτοιο παράδειγμα είναι η συλλογή και ψηφιοποίηση δεδομένων θαλάσσιας ρύπανσης (π.χ. πλαστικά απορρίμματα) στο θαλάσσιο περιβάλλον. Ακόμα, τα DNN που εκπαιδεύονται με επιβλεπόμενη μάθηση συνήθως δεν έχουν ικανοποιητική γενίκευση σε νέα δεδομένα, καθώς εκπαιδεύονται στο να απο ...
Τα τελευταία χρόνια, με τη χρήση βαθιών νευρωνικών δικτύων (Deep Neural Networks - DNN) και μέσω της επιβλεπόμενης μάθησης (supervised learning) έχει σημειωθεί σημαντική πρόοδος σε τεράστιο πλήθος εφαρμογών στην όραση υπολογιστών και στην τηλεπισκόπηση. Συγκεκριμένα, τα DNN εκπαιδεύονται έτσι ώστε να αντιστοιχίζουν σωστά τις εισόδους στις εξόδους. Ωστόσο, τα συστήματα αυτά απαιτούν τεράστιες ποσότητες επισημασμένων δεδομένων προκειμένου να επιτύχουν υψηλή απόδοση. Αυτό σημαίνει ότι η μάθηση με επίβλεψη απαιτεί μεγάλο όγκο ανθρώπινης εργασίας για την παραγωγή και ψηφιοποίηση επαρκών επισημάνσεων υψηλής ποιότητας. Επίσης, υπάρχουν περιπτώσεις όπου η συλλογή ικανοποιητικού αριθμού επισημάνσεων είναι πολύ δύσκολη. Ένα τέτοιο παράδειγμα είναι η συλλογή και ψηφιοποίηση δεδομένων θαλάσσιας ρύπανσης (π.χ. πλαστικά απορρίμματα) στο θαλάσσιο περιβάλλον. Ακόμα, τα DNN που εκπαιδεύονται με επιβλεπόμενη μάθηση συνήθως δεν έχουν ικανοποιητική γενίκευση σε νέα δεδομένα, καθώς εκπαιδεύονται στο να αποδίδουν καλά μόνο σε μια συγκεκριμένη εργασία/ περιοχή, και δεν είναι ικανά να μεταφερθούν με επιτυχία σε κάποια άλλη νέα (transfer learning). Προς αυτή την κατεύθυνση, η μη επιβλεπόμενη μάθηση (unsupervised learning) επιχειρεί να αντιμετωπίσει τις προαναφερθείσες προκλήσεις. ΄Ενα από τα υποσχόμενα πρότυπα εκπαίδευσης χωρίς επίβλεψη είναι η αυτό-επίβλεψη (self-supervised learning). Τα DNN που εκπαιδεύονται μέσω αυτό-επίβλεψης μπορούν να μαθαίνουν χωρίς επισημασμένα δεδομένα. Έμμεσα, μέσω της αυτο-επίβλεψης τα δεδομένα εκπαίδευσης επισημαίνονται "αυτόματα". Μια καθιερωμένη προσέγγιση είναι η δημιουργία προσχηματικών εργασιών (pretext tasks), όπως για παράδειγμα η πρόβλεψη της περιστροφής μιας εικόνας ή ο χρωματισμός της εικόνας. Έτσι ένα DNN εκπαιδεύεται χρησιμοποιώντας κάποια προσέγγιση αυτο-επίβλεψης και στη συνέχεια επανεκπαιδεύεται/ προσαρμόζεται για την επίλυση άλλων εργασιών, όπως η ταξινόμηση εικόνων. Ωστόσο, ο πολύπλοκος τρόπος λειτουργίας των DNN δημιουργεί ερωτήματα, αβεβαιότητα και εμπόδια στη χρήση τους, με αποτέλεσμα τα μοντέλα αυτά να αναφέρονται συχνά και ως μαύρο κουτί (black-box). Σε αυτή την κατεύθυνση, οι μέθοδοι ερμηνείας τεχνητής νοημοσύνης (Explainable Artificial Inteligence - XAI), παρουσιάζονται ικανές να παρέχουν εξηγήσεις για την καλύτερη κατανόηση των αποφάσεων και της λειτουργίας πολύπλοκων μεθόδων μηχανικής μάθησης. Συγκεκριμένα μέσω των τεχνικών αυτών μπορεί να γίνει κατανοητό το τι οδήγησε να πάρει το μοντέλο μία συγκεκριμένη απόφαση αλλά και γενικά χαρακτηριστικά για τη λειτουργία του. Συνεπώς δύναται να αξιολογηθεί η απόδοση ενός μοντέλου πέραν των καθιερωμένων μετρικών ακρίβειας. Μέθοδοι ερμηνείας μπορούν να αξιοποιηθούν είτε α) όντας ενσωματωμένες εντός του μοντέλου δημιουργώντας αυτό-ερμηνεύσιμα μοντέλα είτε β) χωρίς να έχουν συμπεριληφθεί σε αυτά εξαρχής. Όσον αφορά την πρώτη περίπτωση, σύγχρονες τεχνικές μη επιβλεπόμενης μάθησης ενσωματώνουν προηγμένες αρχιτεκτονικές όπως τους Transformers, οι οποίοι περιλαμβάνουν επίπεδα προσοχής (attention layers). Αυτά τα επίπεδα (layers) διευκολύνουν την ερμηνεία των αποτελεσμάτων του μοντέλου. Οι Transformers, αρχικά αναπτύχθηκαν για εφαρμογές στη επεξεργασία φυσικής γλώσσας (Natural Language Processing - NLP), και έγιναν γρήγορα δημοφιλείς λόγω της ικανότητάς τους να διαχειρίζονται τις μακρινές συσχετίσεις μεταξύ λέξεων σε κείμενα. Αυτό επιτυγχάνεται μέσω της χρήσης των επιπέδων προσοχής (attention layers) που επιτρέπουν την έμφαση σε σημαντικά τμήματα του κειμένου. Πρόσφατα οι Transformers έχουν επεκταθεί και στον τομέα της όρασης υπολογιστών, με την εισαγωγή του Vision Transformer (ViT), όπου οι εικόνες χωρίζονται σε μέρη (patches) και η επεξεργασία αυτών γίνεται παρόμοια με τις λέξεις. Παρόλα αυτά η περαιτέρω αξιοποίηση των επιπέδων προσοχής κατά την ίδια την διαδικασία της μάθησης δεν έχει εξεταστεί στις πιο πρόσφατες προσεγγίσεις στην όραση υπολογιστών. Ως προς την δεύτερη περίπτωση, τα τελευταία χρόνια η ανάπτυξη και ο σχεδιασμός τεχνικών XAI για την ερμηνεία των μοντέλων έχουν συγκεντρώσει σημαντικό επιστημονικό ενδιαφέρον. Ωστόσο, ελάχιστες επιστημονικές μελέτες έχουν πραγματοποιηθεί στο αντικείμενο της τηλεπισκόπησης και παρατήρησης γης. Προς αυτή την κατεύθυνση η παρούσα διδακτορική διατριβή διερεύνησε και εξέλιξε προηγμένες τεχνικές μάθησης χωρίς επίβλεψη στις περιοχές αυτό-επίβλεψης (self-supervised learning) και αντικειμενοστραφούς μάθησης (object-centric learning) αξιοποιώντας τα επίπεδα προσοχής (attention layers) των ViT, καθώς και αξιολόγησε και εφάρμοσε μεθόδους ερμηνείας τεχνητής νοημοσύνης (XAI) στην τηλεπισκόπηση, στις επιστημονικές περιοχές χρήσεων γης (land cover) και ανίχνευσης θαλάσσιας ρύπανσης (marine pollution). Στο πρώτο στάδιο, η διατριβή επικεντρώθηκε στην λεπτομερή αξιολόγηση μεθόδων XAI για τη βέλτιστη ερμηνεία των αποφάσεων βαθιών νευρωνικών δικτύων σε προβλήματα ταξινόμησης στην τηλεπισκόπηση. Συγκεκριμένα, αξιοποιώντας σύνολα δορυφορικών δεδομένων χρήσεων γης όπως το BigEarthNet και το SEN12MS, μελετήθηκαν και αξιολογήθηκαν δέκα τεχνικές XAI: Saliency, Input × Gradient, Integrated Gradients, Guided Backpropagation, Grad-CAM, Guided Grad-CAM, Lime, Occlusion, DeepLift καθώς και οι παραλλαγές τους που ενσωματώνουν την τεχνική SmoothGrad. Η αξιολόγηση πραγματοποιήθηκε χρησιμοποιώντας ποσοτικές μετρικές και ποιοτική ανάλυση για την κάθε μέθοδο, εξετάζοντας την επεξηγηματικότητα, την αξιοπιστία, την υψηλή χωρική ανάλυση των αποτελεσμάτων, καθώς και τις υπολογιστικές απαιτήσεις. Ως προς τις ποσοτικές μετρικές εξετάστηκαν: α) η μέγιστη ευαισθησία (Max-Sensitivity) της κάθε μεθόδου όταν η εικόνα εισόδου διαταράσσεται ελαφρώς, β) το πόσο γρήγορα μεταβάλλεται η απόφαση του μοντέλου καθώς αφαιρούμε σταδιακά εικονοστοιχεία (pixels), τα οποία εμφανίζονται ως τα πιο σημαντικά για μια απόφαση (Most Relevant First - (MoRF)), γ) το μέγεθος της ερμηνείας σε Kilobytes (KB) μετά από JPEG συμπίεση για την ποσοτικοποίηση του περιεχομένου πληροφορίας (File Size) και δ) ο υπολογιστικός χρόνος που απαιτείται για την εκτέλεση της κάθε μεθόδου ερμηνείας (Computational Time). Η ανάλυση αυτή ανέδειξε τα πλεονεκτήματα και τα μειονεκτήματα των μεθόδων XAI. Συγκεκριμένα, καμία μέθοδος XAI δεν κατέστη αναμφισβήτητα η κορυφαία, όμως οι Occlusion, Grad-CAM και Lime ξεχώρισαν για την ερμηνευσιμότητα και αξιοπιστία τους. Επιπλέον, από αυτές, η Grad-CAM εμφανίστηκε υπολογιστικά η πιο αποδοτική. Στη συνέχεια η διατριβή επικεντρώθηκε σε μεθόδους βαθιάς μηχανικής μάθησης χωρίς επίβλεψη που χρησιμοποιούν αρχιτεκτονικές Transformer, οι οποίες εμπεριέχουν επίπεδα (layers) προσοχής (attention) και καθιστούν ως ένα βαθμό τα μοντέλα αυτά αυτο-ερμηνεύσιμα. Συγκεκριμένα, στόχευσε στην αξιοποίηση των επιπέδων προσοχής (attention layers) κατά την ίδια την μάθηση με σκοπό τη βελτίωση της απόδοσης των μοντέλων. Στην κατεύθυνση αυτή, εστίασε στην υπο-περιοχή της αυτο-επιβλεπόμενης μάθησης που ονομάζεται Μοντελοποίηση Καλυμμένης Εικόνας (Masked Image Modeling - MIM). Στην MIM, μέρη μιας εικόνας καλύπτονται σκοπίμως και το μοντέλο εκπαιδεύεται να προβλέπει τα καλυμμένα τμήματα, βελτιώνοντας έτσι την ικανότητά του να αναγνωρίζει και να ερμηνεύει οπτικά δεδομένα. Παραδοσιακά, η κάλυψη πραγματοποιείται με τυχαία επιλογή περιοχών της εικόνας. Η διατριβή εισήγαγε μία καινοτόμο στρατηγική όπου η απόκρυψη μέρους της εικόνας επιτυγχάνεται μέσω καθοδήγησης από τους χάρτες προσοχής (attention maps) του τελευταίου επιπέδου ενός ViT. Η προσέγγιση αυτή ονομάζεται Attention-Guided Masked Image Modeling (AttMask) και αποτελεί μια σημαντική πρόοδο στην περιοχή, προσφέροντας βελτιωμένη απόδοση σε σχέση με τις προηγούμενες στρατηγικές κάλυψης της εικόνας. Συγκεκριμένα, επιταχύνει τη διαδικασία μάθησης, επιτυγχάνει κορυφαία απόδοση σε μια σειρά από εφαρμογές (downstream tasks) με ή χωρίς επανεκπαίδευση (finetuning), εφαρμογές με περιορισμένα δεδομένα, και παρουσιάζει πιο σταθερή λειτουργία (robustness) σε αλλαγές του φόντου, εστιάζονται έτσι σε περιοχές της εικόνας που εμφανίζουν οπτική σημασία (salient regions). Επιπλέον, εισήγαγε την τεχνική SPOT, μια καινοτόμο προσέγγιση που αξιοποιεί επίπεδα προσοχής για να βελτιώσει την αντικειμενοστραφή μάθηση (object-centric learning). Οι πιο σύγχρονες μεθοδολογίες αντικειμενοστραφούς μάθησης, βασίζονται σε αρχιτεκτονικές που ένας κωδικοποιητής (encoder) παράγει διανύσματα (slots), που το κάθε ένα προορίζεται να αναπαριστά ένα αντικείμενο της εικόνας, και στην συνέχεια ένας αποκωδικοποιητής (decoder) προσπαθεί να ανακατασκευάσει την εικόνα εισόδου χρησιμοποιώντας αυτά τα διανύσματα. Επίσης, έχει παρατηρηθεί ότι στον τομέα της αντικειμενοστραφούς μάθησης οι προσεγγίσεις με τις καλύτερες επιδόσεις είναι εκείνες στις οποίες ο αποκωδικοποιητής βασίζεται σε αρχιτεκτονική Autoregressive (AR) Transformer. Στα πλαίσια της διατριβής, παρατηρήθηκε ότι οι χάρτες προσοχής (attention maps) που προέρχονται από τον αποκωδικοποιητή υπερτερούν από εκείνες του κωδικοποιητή ως προς την ικανότητα τους να κατατέμνουν τα αντικείμενα. Έτσι, η μεθοδολογία SPOT αξιοποιεί τον αποκωδικοποιητή του μοντέλου για να ενισχύσει τον κωδικοποιητή του μοντέλου μέσω απόσταξης (distillation). Συνεχίζοντας, η μεθοδολογία SPOT εισήγαγε επίσης την αναδιάταξη των τμημάτων της εικόνας εισόδου (patches) στον AR Transformers αποκωδικοποιητή. Παρατηρήθηκε, οτι στους AR Transformers, η εξάρτηση τους από τα διανύσματα αναπαράστασης των αντικειμένων slots επιτυγχάνεται κυρίως κατά την ανακατασκευή των πρώτων τμημάτων (patches) μιας εικόνας και μειώνεται κατά την ανακατασκευή των επόμενων τμημάτων. Αυτό συμβαίνει γιατί η ανακατασκευή των επόμενων τμημάτων βασίζεται όλο και περισσότερο στα προηγούμενα τμήματα και όχι στις slots αναπαραστάσεις, αποδυναμώνοντας έτσι την ικανότητα του αποκωδικοποιητή να μαθαίνει με τον βέλτιστο τρόπο. Με την εφαρμογή αναδιατάξεων, οι αποκωδικοποιητές μπορούν να αντιμετωπίσουν αυτή την πρόκληση, αυξάνοντας τη σημασία και την αξιοποίηση των slot κατά τη διαδικασία της ανακατασκευής της εικόνας. Αυτό οδηγεί σε ισχυρότερο εποπτικό σήμα (supervisory signal) και στη βελτίωση της μάθησης, βελτιώνοντας έτσι τη συνολική αποτελεσματικότητα του μοντέλου. Η μεθοδολογία SPOT αποτελεί τη νεότερη και βέλτιστη προσέγγιση (state-of-the-art) στην περιοχή της αντικειμενοστραφούς μάθησης (object-centric learning). Στο τελευταίο στάδιο της διατριβής αξιοποιήθηκαν οι γνώσεις που αποκτήθηκαν μέσω της αξιολόγησης των XAI μεθόδων στο πρώτο στάδιο, για την εφαρμογή τους στο κρίσιμο περιβαλλοντικό ζήτημα της ανίχνευσης θαλάσσιας ρύπανσης. Στην κατεύθυνση αυτή, αναπτύχθηκε αρχικά ένα καινοτόμο μοντέλο βαθιάς μάθησης που ονομάζεται MariNeXt, το οποίο ξεπερνά σημαντικά τα προηγούμενα μοντέλα αναφοράς (baselines). Στη συνέχεια, αξιοποιώντας τη μέθοδο XAI Grad-CAM, έγινε προσπάθεια κατανόησης και αξιολόγησης των αποφάσεων του μοντέλου πέρα από τις παραδοσιακές μετρικές ακρίβειας. Οι γνώσεις που προέκυψαν αποκάλυψαν χρήσιμες πληροφορίες σχετικά με την ανίχνευση θαλάσσιας ρύπανσης με τη χρήση δορυφορικών δεδομένων. Τέλος, στην κατεύθυνση δημιουργίας μιας μελλοντικής επιχειρησιακής λύσης ανίχνευσης θαλάσσιας ρύπανσης, αξιολογήθηκαν αλγόριθμοι εντοπισμού σύννεφων στο θαλάσσιο περιβάλλον, το οποίο αποτελεί σημαντικό στάδιο προεπεξεργασίας των δορυφορικών δεδομένων. Το αντικείμενο της παρούσας διατριβής αναπτύσσεσαι με παρουσίαση και ανάλυση των πρόσφατων εξελίξεων της σχετικής βιβλιογραφίας, περιγραφή των μεθοδολογιών και παράθεση των πειραματικών αποτελεσμάτων, καθώς και συζήτηση των συμπερασμάτων που εξήχθησαν από αυτή. Η διατριβή αναπτύσσεται σε 5 κεφάλαια: Στο Κεφάλαιο 1, αναπτύσσεται το πλαίσιο και αντικείμενο της επιστημονικής μελέτης, περιγράφονται οι βασικές πτυχές και προκλήσεις των μεθόδων ερμηνείας τεχνητής νοημοσύνης, μη-επιβλεπόμενης μάθησης και προχωρημένων μεθόδων εντοπισμού θαλάσσιας ρύπανσης. Παράλληλα, προσδιορίζεται με σαφήνεια το κίνητρο, τα ερευνητικά ερωτήματα και οι στόχοι της διατριβής. Στο Κεφάλαιο 2 αναπτύσσεται η διαθέσιμη βιβλιογραφία σχετικά με μεθόδους ερμηνείας τεχνητής νοημοσύνης στην όραση υπολογιστών, καθώς και μετρικές αξιολόγησης των μεθόδων αυτών. Επιπλέον, εφαρμόζονται και αξιολογούνται ποσοτικά και ποιοτικά σε τηλεπισκοπικά δορυφορικά δεδομένα χρήσεων γης καθώς και παρουσιάζονται τα προτερήματα και μειονεκτήματα της κάθε μεθόδου. Στο Κεφάλαιο 3 αναπτύσσονται οι καινοτόμες μεθοδολογίες μη-επιβλεπόμενης μάθησης AttMask και SPOT για αυτό-επίβλεψη και αντικειμενοστραφή μάθηση, αντίστοιχα. Αρχικά, παρουσιάζεται η αυτο-επίβλεψη μέσω Μοντελοποίησης Καλυμμένης Εικόνας (Masked Image Modeling) και στην συνέχεια αναπτύσσεται και αξιολογείται η μεθοδολογία AttMask. Έπειτα, παρουσιάζεται η περιοχή της αντικειμενοστραφούς μάθησης και η μεθοδολογία SPOT, καθώς και ποσοτική και ποιοτική αξιολόγησης της μεθόδου. Στο Κεφάλαιο 4 παρουσιάζεται το μοντέλο MariNeXt για τον εντοπισμό θαλάσσιας ρύπανσης στα πολυφασματικά δορυφορικά δεδομένα Sentinel-2. Επιπλέον, γίνεται αξιολόγηση του μοντέλου και ανάλυση των παραγόμενων προβλέψεων μέσω τεχνικών XAI. Επίσης, παρουσιάζεται συγκριτική μελέτη αλγορίθμων εντοπισμού σύννεφων στο θαλάσσιο περιβάλλον. Τέλος, το Κεφάλαιο 5 παρουσιάζει τα συμπεράσματα της διατριβής σχολιάζοντας τα βασικά μεθοδολογικά στοιχεία και τα πειραματικά ευρήματα. Ακόμη, παρέχεται συζήτηση και σκέψεις για βελτιώσεις, και μελλοντικές επεκτάσεις του προτεινόμενου μεθοδολογικού πλαισίου. Οι βασικές ιδέες της διατριβής και τα σχετικά πειραματικά αποτελέσματα έχουν δημοσιευτεί σε μια σειρά επιστημονικών εργασιών σε περιοδικά και πρακτικά συνεδρίων με σημαντικό αριθμό αναφορών στη διεθνή βιβλιογραφία. Οι μεθοδολογίες και οι αναλύσεις συνδυαστικά με τα διεξοδικά πειραματικά αποτελέσματα μπορούν να συνεισφέρουν σημαντικά στην περαιτέρω εξέλιξη της μη επιβλεπόμενης μάθησης και της ερμηνεύσιμης τεχνητής νοημοσύνης στην όραση υπολογιστών και στην τηλεπισκόπηση καθώς και σε εφαρμογές εντοπισμού θαλάσσιας ρύπανσης και χρήσεων γης με δορυφορικά δεδομένα.
περισσότερα
Περίληψη σε άλλη γλώσσα
In recent years, the use of Deep Neural Networks (DNNs) through supervised learning has led to significant advancements in computer vision and remote sensing. These systems, however, require large amounts of labeled data for high performance, making supervised learning labor-intensive, especially when collecting sufficient labels is challenging, such as in marine pollution data. Moreover, these DNNs often lack generalization to new data, excelling only in specific tasks or regions. To address these issues, unsupervised learning, particularly self-supervised learning, offers promise. DNNs trained this way can learn without labeled data, automatically generating training labels through "pretext tasks" like predicting image rotations or colorizations. However, the complexity of DNNs often leads to concerns and their characterization as "black boxes." To address this, Explainable Artificial Intelligence (XAI) methods have been developed to interpret the decisions of these complex systems. ...
In recent years, the use of Deep Neural Networks (DNNs) through supervised learning has led to significant advancements in computer vision and remote sensing. These systems, however, require large amounts of labeled data for high performance, making supervised learning labor-intensive, especially when collecting sufficient labels is challenging, such as in marine pollution data. Moreover, these DNNs often lack generalization to new data, excelling only in specific tasks or regions. To address these issues, unsupervised learning, particularly self-supervised learning, offers promise. DNNs trained this way can learn without labeled data, automatically generating training labels through "pretext tasks" like predicting image rotations or colorizations. However, the complexity of DNNs often leads to concerns and their characterization as "black boxes." To address this, Explainable Artificial Intelligence (XAI) methods have been developed to interpret the decisions of these complex systems. XAI seeks to explain why a model makes certain decisions, enhancing transparency and trust in these systems. XAI methods can be integrated into models for inherent interpretability or applied externally. Recent advancements in unsupervised learning employ Vision Transformers (ViT), which utilize attention layers to facilitate the interpretation of model outputs. However, the exploitation of these attention layers during the learning process has not yet been thoroughly explored. Additionally, while XAI techniques for model interpretation are well-established in computer vision, the studies in remote sensing and Earth observation are still limited. In this direction, the current dissertation explores and advances unsupervised learning techniques in self-supervised and object-centric learning, utilizing the attention layers of ViT. It also evaluates and applies XAI methods in remote sensing for land cover and marine pollution detection. In the first stage, the dissertation conducts a thorough evaluation of XAI methods aiming at improving the transparency and interpretability of deep neural network decisions in remote sensing classification. Utilizing land cover datasets like BigEarthNet and SEN12MS, the study explores various XAI techniques, such as Occlusion, Grad-CAM, and Lime, to interpret model predictions. This analysis highlights the strengths of these methods while identifying their limitations in terms of computational demands and the ability to produce high-resolution, interpretable outputs. The dissertation then focuses on unsupervised learning methods using ViT architectures that incorporate attention layers to make models inherently interpretable. Specifically, it explores the use of attention layers to improve model performance during the learning process. The dissertation particularly focuses on a sub-area of self-supervised learning known as Masked Image Modeling (MIM). In MIM, parts of an image are intentionally masked, and the model is trained to predict the hidden regions, thus enhancing its ability to recognize and interpret visual data. Traditionally, this masking is performed randomly. This dissertation introduces a novel strategy where the masking is guided by the attention maps of the last layer of a ViT. This approach, called Attention-Guided Masked Image Modeling (AttMask), accelerates the learning process and enhances performance over traditional masking strategies across various downstream tasks, with or without fine-tuning. Furthermore, this dissertation introduces the SPOT method, a novel approach that leverages Transformers’ attention layers to enhance Object-Centric Learning (OCL). SPOT adopts an encoder-decoder architecture, where the encoder generates object-specific representations known as slots. The decoder then utilizes these slots to reconstruct the image. The analysis demonstrates that the decoder’s attention maps outperform the encoder’s in object segmentation. SPOT’s innovation includes using these superior attention maps to refine the encoder through distillation. Moreover, SPOT introduces sequence permutations of image patches in the Autoregressive Transformer decoder, which amplifies the focus on initial patches, improving the learning process. This combined approach strengthens the supervisory signal and overall effectiveness, establishing SPOT as the new state-of-the-art approach in object-centric learning. In the final phase of the dissertation, the insights gained from the initial evaluation of XAI methods were applied to the critical environmental issue of marine pollution detection. In this direction, a new deep learning model named MariNeXt was developed, significantly outperforming existing baselines. Using the XAI method Grad-CAM, the dissertation not only enhances understanding and assessment of the model’s decisions beyond traditional accuracy metrics but also reveals valuable information regarding the detection of marine pollution using satellite data. Finally, aiming for a future operational solution, cloud detection algorithms crucial for the preprocessing of satellite data are evaluated in marine environments.
περισσότερα