Περίληψη
H τεχνητή νοημοσύνη αφορά την εκτέλεση εργασιών που τυπικά συνδέονται με έξυπνες οντότητες, από μηχανές. Οι εξελίξεις στη νευροεπιστήμη από τον 19ο αιώνα και μετά ενέπνευσαν τη δημιουργία του “perceptron” το 1958, το οποίο αποτελεί ένα μαθηματικό μοντέλο ενός βιολογικού νευρώνα. Από τότε, τα τεχνητά νευρωνικά δίκτυα (ΤΝΔ), μία μέθοδος τεχνητής νοημοσύνης που εμπνέεται από τον ανθρώπινο εγκέφαλο, έχουν επιδείξει μεγάλη πρόοδο σε διάφορες εργασίες. Η αυξημένη υπολογιστική ισχύς που παρέχεται την τελευταία δεκαετία αποτέλεσε έναν από τους κύριους παράγοντες ώθησης του τομέα. Τα ΤΝΔ επιδεικνύουν τις δυνατότητές τους κυρίως σε εργασίες “Μεγάλων Δεδομένων”, όπου υπερτερούν σε σχέση με άλλες μεθόδους. Επομένως, υψηλό είναι το ερευνητικό ενδιαφέρον στην επιστήμη της Δορυφορικής Τηλεπισκόπησης καθώς συχνά συλλέγονται μεγάλοι όγκοι δεδομένων. Τα κύρια πλεονεκτήματα είναι η ανεξαρτησία από τη χειρωνακτική εξαγωγή χαρακτηριστικών, η υψηλή ευελιξία και η χωρική αντίληψη στο πεδίο της επεξεργασίας ε ...
H τεχνητή νοημοσύνη αφορά την εκτέλεση εργασιών που τυπικά συνδέονται με έξυπνες οντότητες, από μηχανές. Οι εξελίξεις στη νευροεπιστήμη από τον 19ο αιώνα και μετά ενέπνευσαν τη δημιουργία του “perceptron” το 1958, το οποίο αποτελεί ένα μαθηματικό μοντέλο ενός βιολογικού νευρώνα. Από τότε, τα τεχνητά νευρωνικά δίκτυα (ΤΝΔ), μία μέθοδος τεχνητής νοημοσύνης που εμπνέεται από τον ανθρώπινο εγκέφαλο, έχουν επιδείξει μεγάλη πρόοδο σε διάφορες εργασίες. Η αυξημένη υπολογιστική ισχύς που παρέχεται την τελευταία δεκαετία αποτέλεσε έναν από τους κύριους παράγοντες ώθησης του τομέα. Τα ΤΝΔ επιδεικνύουν τις δυνατότητές τους κυρίως σε εργασίες “Μεγάλων Δεδομένων”, όπου υπερτερούν σε σχέση με άλλες μεθόδους. Επομένως, υψηλό είναι το ερευνητικό ενδιαφέρον στην επιστήμη της Δορυφορικής Τηλεπισκόπησης καθώς συχνά συλλέγονται μεγάλοι όγκοι δεδομένων. Τα κύρια πλεονεκτήματα είναι η ανεξαρτησία από τη χειρωνακτική εξαγωγή χαρακτηριστικών, η υψηλή ευελιξία και η χωρική αντίληψη στο πεδίο της επεξεργασίας εικόνων, ενώ μειονεκτήματα συνιστούν η χρονοβόρα δημιουργία επισημασμένων δεδομένων και η χαμηλή ερμηνευσιμότητα. Στην παρούσα διδακτορική διατριβή, διερευνήθηκαν οι δυνατότητες των ΤΝΔ σε τέσσερις εφαρμογές της Τηλεπισκόπησης: αφαίρεση νεφών σε Sentinel-2 (S2) δεδομένα, ανίχνευση μεταβολών σε εικόνες πολύ υψηλής ανάλυσης, ανίχνευση θαλάσσιων πλαστικών απορριμμάτων μέσω συγχώνευσης εικόνων και τέλος μετάφραση φυσικών έγχρωμων εικόνων (ΦΕΕ) σε εικόνες εγγύς υπέρυθρου (ΕΥ). Η ανίχνευση νεφών (cloud masking) είναι ένα κρίσιμο βήμα προεπεξεργασίας στην ανάλυση τηλεπισκοπικών δεδομένων καθώς αποκλείει τα νέφη από τις οπτικές εικόνες. Οι μέθοδοι κατωφλίωσης, οι οποίες εξακολουθούν να είναι ο χρυσός κανόνας στην επίλυση του συγκεκριμένου προβλήματος, παρουσιάζουν μειωμένη απόδοση σε περιπτώσεις αυξημένης δυσκολίας όπως είναι η παρουσία ημιδιαφανών νεφών (σφάλμα παράλειψης) και φωτεινών μη-νεφωδών αντικειμένων (σφάλμα συμπερίληψης). Για να αντιμετωπιστούν οι παραπάνω προκλήσεις πραγματοποιήθηκαν τρεις μελέτες σε αυτήν τη διατριβή σε S2 εικόνες. Στην πρώτη μελέτη εφαρμόστηκε μία αρχιτεκτονική πολυεπίπεδων perceptron η οποία παρήγαγε καλύτερα αποτελέσματα σε σύγκριση με κοινά αποδεκτές μεθόδους κατωφλίωσης και πολυχρονικές μεθόδους όσον αφορά τη διάκριση νεφών από φασματικές υπογραφές (ΦΥ) βαθιάς θάλασσας με επιδράσεις θορύβου και ανάκλασης. Για τις ανάγκες της μελέτης δημιουργήθηκε ένα σετ δεδομένων το οποίο δημοσιεύθηκε προς ελεύθερη χρήση καθώς αντίστοιχα σετ δεδομένων δεν διατίθενται στη βιβλιογραφία. Ενδιαφέροντα ευρήματα αποτέλεσαν η πιθανή θετική επίδραση της εφαρμογής κανονικοποίησης στο σετ δοκιμής αντί του σετ εκπαίδευσης και ο καθορισμός των σημαντικών καναλιών στην αντιμετώπιση ΦΥ με επιδράσεις θορύβου και ανάκλασης μέσω της χρήσης βαρών του δικτύου. Στη δεύτερη μελέτη αναπτύχθηκε μία νέα μεθοδολογία ρύθμισης (fine-tuning) αυτό-οργανωμένων χαρτών (ΑΟΧ), η οποία διόρθωσε επιτυχώς τις εσφαλμένες ταξινομήσεις φωτεινών μη-νεφώδων ΦΥ στην ξηρά. Οι ΑΟΧ είναι ΤΝΔ τα οποία διαθέτουν τοπολογικές ιδιότητες. Η προτεινόμενη προσέγγιση, η οποία εφαρμόζεται στο αποτέλεσμα του μη ρυθμισμένου δικτύου, είναι ανεξάρτητη από την εκάστοτε εφαρμογή και απαιτεί μόνο μικρή ποσότητα δεδομένων. Επιπλέον, εξαλείφει την ανάγκη για περαιτέρω εκπαίδευση του δικτύου. Πραγματοποιείται με τον εντοπισμό των νευρώνων που αντιστοιχούν στα εσφαλμένα ταξινομημένα φωτεινά μη νεφώδη αντικείμενα και την τροποποίηση των επισημάνσεων τους. Στη τρίτη μελέτη δημιουργήθηκε ένα συνελικτικό νευρωνικό δίκτυο (ΣΝΔ) (patch-to-pixel) το οποίο εντόπισε τα ημιδιαφανή νέφη και διέκρινε τα φωτεινά νέφη από τα φωτεινά μη-νεφώδη αντικείμενα. Τα ΣΝΔ είναι ΤΝΔ τα οποία εμπνέονται από την ανθρώπινη όραση. Το μοντέλο υποβλήθηκε σε αξιολόγηση στο πρώτο δημόσια διαθέσιμο επισημασμένο σετ αφαίρεσης νεφών, επιτρέποντας την αξιόπιστη και αντικειμενική αξιολόγηση. Η μελέτη ενίσχυσε περαιτέρω την αξία των ΣΝΔ σε εφαρμογές όπου η χωρική πληροφορία είναι κρίσιμη και έδειξε ότι λιγότερο σύνθετα δίκτυα μπορούν να έχουν ικανοποιητική απόδοση στο πεδίο της αφαίρεσης νεφών. Η ανίχνευση μεταβολών (AM) στην επιστήμη της Τηλεπισκόπησης αφορά την παρακολούθηση των καλύψεων γης μέσα στο χρόνο. Όταν εκτελείται σε δεδομένα πολύ υψηλής ανάλυσης (ΠΥΑ), είναι δυνατή η AM σε μικρότερα αντικείμενα, όπως κτίρια. Ωστόσο, η πολυπλοκότητα του προβλήματος αυξάνεται λόγω της έντονης διασποράς εντός κλάσεων και γεωμετρικών σφαλμάτων συνταύτισης. Οι παραδοσιακές μέθοδοι σύγκρισης εικονοστοιχείων ή κατάτμησης είναι πιο αποτελεσματικές σε δεδομένα υψηλής/μεσαίας ανάλυσης όπου τα υπολειπόμενα σφάλματα συνταύτισης είναι λιγότερο σημαντικά. Πρόσφατα η συνελικτική βαθιά μηχανική μάθηση (ΒΜΜ) συνέβαλε στην AM σε εικόνες ΠΥΑ καθώς τα ΣΝΔ διαθέτουν έμφυτη αντίληψη της χωρικής πληροφορίας. Ωστόσο, η έρευνα έχει επικεντρωθεί κυρίως σε εικόνες με μικρά σφάλματα συνταύτισης και η αξιολόγηση συνήθως δεν διεξάγεται σε πολύ ανόμοια σετ δοκιμών. Σε απόπειρα μείωσης του συγκεκριμένου κενού στην έρευνα, στην παρούσα διατριβή διεξήχθη μία συγκριτική μελέτη, όπου διάφορες προηγμένες μέθοδοι ΒΜΜ που ανιχνεύουν μεταβολές και αυτόματες μέθοδοι συνταύτισης αξιολογήθηκαν σε εικόνες ΠΥΑ με σοβαρά σφάλματα συνταύτισης. Οι εικόνες συλλέχθηκαν από ευρωπαϊκές περιοχές με ποικίλα αστικά μοτίβα και οι προκλήσεις περιλάμβαναν γεωμετρικές παραμορφώσεις και ραδιομετρικές διαφορές, καθώς και μεταβολές συσχετισμένες με εποχές και κίνηση οχημάτων. H διαφοροποίηση των σετ εκπαίδευσης από τα σετ μελέτης αποτέλεσε επίσης πρόκληση για τις επιβλεπόμενες μεθόδους. Η αξιολόγηση ενισχύθηκε από ένα νέο προτεινόμενο ποσοτικό δείκτη που βελτιώνει την αντίληψη του μεγέθους του σφάλματος συμπερίληψης. Η μελέτη έδειξε ότι μία μέθοδος που χρησιμοποιεί συσχέτιση φάσης παρήγαγε τα πιο ικανοποιητικά αποτελέσματα συνταύτισης και το δίκτυο STANet παρουσίασε την καλύτερη απόδοση όσον αφορά μεταβολές που σχετίζονται με κτίρια. Η απόδοση του δικτύου πιθανώς οφείλεται στη συνέργεια μεταξύ του μηχανισμού χωρικής προσοχής και του συνοδευτικού επισημασμένου σετ δεδομένων. Τα θαλάσσια απορρίμματα προκαλούν ένα ευρύ φάσμα ανεπιθύμητων περιβαλλοντικών και κοινωνικοοικονομικών επιπτώσεων. Το πλαστικό, το οποίο αποτελεί το κυρίαρχο συστατικό, συνιστά το σημαντικότερο κίνδυνο. Πρόσφατες έρευνες οι οποίες χρησιμοποίησαν δορυφορικά δεδομένα έδειξαν ελπιδοφόρα αποτελέσματα στην ανίχνευση θαλάσσιων απορριμμάτων μεγάλου μεγέθους αλλά το συγκεκριμένο πεδίο είναι ακόμη στα πρώτα του βήματα. Η υψηλή χωρική και φασματική ανάλυση είναι δύο κρίσιμοι παράγοντες για τη βελτίωση της ικανότητας εντοπισμού και ταυτοποίησης των πλαστικών. Ωστόσο, στους παρόντες δορυφορικούς αισθητήρες υπάρχουν κρίσιμες συμβιβαστικές λύσεις όσον αφορά το συγκεκριμένο θέμα. Στην παρούσα διατριβή, υπό την υπόθεση ότι το προαναφερθέν πρόβλημα θα μπορούσε να αντιμετωπιστεί μέσω συγχώνευσης εικόνων, πραγματοποιήθηκαν δύο μελέτες οι οποίες επικεντρώθηκαν στην αύξηση της χωρικής ανάλυσης των δορυφόρων PRISMA και S2. Στην πρώτη μελέτη διερευνήθηκαν για πρώτη φορά οι δυνατότητες της υπερφασματικής (YΦ) δορυφορικής Τηλεπισκόπησης μέσω PRISMA δεδομένων στον εντοπισμό θαλάσσιων πλαστικών απορριμμάτων. Η έρευνα επικεντρώθηκε στον εντοπισμό στόχων μικρού μεγέθους (≤ 5 m) που σχεδιάστηκαν αποκλειστικά για το πείραμα, αυξάνοντας τη δυσκολία του προβλήματος. Αξιολογήθηκαν διάφορες συμβατικές μέθοδοι καθώς και προηγμένα δίκτυα ΒΜΜ της βιβλιογραφίας με στόχο τη συγχώνευση του παγχρωματικού καναλιού με τα υπερφασματικά. Τα καλύτερα αποτελέσματα παρήχθησαν από μία συμβατική μέθοδο αντικατάστασης κύριων συνιστωσών, όπου διαχωρίστηκαν αποτελεσματικά οι ΦΥ του πλαστικού από του νερού χωρίς να προκαλούνται παραμορφώσεις στη συγχωνευμένη εικόνα. Στις μεθόδους ΒΜΜ (σημειώνεται ότι στην προγενέστερη βιβλιογραφία είχαν εφαρμοστεί σε εικόνες ΠΥΑ), χωρικές παραμορφώσεις εντοπίστηκαν στις συγχωνευμένες εικόνες λόγω της μεγάλης διαφοράς στις χωρικές αναλύσεις μεταξύ του παγχρωματικού και των ΥΦ καναλιών και της έλλειψης αληθών δεδομένων (ground-truth). Ωστόσο, η σημασία της αποκοπής του ιστογράμματος καθιερώθηκε, καθώς τυχαίες ΦΥ νερού διαχωρίστηκαν αποτελεσματικά από τις αντίστοιχες των στόχων πλαστικού. Λόγω απουσίας διακριτών χαρακτηριστικών στο μέσο υπέρυθρο (short-wave infrared (SWIR)), αξιοποιήθηκαν χαρακτηριστικά στο ορατό και εγγύς υπέρυθρο τμήμα του φάσματος και εφαρμόστηκε η τομή των αποτελεσμάτων τριών νέων δεικτών θαλάσσιων πλαστικών στη συγχωνευμένη εικόνα της μεθόδου των κυρίων συνιστωσών. Η ελάχιστη διάσταση ανιχνεύσιμου πλαστικού ήταν 8% του εικονοστοιχείου της ΥΦ εικόνας. Στη δεύτερη μελέτη πραγματοποιήθηκε συγχώνευση S2 και WV-3 εικόνων καθώς η πληροφορία του μέσου υπέρυθρου (διαθέσιμη στον S2 και απούσα στον WV-3) είναι πολύτιμη στον εντοπισμό και στην ταυτοποίηση των πλαστικών. Αξιολογήθηκαν διάφορες συμβατικές μέθοδοι συγχώνευσης καθώς και προηγμένα δίκτυα ΒΜΜ ως προς την ακρίβεια της απεικόνισης της χωρικής και φασματικής πληροφορίας τεχνητών στόχων πλαστικού. Η μέθοδος CNMF επέδειξε την καλύτερη συνολικά απόδοση, ενώ δύο μοντέλα βασισμένα σε ανταγωνιστική μάθηση (GANs) και υπολειπόμενες συνδέσεις αντίστοιχα (δημιουργήθηκαν για την πραγματοποίηση της μελέτης), ξεπέρασαν σε επιδόσεις όλες τις μεθόδους ως προς τη φασματική ομοιότητα. Σημαντικά ευρήματα ήταν: α) η επάρκεια της πληροφορίας στο εγγύς υπέρυθρο του WV-3 για την παραγωγή του καλύτερου συγχωνευμένου αποτελέσματος, βελτιώνοντας τις πιθανότητες επίτευξης χρονικά κοντινών λήψεων, β) η ενίσχυση της σημασίας της πληροφορίας του μέσου υπέρυθρου στον εντοπισμό πλαστικών και γ) η παρατήρηση ανομοιοτήτων στις συγχωνευμένες ΦΥ των διάφορων πλαστικών υλικών. Σημειώνεται ότι οι συμβατικές μέθοδοι συγχώνευσης εκτελέστηκαν από τη Μ. Κρεμεζή. Ο αγγλικός όρος image-to-image translation (ITIT) αναφέρεται σε μία τεχνική επεξεργασίας εικόνας που στοχεύει στην εκμάθηση των συναρτήσεων αντιστοίχισης μεταξύ μίας εικόνας εισόδου και μίας εικόνας εξόδου. Μπορεί να εκτελεστεί είτε σε paired δεδομένα (συνταύτιση εικόνας εισόδου και εξόδου) είτε σε unpaired. Το τελευταίο διάστημα, η κοινότητα της Τηλεπισκόπησης έχει εκδηλώσει αυξημένο ενδιαφέρον για το ITIT με paired δεδομένα, χρησιμοποιώντας συνήθως δίκτυα ανταγωνιστικής μάθησης (ΔΑΜ) υπό συνθήκη (conditional GANs) για να συνθέσουν την πληροφορία που λείπει σε διάφορες εφαρμογές. Η πρόβλεψη εικόνων ΕΥ από ΦΕΕ, στην οποία επικεντρώθηκε η παρούσα διατριβή, είτε έχει προσεγγιστεί έμμεσα στο πλαίσιο της δημιουργίας ΥΦ προϊόντων (spectral super-resolution), είτε έχει κατευθυνθεί αποκλειστικά σε εφαρμογές βλάστησης. Όσον αφορά το ITIT σε unpaired δεδομένα, έχει χρησιμοποιηθεί ως επί το πλείστον ως ενδιάμεσο βήμα για τη βελτίωση των αποτελεσμάτων της σημασιολογικής κατάτμησης μεταξύ διαφορετικών πεδίων (μη επιβλεπόμενη προσαρμογή πεδίου). Η παρούσα διατριβή επιχείρησε να συμβάλει στην έρευνα πρόβλεψης ΕΥ από ΦΕΕ, πραγματοποιώντας μία εμπεριστατωμένη μελέτη που επικεντρώθηκε σε τρεις κύριες κατηγορίες κάλυψης γης (μη διαπερατό, βλάστηση, έδαφος) σε ετερογενείς δίχρονες ΠΥΑ εικόνες. Μέσω μίας μεθοδολογίας τριών βημάτων με χρήση ΔΑΜ αξιοποιήθηκαν αντιστοιχιζόμενα και μη αντιστοιχιζόμενα δεδομένα, ενώ εξετάστηκαν και διαφορετικές παραλλαγές δικτύου, με στόχο την ικανοποιητική ΕΥ πρόβλεψη σε δεδομένα εντός και εκτός πεδίου (δεν ανήκουν στο πεδίο του σετ εκπαίδευσης). Τα πειράματα των paired δεδομένων, τα οποία εκτελέστηκαν σε δεδομένα εντός και εκτός πεδίου, έδειξαν ότι τα ΔΑΜ υπό συνθήκη παρήγαγαν επαρκείς προβλέψεις ΕΥ ακόμα και στις περιπτώσεις εκτός πεδίου, όταν οι ανομοιότητες των πεδίων (domain gap) δεν ήταν πολύ υψηλές. Επιπλέον προέκυψε ότι η κανονικοποίηση ανά περίπτωση (instance normalization) απόδωσε καλύτερα από την κανονικοποίηση ανά σύνολο (batch normalization), ιδιαίτερα σε δεδομένα με χαμηλή εκπροσώπηση στο σετ εκπαίδευσης. Στα πειράματα των unpaired δεδομένων κατέστη δυνατή η βελτίωση της πρόβλεψης του ΕΥ στην κατηγορία της βλάστησης σε περιπτώσεις υψηλών ανομοιοτήτων στα αντίστοιχα φυσικά έγχρωμα πεδία.
περισσότερα
Περίληψη σε άλλη γλώσσα
Artificial intelligence (AI) encompasses the execution of tasks typically associated with intelligent entities, carried out by machines. Advances in neuroscience since the late 19th century inspired the creation of the “perceptron” in 1958, which is a mathematical model of a biological neuron. Since then, artificial neural networks (ANNs), an AI method that is inspired by the human brain, have shown great progress in various tasks. The increased computational power provided in the last decade was among the main triggers of the field. ANNs exhibit their potential mainly in “Big Data” tasks where they outperform other methods. Thus, research attention has been attracted to satellite Earth observation (EO) where large data volumes are frequently collected. The main positive points are independence from feature engineering, high flexibility, and spatial perception in image processing, while negative points are the time-consuming creation of annotations and the low interpretability. In thi ...
Artificial intelligence (AI) encompasses the execution of tasks typically associated with intelligent entities, carried out by machines. Advances in neuroscience since the late 19th century inspired the creation of the “perceptron” in 1958, which is a mathematical model of a biological neuron. Since then, artificial neural networks (ANNs), an AI method that is inspired by the human brain, have shown great progress in various tasks. The increased computational power provided in the last decade was among the main triggers of the field. ANNs exhibit their potential mainly in “Big Data” tasks where they outperform other methods. Thus, research attention has been attracted to satellite Earth observation (EO) where large data volumes are frequently collected. The main positive points are independence from feature engineering, high flexibility, and spatial perception in image processing, while negative points are the time-consuming creation of annotations and the low interpretability. In this doctoral dissertation, the capabilities of ANNs were investigated in four EO applications: cloud masking in Sentinel-2 (S2) data, VHR change detection (CD), marine plastic litter detection through image fusion, and RGB-to-NIR image-to-image translation (ITIT). Cloud masking is a crucial pre-processing step in EO data analysis because it excludes clouds from optical imagery. Threshold-based methods, which are still the golden rule in this task, exhibit difficulties in challenging cases which include the presence of thin clouds (omission error) and bright non-cloud objects (commission error). To mitigate the above-mentioned challenges, three studies were performed in this thesis on S2 data. In the first study, a multi-layer perceptron (MLP) architecture was implemented that yielded superior results compared to state-of-the-art rule-based and muti-temporal methods in the separation of clouds from deep water spectra with noise and sunglint. Directional reflectance effects were also considered. For the purpose of the study, a relevant manual dataset was created and publicly released since equivalent datasets dο not exist in the literature. Interesting findings were the possibility of producing a positive effect when applying feature scaling by using the parameters of the test set instead of the training set, and the definition of the important bands in mitigating the spectra with noise and sunglint by employing the network weights. In the second study, a novel fine-tuning methodology for self-organizing maps (SOMs) was developed that successfully rectified the misclassified predictions of bright non-cloud spectra in land areas. SOMs are ANNs that carry topological properties. The proposed approach, applied to the output of the non-fine-tuned network, is task-independent and requires only small amounts of data. In addition, it eliminates the necessity for additional training. It is performed by pinpointing the neurons that correspond to the incorrectly predicted bright non-cloud objects and altering their labels. In the third study, a patch-to-pixel convolutional neural network (CNN) was created that effectively identified semi-transparent clouds and separated bright clouds from bright non-cloud objects. CNNs are ANNs that are inspired by the human vision. The model underwent evaluation on the first publicly available annotated cloud masking image dataset, which allowed for a robust and objective evaluation. The study further reinforced the value of CNNs in applications where spatial context is crucial and demonstrated that lightweight architectures can be successful in cloud masking. CD in the context of EO is the task of monitoring land cover transitions through time. When performed in VHR data, it is possible to detect changes in smaller objects such as buildings. However, the complexity of the task increases because of heightened within-class variance and geometric registration errors. Traditional pixel and object-based methods are more successful in high/medium resolution data where residual misregistration is less important. Recently, convolutional deep learning (DL) has contributed to the VHR CD since CNNs inherently possess spatial context perception. However, the research has predominantly concentrated on images with minor co-registration errors and the evaluation is typically not conducted on highly dissimilar test datasets. In an attempt to reduce this research gap, in this thesis, a comparative study was conducted where several state-of-the-art DL CD methods and automatic co-registration methods were assessed on VHR images with severe co-registration errors. The images were collected from European areas with versatile urban patterns and the challenges included geometric distortions and radiometric differences, as well as seasonal and vehicle-related changes. The diversity between the training sets and the study data also posed a challenge for the supervised methods. The evaluation was reinforced by a novel proposed score that provides a better understanding of the magnitude of the commission error. It was shown that an FFT-based method that uses phase correlation produced the most satisfactory co-registration results and a network called STANet outperformed the other methods in building-related changes. The STANet performance can be credited to the synergy between the spatial attention mechanism and a substantial annotated dataset. Marine litter exerts a wide spectrum of both adverse environmental and socio-economic effects. Plastic, which is its dominant component, constitutes the most significant hazard. Recent research employing satellite sensors has shown promising results in the detection of large-sized marine debris, however, the field is still in its infancy. High spatial and spectral resolutions are two critical factors in enhancing the detection and discrimination ability. However, in the present satellite sensors there are critical trade-offs in this regard. In this thesis, under the assumption that this issue could be alleviated by image fusion, two studies were performed that focused on the increase of spatial resolution in either the PRISMA or the S2 satellites. In the first study, the potential of HS satellite imagery in marine plastic litter detection was investigated for the first time through PRISMA data. The research centered on identifying small-sized targets (≤ 5 m) specifically designed for the experiment, adding an extra layer of complexity. Several literature conventional and state-of-the-art DL pansharpening approaches were evaluated. A PCA-based substitution method showed the best results as it efficiently separated plastic from water spectra without producing distortions on the output images. In the DL methods (originally introduced in the literature for VHR data), spatial distortions were encountered due to the large difference between the spatial resolutions of the PAN and the HS bands and the lack of ground-truth data. However, the importance of histogram clipping as a pre-processing step was established since random water spectra were effectively separated from the target spectra. In the absence of SWIR features, spectral VNIR characteristics were exploited and an intersection of the outputs of three novel marine plastic indexes was applied on the PCA image that detected plastics with size equal to 8% HS pixel coverage. In the second study, S2 and WV-3 images were fused since the SWIR information available in S2 and absent in WV-3 is valuable for the detection and identification of plastics. Several conventional and DL image fusion approaches were evaluated in terms of spatial and spectral accuracy on artificial plastic targets. CNMF showed the best performance overall and a GAN- and a ResNet-based model (created for the purpose of the study) outperformed all methods in terms of spectral similarity. Important findings were: a) the adequacy of VNIR WV-3 information in generating the most effective output, enhancing the chances of achieving temporally close acquisitions, b) the reinforcement of the significance of the SWIR information in detecting plastic, and c) the observation of dissimilarities in the spectral regions of S2 bands between the signatures of the various plastic materials. It is noted that the conventional image fusion methods in both studies were carried out by M. Kremezi. Image-to-image translation (ITIT) refers to an image processing technique that aims to learn the mapping functions between an input and an output image and can be either performed in a paired (co-registered input and output) or an unpaired setting. Lately, the EO community has exhibited a heightened interest in DL paired ITIT by typically employing conditional GANs (cGANs) to synthesize missing information in several applications. RGB-to-NIR ITIT, where this thesis focused on, has been either addressed indirectly in the context of creating HS outputs (spectral super-resolution) or has been exclusively directed towards vegetation applications. Regarding unpaired ITIT, it has predominantly been utilized in VHR data as an intermediary step to improve the quality of cross-domain semantic segmentation (unsupervised domain adaptation). In this thesis, attempting to contribute to the RGB-to-NIR ITIT literature, a thorough study was performed that focused on three main land cover categories (impervious, vegetation, ground) on heterogeneous bi-temporal VHR images. Through a three-stage GAN framework, both paired and unpaired data were exploited and several network configurations were explored in order to predict satisfactory NIR outputs in in- and out-domain data (do not belong to the domain of the training set). The paired data experiments, which were run in an in- and out-domain setting, showed that cGANs produced adequate NIR predictions even in out-domain cases when the domain gap was not significantly high and that instance normalization performed better than batch normalization, especially on data with low representation on the training set. The unpaired data experiments managed to enhance the NIR prediction in the vegetation category when high dissimilarities existed in the respective RGB domains.
περισσότερα