Περίληψη
Τα αυτόνομα οχήματα είναι στο επίκεντρο τόσο της ερευνητικής κοινότητας, όσο και της αυτοκινητοβιομηχανίας καθώς η χρήση τους θα μειώσει τα ατυχήματα που προκαλούνται από τον ανθρώπινο παράγοντα και θα αυξήσει την αποδοτικότητά τους μέσω της βέλτιστης χρήσης από πολλαπλούς χρήστες. Όμως, προκειμένου να μπορεί να κινηθεί ένα αυτόνομο όχημα με ασφάλεια σε αστικό και περιαστικό περιβάλλον, θα πρέπει να μπορεί να αντιληφθεί με ακρίβεια την οδηγική σκηνή στην οποία καλείται να δράσει. Το σύστημα αντίληψης ενός αυτόνομου οχήματος έχει ως στόχο να επεξεργαστεί τα δεδομένα των αισθητήρων του αυτόνομου οχήματος, ώστε να εντοπίζει και να αναγνωρίζει με ακρίβεια τα τριδιάστατα (3Δ) αντικείμενα που περιέχονται σε μια οδηγική σκηνή. Ένα σύστημα αντίληψης αποτελείται από αισθητήρες όπως είναι η οπτική κάμερα και ο αισθητήρας Light Detection And Ranging (LiDAR).Ο κάθε τύπος αισθητήρα έχει τα πλεονεκτήματα του αλλά και τους περιορισμούς του. Η χρήση συμπληρωματικών και διαφορετικών τύπων αισθητήρων πε ...
Τα αυτόνομα οχήματα είναι στο επίκεντρο τόσο της ερευνητικής κοινότητας, όσο και της αυτοκινητοβιομηχανίας καθώς η χρήση τους θα μειώσει τα ατυχήματα που προκαλούνται από τον ανθρώπινο παράγοντα και θα αυξήσει την αποδοτικότητά τους μέσω της βέλτιστης χρήσης από πολλαπλούς χρήστες. Όμως, προκειμένου να μπορεί να κινηθεί ένα αυτόνομο όχημα με ασφάλεια σε αστικό και περιαστικό περιβάλλον, θα πρέπει να μπορεί να αντιληφθεί με ακρίβεια την οδηγική σκηνή στην οποία καλείται να δράσει. Το σύστημα αντίληψης ενός αυτόνομου οχήματος έχει ως στόχο να επεξεργαστεί τα δεδομένα των αισθητήρων του αυτόνομου οχήματος, ώστε να εντοπίζει και να αναγνωρίζει με ακρίβεια τα τριδιάστατα (3Δ) αντικείμενα που περιέχονται σε μια οδηγική σκηνή. Ένα σύστημα αντίληψης αποτελείται από αισθητήρες όπως είναι η οπτική κάμερα και ο αισθητήρας Light Detection And Ranging (LiDAR).Ο κάθε τύπος αισθητήρα έχει τα πλεονεκτήματα του αλλά και τους περιορισμούς του. Η χρήση συμπληρωματικών και διαφορετικών τύπων αισθητήρων περιορίζει σημαντικά τα επιμέρους μειονεκτήματα του κάθε αισθητήρα και αυξάνει συνολικά την αξιοπιστία του συστήματος αντίληψης. Όμως, προκειμένου να συσχετιστούν τα δεδομένα μεταξύ των διαφορετικών τύπων αισθητήρων, αυτά θα πρέπει να ενοποιηθούν σε ένα κοινό σύστημα συντεταγμένων. Κρίσιμο σημείο αυτής της διαδικασίας αποτελεί η βαθμονόμηση των αισθητήρων ως προς τα εξωγενή τους χαρακτηριστικά, δηλαδή ως προς τον προσανατολισμό και την θέση που έχουν τοποθετηθεί πάνω στο αυτόνομο όχημα. Έπειτα, τα δεδομένα των αισθητήρων μπορούν να χρησιμοποιηθούν από το αυτόνομο όχημα για τον εντοπισμό αντικειμένων. Τα 3Δ αντικείμενα που περιέχονται σε μια οδηγική σκηνή ορίζονται με την μορφή 3Δ κουτιών οριοθέτησης. Το κάθε 3Δ κουτί οριοθέτησης επισημαίνεται με συγκεκριμένα χαρακτηριστικά όπως είναι η θέση του, ο προσανατολισμός του και η κλάση του, π.χ. αυτοκίνητο, πεζός ή ποδηλάτης. Όμως, για την πλήρη αντίληψη της οδηγικής σκηνής μπορεί να απαιτηθεί να επισημανθεί επιπλέον σημασιολογική πληροφορία σε κάθε δομικό στοιχείο των δεδομένων των αισθητήρων, όπως είναι το νέφος σημείων από τον αισθητήρα LiDAR ή ακόμη και να αναγνωριστούν αλλαγές που έχουν συμβεί σε μια οδηγική σκηνή μεταξύ δύο διακριτών χρονικών στιγμών. Για τους σκοπούς αυτούς, οι σύγχρονες μεθοδολογίες που έχουν αναπτυχθεί βασίζονται σε δίκτυα βαθιάς μάθησης, κρίσιμο σημείο των οποίων αποτελεί η εκάστοτε αρχιτεκτονική που θα χρησιμοποιηθεί για την εξαγωγή χαρακτηριστικών. Στην πλειονότητά τους, οι μεθοδολογίες βασίζονται αποκλειστικά σε δεδομένα αισθητήρων LiDAR κυρίως λόγω της αυξημένης απόδοσης που επιδεικνύουν αλλά και της εκτέλεσής τους σε πραγματικό χρόνο σε ενσωματωμένα υπολογιστικά συστήματα. Η παρούσα διδακτορική διατριβή στοχεύει στην ανάπτυξη καινοτόμων και αποτελεσματικών μεθοδολογιών για την τριδιάστατη αντίληψη για αυτόνομα οχήματα. Συγκεκριμένα, μετά από εκτενή βιβλιογραφική ανασκόπηση και ανάλυση των διαθέσιμων μεθοδολογιών της τρέχουσας τεχνολογικής στάθμης, παρουσιάζονταιτέσσερις καινοτόμες προτάσεις. Η πρώτη σχετίζεται με την εγκατάσταση αισθητήρων κάμερας και LiDAR, οι οποίοι χρησιμοποιούνται για την καταγραφή μιας σκηνής οδήγησης, έτσι ώστε να καταστεί δυνατή η βέλτιστη συσχέτιση δεδομένων μεταξύ των δύο τύπων αισθητήρων. Προτείνεται μια μέθοδος για την βαθμονόμηση, ως προς τα εξωγενή χαρακτηριστικά, της κάμερας και του LiDAR από πολλαπλές στατικές σκηνές, χρησιμοποιώντας έναν απλό σχέδιο ως στόχο βαθμονόμησης το οποίο βασίζεται σε δείκτες ArUco. Προς το σκοπό αυτό, χρησιμοποιείται ένα νέο συνεργατικό σχήμα LiDAR-κάμερας. Αρχικά, η ανίχνευση του δείκτη που βασίζεται στην κάμερα καθοδηγεί την επεξεργασία του νέφους σημείων από τον αισθητήρα LiDAR ώστε να εντοπιστεί ο τριδιάστατος δείκτης σε αυτό. Μόλις εντοπιστεί με ακρίβεια ο δείκτης στο νέφος σημείων, πραγματοποιείται περαιτέρω διόρθωση σχετικά με την εκτίμηση πόζας του δείκτη από τον αισθητήρα της κάμερας. Με αυτόν τον τρόπο, τα πλεονεκτήματα του κάθε αισθητήρα χρησιμοποιούνται για τη βελτίωση του εντοπισμού των δεικτών. Η βελτιωμένη ακρίβεια που επιτυγχάνεται στον υπολογισμό των εξωγενών παραμέτρων βαθμονόμησης έχει αποδειχθεί πειραματικά τόσο με ποσοτικούς όσο και με ποιοτικούς όρους. Στην δεύτερη καινοτόμο πρόταση αντιμετωπίζεται το αντικείμενο του τριδιάστατου εντοπισμού αντικειμένων, το οποίο αποτελεί βασικό στοιχείο για την τριδιάστατη αντίληψη των αυτόνομων οχημάτων. Οι αισθητήρες LiDAR χρησιμοποιούνται για την αντίληψη περιβάλλοντος, παράγοντας μια αραιή αναπαράσταση της σκηνής με τη μορφή ενός νέφους σημείων. Η τρέχουσα τάση είναι η χρήση αρχιτεκτονικών που βασίζονται σε νευρωνικά δίκτυα βαθιάς μάθησης, τα οποία προβλέπουν τριδιάστατα κουτιά οριοθέτησης. Η συντριπτική πλειονότητα των αρχιτεκτονικών επεξεργάζεται απευθείας το νέφος σημείων LiDAR, αλλά, λόγω περιορισμών ως προς τους υπολογιστικούς πόρους και της μνήμης, σε κάποιο σημείο συμπιέζουν την είσοδο σε μια διδιάστατη (2Δ) αναπαράσταση τύπου Bird’s Eye View (BEV). Η προτεινόμενη αρχιτεκτονική 2Δ νευρωνικού δικτύου, συγκεκριμένα το Feature Aware Re-weighting Network, χρησιμοποιείται για την εξαγωγή χαρακτηριστικών στο επίπεδο BEV χρησιμοποιώντας το τοπικό περιεχόμενο της σκηνής μέσω ενός μηχανισμού προσοχής, για τη βελτίωση της απόδοσης των τριδιάστατων εντοπιστών αντικειμένων που βασίζονται στο LiDAR. Εκτεταμένα πειράματα σε πέντε εντοπιστές 3Δ αντικειμένων της τελευταίας τεχνολογικής στάθμης και σε τρία σύνολα δεδομένων συγκριτικής αξιολόγησης, συγκεκριμένα τα KITTI, Waymo και nuScenes, καταδεικνύουν την αποτελεσματικότητα της προτεινόμενης μεθόδου όσον αφορά τόσο την απόδοση ανίχνευσης όσο και την ελάχιστη πρόσθετη υπολογιστική επιβάρυνση. Η τρίτη και η τέταρτη συνεισφορά σχετίζονται με την ενσωμάτωση μηχανισμών προσοχής σε αρχιτεκτονικές βαθιάς μάθησης για τις εργασίες της τριδιάστατης σημασιολογικής τμηματοποίησης και της ανίχνευσης αλλαγής νέφους σημείων, αντίστοιχα, που διευκολύνουν την τριδιάστατη αναγνώριση μιας σκηνής οδήγησης. Η τριδιάστατη σημασιολογική τμηματοποίηση είναι βασικό στοιχείο στα αυτόνομα οχήματα. Για αυτές τις εφαρμογές, τα τριδιάστατα δεδομένα λαμβάνονται συνήθως από αισθητήρες LiDAR με την μορφή ενός νέφους σημείων. Για το έργο της τριδιάστατης σημασιολογικής τμηματοποίησης όπου τα αντίστοιχα νέφη σημείων θα πρέπει να επισημαίνονται με σημασιολογική πληροφορία, η τρέχουσα τάση είναι η χρήση αρχιτεκτονικών νευρωνικών δικτύων βαθιάς μάθησης για την αποτελεσματική εκμάθηση της αναπαράστασης. Από την άλλη πλευρά, διάφορες εργασίες σε 2Δ και 3Δ εφαρμογές όρασης υπολογιστών έχουν χρησιμοποιήσει μηχανισμούς προσοχής που έχουν ως αποτέλεσμα την αποτελεσματική επαναστάθμιση των διανυσμάτων χαρακτηριστικών. Σε αυτή τη διατριβή, διερευνάται ο ρόλος των μηχανισμών προσοχής για το αντικείμενο της τριδιάστατης σημασιολογικής τμηματοποίησης για εφαρμογές αυτόνομης οδήγησης, εντοπίζοντας τη σημαντικότητα των διαφορετικών μηχανισμών προσοχής όταν υιοθετούνται σε υπάρχοντα δίκτυα βαθιάς μάθησης. Πραγματοποιήθηκαν εκτενή πειράματα σε δύο σύνολα δεδομένων για αυτόνομη οδήγηση, συγκεκριμένα στο Street3D και στο SemanticKITTI, που επιτρέπουν την εξαγωγή συμπερασμάτων τόσο σε ποσοτικό όσο και σε ποιοτικό επίπεδο. Τα πειραματικά αποτελέσματα δείχνουν ότι υπάρχει σαφές πλεονέκτημα όταν υιοθετούνται μηχανισμοί προσοχής, με αποτέλεσμα την ανώτερη απόδοση του δικτύου. Συγκεκριμένα, αποδεικνύεται ότι η υιοθέτηση ενός Μετασχηματιστή Σημείου (Point Transformer) στο δίκτυο βαθιάς μάθησης SPVCNN, έχει ως αποτέλεσμα μια αρχιτεκτονική που ξεπερνά την απόδοση του δικτύου της τρέχουσας τεχνολογικής στάθμης στο σύνολο δεδομένων Street3D. Η ανίχνευση αλλαγής νέφους σημείων χρησιμοποιείται για τον εντοπισμό και την ταξινόμηση χωρικών αλλαγών μεταξύ δύο νεφών σημείων LiDAR, που καταγράφονται στην ίδια σκηνή οδήγησης σε διαφορετικές χρονικές στιγμές. Η τρέχουσα τάση είναι η χρήση δικτύων βαθιάς μάθησης, με σιαμαία δομή, για την επεξεργασία των δύο νεφών σημείων. Σε αυτή τη διατριβή, εξετάζονται δύο διακριτές προσεγγίσεις για το έργο της ανίχνευσης αλλαγής νέφους σημείων. Στην πρώτη προσέγγιση, προτείνεται μια νέα αρχιτεκτονική, συγκεκριμένα η SiamGCN-GCA, η οποία προκύπτει από την ενσωμάτωση ενός καινοτόμου μηχανισμού προσοχής στο δίκτυο βαθιάς μάθησης SiamGCN, για την εξαγωγή χρήσιμων γεωμετρικών και συναφών πληροφοριών (Geometry Context Aware). Στη δεύτερη προσέγγιση προτείνεται μια αρχιτεκτονική βαθιάς μάθησης, συγκεκριμένα το SiamVFE, η οποία βασίζεται για την εξαγωγή των χαρακτηριστικών σε ένα υπολογιστικά αποδοτικό δίκτυο κορμού από έναν εντοπιστή 3Δ αντικειμένων LiDAR. Τα πειραματικά αποτελέσματα τόσο από τα πραγματικά όσο και από τα συνθετικά σύνολα δεδομένων, καταδεικνύουν ότι η υιοθέτηση του προτεινόμενου μηχανισμού προσοχής GCA, βελτιώνει την απόδοση της προτεινόμενης μεθοδολογίας SiamGCN-GCA, σε σύγκριση με τη βασική μεθοδολογία SiamGCN. Επίσης, η προτεινόμενη μεθοδολογία SiamVFE επιτυγχάνει μια αποδεκτή απόδοση και είναι προτιμότερη για εφαρμογές αυτόνομης οδήγησης σε πραγματικό χρόνο. Η παρούσα διατριβή δομείται ως εξής: Στο πρώτο κεφάλαιο παρατίθενται εισαγωγικές πληροφορίες. Το δεύτερο κεφάλαιο αφορά στην βαθμονόμηση ως προς τα εξωγενή χαρακτηριστικά ενός ζεύγους αισθητήρων LiDAR-κάμερας, όπου η προτεινόμενη μεθοδολογία βασίζεται στην συνεργατικότητα, ώστε να αντιμετωπιστούν οι επιμέρους περιορισμοί των δύο τύπων αισθητήρων. Στο τρίτο κεφάλαιο γίνεται μια λεπτομερής ανάλυση της τρέχουσας βιβλιογραφικής στάθμης για τον εντοπισμό 3Δ αντικειμένων, όπου οι μεθοδολογίες που χρησιμοποιούν τα δεδομένα του αισθητήρα LiDAR και βασίζονται στην βαθιά μάθηση, κατηγοριοποιούνται σύμφωνα με την αναπαράσταση των δεδομένων του αισθητήρα, την αρχιτεκτονική για την εξαγωγή των χαρακτηριστικών και τον πυρήνα εντοπισμού για την ανίχνευση των αντικειμένων. Επίσης, παρατίθενται τα διαθέσιμα σύνολα δεδομένων καθώς και οι μετρικές αξιολόγησης αυτών. Στο τέταρτο κεφάλαιο αναλύεται εκτενώς και αξιολογείται πειραματικά η προτεινόμενη μεθοδολογία για την εξαγωγή χαρακτηριστικών στο επίπεδο BEV. Το πέμπτο κεφάλαιο αφορά την 3Δ σημασιολογική τμηματοποίηση μιας οδηγικής σκηνής ενώ στο έκτο κεφάλαιο παρουσιάζεται η ανίχνευση αλλαγής νέφους σημείων, όπου οι δύο προτεινόμενες μεθοδολογίες βασίζονται σε μηχανισμούς προσοχής για την ενίσχυση της απόδοσης και σε ένα υπολογιστικά αποδοτικό δίκτυο κορμού, αντίστοιχα. Τέλος, το έβδομο κεφάλαιο αποτελεί τον επίλογο της διατριβής, όπου συνοψίζεται η συνεισφορά της και προτείνονται μελλοντικές ερευνητικές κατευθύνσεις.
περισσότερα
Περίληψη σε άλλη γλώσσα
This doctoral dissertation aims to develop innovative and effective methodologies for 3D perception in autonomous vehicles. Specifically, after an extensive analysis of state of the art works, four contributions are proposed. The first one relates to the LiDAR-camera sensor setup, used for capturing a driving scene, so as to enable the optimal data association between the two sensor modalities. A method for LiDAR-camera extrinsic calibration from multiple static scenes is proposed, using a simple design for calibration target with an ArUco marker. Towards this end, a novel LiDAR-camera cooperative scheme is employed. At first, the camera-based detection of the marker guides a processing of the LiDAR point cloud to detect the 3D marker in it. Once the marker has been accurately localized in the LiDAR point cloud, further correction takes place regarding the pose estimation of the marker from the camera sensor. In this way, the advantages of each sensor are used to improve marker localiz ...
This doctoral dissertation aims to develop innovative and effective methodologies for 3D perception in autonomous vehicles. Specifically, after an extensive analysis of state of the art works, four contributions are proposed. The first one relates to the LiDAR-camera sensor setup, used for capturing a driving scene, so as to enable the optimal data association between the two sensor modalities. A method for LiDAR-camera extrinsic calibration from multiple static scenes is proposed, using a simple design for calibration target with an ArUco marker. Towards this end, a novel LiDAR-camera cooperative scheme is employed. At first, the camera-based detection of the marker guides a processing of the LiDAR point cloud to detect the 3D marker in it. Once the marker has been accurately localized in the LiDAR point cloud, further correction takes place regarding the pose estimation of the marker from the camera sensor. In this way, the advantages of each sensor are used to improve marker localization. The improved accuracy achieved in the computation of the extrinsic calibration parameters has been experimentally shown in both quantitative and qualitative terms. In the second one, the task of 3D object detection is tackled, which is a key element for the 3D perception of autonomous vehicles. LiDAR sensors are commonly used to perceive the surrounding area, producing a sparse representation of the scene in the form of a point cloud. The current trend is to use deep learning neural network architectures that predict 3D bounding boxes. The vast majority of architectures process the LiDAR point cloud directly but, due to computation and memory constraints, at some point they compress the input to a 2D Bird’s Eye View (BEV) representation. The proposed 2D neural network architecture, namely the Feature Aware Re-weighting Network, is employed for feature extraction in BEV using local context via an attention mechanism, to improve the 3D detection performance of LiDAR-based detectors. Extensive experiments on five state-of-the-art detectors and three benchmarking datasets, namely KITTI, Waymo and nuScenes, demonstrate the effectiveness of the proposed method in terms of both detection performance and minimal added computational burden. The third and fourth contributions relate to the incorporation of attention mechanisms in deep learning architectures for the tasks of 3D semantic segmentation and point cloud change detection, respectively, both of which facilitate the 3D perception of a driving scene.3D semantic segmentation is a key element in autonomous vehicles. For such applications, 3D data are usually acquired by LiDAR sensors resulting in a point cloud. For the task of 3D semantic segmentation where the corresponding point clouds should be labeled with semantics, the current tendency is the use of deep learning neural network architectures for effective representation learning. On the other hand, various 2D and 3D computer vision tasks have used attention mechanisms which result in an effective re-weighting of the already learned features. In this dissertation, the role of attention mechanisms for the task of 3D semantic segmentation for autonomous driving is investigated, by identifying the significance of different attention mechanisms when adopted in existing deep learning networks. An extensive experimentation is conducted on two standard datasets for autonomous driving, namely Street3D and SemanticKITTI, that permit to draw conclusions at both a quantitative and qualitative level. The experimental findings show that there is a clear advantage when attention mechanisms have been adopted, resulting in a superior performance. In particular, it is shown that the adoption of a Point Transformer in the SPVCNN deep learning network, results in an architecture which outperforms the state of the art on the Street3D dataset. Point cloud change detection is used for the detection and classification of spatial changes between two LiDAR point clouds, captured at the same driving scene at different times. The current tendency is to use deep learning networks, with a siamese structure, to process the two point clouds. In this dissertation, two distinct approaches are examined for the task of point cloud change detection. In the first approach, an attention mechanism is proposed and integrated in a deep learning network, to extract useful geometric and contextual information. In the second approach, a deep learning architecture is proposed, namely SiamVFE, that relies upon a computationally efficient backbone network from a LiDAR-based 3D object detector, for feature extraction. The experimental results from both real and synthetic datasets, demonstrate that the adoption of the proposed attention mechanism improves the performance compared to the baseline method. The proposed SiamVFE demonstrates an inferior performance, as expected, but facilitates a faster inference time which is more suitable for real time applications in autonomous driving.
περισσότερα