Περίληψη
Οι εφαρμογές επεξεργασίας και ανάλυσης εικόνας και βίντεο αποτελούν τα βασικά στοιχεία της Υπολογιστικής Όρασης, η οποία αποτελεί πεδίο της Τεχνητής Νοημοσύνης και έχει ευρεία ποικιλία εφαρμογών σε τομείς όπως η βιομηχανία, η υγειονομική περίθαλψη, οι ανθρωποκεντρικές υπηρεσίες, τα υποστηρικτικά περιβάλλοντα. Η παρούσα διατριβή εισάγει εφαρμογές υπολογιστικής όρασης στην προληπτική ιατρική, όπου μπορούν να υποστηρίξουν την παρακολούθηση και την υγειονομική περίθαλψη για ηλικιωμένους και ασθενείς που πάσχουν από χρόνιες νόσους, καθώς και γιατρούς σε ιατρικές γνωματεύσεις. Επιπλέον, προτείνει μεθόδους για την ψηφιακή ανακατασκευή του ογκομετρικού μοντέλου ανθρώπων και αντικειμένων, χρησιμοποιώντας μόλις μερικές προβολές του αντικειμένου/υποκειμένου από κάμερα. Οι μέθοδοι αυτές μπορούν να χρησιμοποιηθούν για εφαρμογές επαυξημένης πραγματικότητας, ή για την εκτίμηση της στάσης του ανθρώπου, βάσει της σιλουέτας του. Επιπροσθέτως, παρουσιάζονται αυτοματοποιημένες τεχνικές ποιοτικού ελέγχου α ...
Οι εφαρμογές επεξεργασίας και ανάλυσης εικόνας και βίντεο αποτελούν τα βασικά στοιχεία της Υπολογιστικής Όρασης, η οποία αποτελεί πεδίο της Τεχνητής Νοημοσύνης και έχει ευρεία ποικιλία εφαρμογών σε τομείς όπως η βιομηχανία, η υγειονομική περίθαλψη, οι ανθρωποκεντρικές υπηρεσίες, τα υποστηρικτικά περιβάλλοντα. Η παρούσα διατριβή εισάγει εφαρμογές υπολογιστικής όρασης στην προληπτική ιατρική, όπου μπορούν να υποστηρίξουν την παρακολούθηση και την υγειονομική περίθαλψη για ηλικιωμένους και ασθενείς που πάσχουν από χρόνιες νόσους, καθώς και γιατρούς σε ιατρικές γνωματεύσεις. Επιπλέον, προτείνει μεθόδους για την ψηφιακή ανακατασκευή του ογκομετρικού μοντέλου ανθρώπων και αντικειμένων, χρησιμοποιώντας μόλις μερικές προβολές του αντικειμένου/υποκειμένου από κάμερα. Οι μέθοδοι αυτές μπορούν να χρησιμοποιηθούν για εφαρμογές επαυξημένης πραγματικότητας, ή για την εκτίμηση της στάσης του ανθρώπου, βάσει της σιλουέτας του. Επιπροσθέτως, παρουσιάζονται αυτοματοποιημένες τεχνικές ποιοτικού ελέγχου αντικειμένων βιομηχανικής κατασκευής, βασισμένες στην υπολογιστική όραση, οι οποίες μπορούν να ενσωματωθούν στην παραγωγή. Σε πολλές μεθόδους υπολογιστικής όρασης, όσο αυξάνεται ο όγκος των διαθέσιμων οπτικών δεδομένων, ευνοούνται η εξαγωγή χαρακτηριστικών και, αναλόγως την περίπτωση, οι απαιτούμενοι υπολογισμοί. Για το λόγο αυτό, σε αυτή την εργασία, αξιοποιείται η κάμερα υπερευρυγώνιου φακού (fisheye) - ένας ειδικός τύπος κάμερας, με οπτικό πεδίο 180 μοιρών. Η βαθμονόμηση της κάμερας fisheye επανεξετάζεται και εφαρμόζεται στις διαθέσιμες κάμερες αυτού του τύπου. Τα οπτικά δεδομένα που συλλέχθηκαν από τις κάμερες αυτές, χρησιμοποιήθηκαν στην εφαρμογή ενός αριθμού αλγορίθμων επεξεργασίας εικόνας και βίντεο. Επιπλέον, αναλύεται η βαθμονόμηση της προβολικής κάμερας (pinhole) και εφαρμόζεται, με γραμμική και μη γραμμική εκτίμηση των πινάκων προβολής, σε τρεις προβολικές κάμερες. Δημιουργούμε μια πειραματική διάταξη αρκετών συνδυασμών ετερογενών καμερών και χρησιμοποιούμε τις υπολογισμένες βαθμονομήσεις για τη δημιουργία συνθετικών δεδομένων, όπως επίσης λαμβάνουμε πραγματικά δεδομένα, για την εκτίμηση της μεταβλητής θέσης και την ογκομετρική ανακατασκευή του αντικειμένου/ανθρώπου. Ο αλγορίθμος λάξευσης του χώρου (space carving algorithm) για την ανακατασκευή του ογκομετρικού μοντέλου με τη χρήση εικόνων της σιλουέτας του, τροποποιήθηκε για να περιλαμβάνει διαφορετικούς συνδυασμούς fisheye και προβολικών καμερών. Προτείνεται, ακόμα, μέθοδος για την αντιμετώπιση της επιδείνωσης της ακρίβειας, καθώς αυξάνεται ο αριθμός των προβολών - ενός προβλήματος που παρατηρείται στον κλασικό αλγόριθμο λάξευσης χώρου. Διερευνούμε, επίσης, την αναγνώριση στάσεων με βάση τα ογκομετρικά αυτά μοντέλα, σε στατικά, αλλά και δυναμικά σενάρια, μετακίνησης αντικειμένων σε οποιαδήποτε διαδρομή. Παρουσιάζονται ποσοτικά αποτελέσματα στην ανακατασκευή συνθετικών τρισδιάστατων ανθρώπινων μοντέλων και ποιοτικά αποτελέσματα για το ανακατασκευασθέν μοντέλο πραγματικών ανθρώπων. Τα αποτελέσματα καθιστούν προφανές ότι η χρήση καμερών fisheye, μαζί με προβολικές κάμερες, σε εφαρμογές αλγορίθμων λάξευσης χώρου, μειώνει το σφάλμα ανακατασκευής. Επιπροσθέτως, παρουσιάζεται μια μεθοδολογία για την ανίχνευση πτώσης ανθρώπου σε εσωτερικό χώρο, χρησιμοποιώντας τρεις μη βαθμονομημένες fisheye κάμερες, οι οποίες είναι τοποθετημένες έτσι ώστε να απεικονίζουν όλο το δωμάτιο, σε οποιαδήποτε κατεύθυνση. Εκμεταλλευόμενοι μια από τις ιδιότητες του μοντέλου σχηματισμού εικόνας ευρυγώνιας κάμερας, δημιουργούμε έναν απλό κανόνα ανίχνευσης, με τον οποίο επιτυγχάνουμε σωστό εντοπισμό γεγονότων πτώσης, ανάμεσα σε δραστηριότητες (όπως το περπάτημα, η ορθοστασία και άλλες μη πτωτικές δραστηριότητες), σε συνδιασμό με υψηλή ταχύτητα εκτέλεσης. Παρουσιάζονται τα αποτελέσματα από πραγματικά βίντεο, χρησιμοποιώντας στατιστικά επί των στιγμιοτύπων και επί των γεγονότων.Με αφετηρία το μοντέλο σχηματισμού εικόνας fisheye, τροποποιήθηκαν γεωδαισιακά οι παραδοσιακές αμετάβλητες ροπές εικόνας Zernike(ZMI). Οι προτεινόμενες γεωδαισιακά τροποποιημένες ροπές: GZMI, εφαρμόστηκαν στην αναγνώριση ανθρώπινης στάσης από εικόνες ευρυγώνιων φακών, με τη χρήση ταξινόμησης περικομμένων τμημάτων των εικόνων που περιέχουν τη σιλουέτα. Η μέθοδος αυτή καθιστά δυνατό να κατασκευαστεί ένα εκτεταμένο σύνολο συνθετικών δεδομένων, το οποίο μπορεί να χρησιμοποιηθεί από Συνελικτικά Νευρωνικά Δίκτυα (CNN) για την ταξινόμηση των σιλουετών. Η ικανότητα των Συνελικτικών Νευρωνικών Δικτύων να ταξινομούν σωστά τις συνθετικές και τις πραγματικές σιλουέτες αξιολογείται, χρησιμοποιώντας ένα εκτεταμένο συνθετικό εκπαιδευτικό σύνολο δυαδικών σιλουετών. Επομένως, γίνεται δυνατή η σύγκριση του CNN, με το προτεινόμενο GZMI, καθώς και με το κλασικό ZMI, στο πρόβλημα της ταξινόμησης των σιλουετών σε τρεις γενικευμένες στάσεις. Παράλληλα, εξετάζεται η επαύξηση της εισόδου των CNN στο πρώτο πλήρως συνδεδεμένο επίπεδο (FNN), με τους GZMI περιγραφείς, καθώς επίσης χρησιμοποιείται η μεταφορά εκμάθησης (TL) - δηλαδή η βελτίωση των CNN που είχαν εκπαιδευτεί στο παρελθόν, χρησιμοποιώντας το επαυξημένο σύνολο δεδομένων. Τα αρχικά μας αποτελέσματα δείχνουν ότι το CNN που έχει εκπαιδευτεί μόνο σε συνθετικές σιλουέτες δεν είναι σε θέση να ταξινομήσει σωστά τις 3 γενικευμένες στάσεις για σιλουέτες τμηματοποιημένες από πραγματικά βίντεο. Ομοίως, το CNN ενισχυμένο με τα GZMI σε επίπεδο FNN, επιτυγχάνει χαμηλή ακρίβεια ταξινόμησης, αν και ελαφρώς καλύτερη από το τυπικό CNN. Σε αντίθεση, ένας απλός ταξινομητής που χρησιμοποιεί το GZMI επιτυγχάνει σημαντικά καλύτερη ακρίβεια, αν και εξακολουθεί να μην είναι αρκετά υψηλή ώστε να είναι πρακτικά χρήσιμη. Τα χαρακτηριστικά του GZMI φαίνεται να είναι λιγότερο επηρεαζόμενα από τυχόν τεχνικά σφάλματα που προκαλούνται από την τμηματοποίηση, από ότι τα CNN. Η ακρίβεια της ταξινόμησης που επιτυγχάνεται με τη μεταφορά μάθησης είναι πρακτικά χρήσιμη.Για την ανίχνευση κλινικών γνωρισμάτων, όπως γραμμικών δομών σε εικόνες δερματοσκοπίας, εξάγονται και χρησιμοποιούνται χαρακτηριστικά εικόνας, σε συνδιασμό με καθιερωμένα φίλτρα επεξεργασίας εικόνας και ταξινομούνται με τη χρήση παραδοσιακών ταξινομητών. Οι προτεινόμενες μεθοδολογίες χρησιμοποιούν φίλτρα εικόνας για την τμηματοποίηση, για παράδειγμα, σκοτεινών γραμμικών δομών, χρησιμοποιώντας χαρακτηριστικά εικόνας πολλαπλής ανάλυσης που βασίζονται στον Εσσιανό, καθώς και Συνελικτικά Νευρωνικά Δίκτυα για την ταξινόμηση εικόνων RGB. Στη συνέχεια διερευνούμε τη χρησιμότητα αυτών των φίλτρων για την επαύξηση της εισόδου των Συνελικτικών Νευρωνικών Δικτύων (CNN) για την εργασία της ταξινόμησης σε επίπεδο εικόνας και υπερεικονοστοιχείου (superpixel). Κατόπιν, εφαρμόζεται ταξινόμηση εικόνων δερματοσκοπίας σε μελάνωμα και σπίλους. Η καινοτομία των προτεινόμενων μεθόδων είναι (α) η χρήση αυτών των φίλτρων στην επαύξηση της εισόδου των CNN, για την ουσιαστική αύξηση του μεγέθους του υποσυνόλου ενδιαφέροντος, (β) η μεταφορά μάθησης και (γ) η ενδιαφέρουσα σύγκριση μεταξύ των χειροποίητων χαρακτηριστικών εικόνων, που βασίζονται σε γραμμικές δομές, με τις ποικίλες αρχιτεκτονικές εν τω βάθει εκμάθησης. Τα αποτελέσματα δείχνουν ότι η ακρίβεια που επιτυγχάνεται από το CNN με την επαυξημένη είσοδο είναι σταθερά υψηλότερη από αυτή της εισόδου εικόνας RGB, τόσο κατά τις διαφορετικές επανεκτελέσεις, όσο και ως προς τα επαναληπτικά στάδια κάθε επανεκτέλεσης, με την προϋπόθεση ότι έχει χρησιμοποιηθεί TL. Τέλος, παρουσιάζουμε μια απλή και αποδοτική μέθοδο μέτρησης καμπυλότητας ενός ευρέως χρησιμοποιούμενου μηχανολογικού αντικειμένου - της μεταλλικής ράβδου. Τα αρχικά μας αποτελέσματα δείχνουν ότι η προτεινόμενη μέθοδος είναι ικανή να κάνει διάκριση μεταξύ αποδεκτών και μη, αντικειμένων, βασισμένη σε βίντεο από μόνο μία κάμερα, σε συγκεκριμένο πειραματικό σύστημα, χωρίς ιδιαίτερες απαιτήσεις στις συνθήκες φωτισμού. Η μέθοδος είναι υπολογιστικά πολύ αποτελεσματική, καθώς εκτελείται σε πραγματικό χρόνο, σε απλό φορητό υπολογιστή.
περισσότερα
Περίληψη σε άλλη γλώσσα
Image and Video processing and analysis applications are the core components of Computer Vision. Computer vision is a field of Artificial Intelligence, which has a broad variety of applications in fields including industry, healthcare, human-centric services and assistive environments. This work introduces computer vision applications on preventive medicine that can support monitoring and healthcare for the elderly and chronic ill, as well as doctors in medical reports. Furthermore, this work proposes methods for digitally reconstructing the volume of humans and objects, using a few camera views – which can be embedded in augmented reality applications, or utilized for assessing the human’s posture with silhouette-based pose estimation. Additionally, automated vision-based quality control techniques are presented for industrially manufactured rods that can be incorporated into production. In many computer vision methods, the more optical data available, the better for either the featur ...
Image and Video processing and analysis applications are the core components of Computer Vision. Computer vision is a field of Artificial Intelligence, which has a broad variety of applications in fields including industry, healthcare, human-centric services and assistive environments. This work introduces computer vision applications on preventive medicine that can support monitoring and healthcare for the elderly and chronic ill, as well as doctors in medical reports. Furthermore, this work proposes methods for digitally reconstructing the volume of humans and objects, using a few camera views – which can be embedded in augmented reality applications, or utilized for assessing the human’s posture with silhouette-based pose estimation. Additionally, automated vision-based quality control techniques are presented for industrially manufactured rods that can be incorporated into production. In many computer vision methods, the more optical data available, the better for either the features extraction, or the calculations needed per case. For this reason, in this work, a special type of camera with 180o FoV, the fisheye camera, is exploited and a number of image and/or video processing algorithms are applied, using fisheye camera images and/or videos. The calibration of the fisheye camera is being revisited and applied to the available cameras of this type. Moreover, the calibration of projective camera is analyzed and applied on three projective cameras by a linear and a non-linear estimation of the cameras’ projection matrices. The space carving algorithm for reconstructing the volumetric model of an object/human using images of its silhouette is modified to include different combinations of fisheye and pinhole cameras. We create an experimental setup of several combinations of heterogeneous cameras, and use the calculated calibrations to generate synthetic data, as well as acquire real data, for the tasks of dynamic position estimation, as well as volumetric reconstruction. The classic space carving algorithm suffers from accuracy deterioration as the number of views increases. We propose a method to alleviate this problem. We also investigate the recognition of poses based on the volumetric models, in static and dynamic scenarios (moving objects along any path). Quantitative results are presented in reconstructing synthetic 3D human models and qualitative results for human participants. The results make apparent that the use of fisheye cameras, along with projective cameras, in space carving algorithm implementations reduces the reconstruction error. A methodology for the fall detection in indoor environment, utilizing three uncalibrated fisheye cameras, which set the whole room to be imaged along any direction is presented. The proposed method requires simultaneous frame acquisition by three or more fisheye cameras facing approximately downwards and the segmentation of the silhouettes from the available frames, without the need for more precise camera calibration. The main advantages of this method are: the simplicity of the detecting rule and the speed of execution that stem from the exploitation of a property of omni-directional camera image formation model. In addition the use of fisheye cameras allows simultaneous imaging along any direction. The proposed algorithm is designed and parameterized using an extensive dataset of synthetic frames. Results from real videos are presented using frame statistics and event-based statistics. The proposed algorithm correctly detects fall events within standing or walking, as well as other non-falling activities. In another part of the work, we utilize our fisheye image formation model to modify geodesically the traditional Zernike moments image features (ZMI). The proposed GZMI are tested in the task of pose recognition from omni-directional images, in the form of classifying cropped parts of the image that contain the silhouette. Since it is possible to construct an extensive synthetic dataset with this method, it becomes possible to assess the ability of Convolutional Neural Networks to correctly classify silhouettes. More specifically, the hand-crafted GZMI are compared against the classic ZMI, as well the CNN, in terms of classifying silhouettes in three generic poses. The ability of Convolutional Neural Networks to correctly classify synthetically generated and real silhouettes is assessed, using an extensive synthetic training set of binary silhouettes. Finally CNNs are assessed with enhanced input from the GZMI descriptors at the first fully connected layer, combined with transfer learning (TL). Our initial results show that the CNN trained only on synthetic silhouettes are unable to correctly classify the 3 generic poses in silhouettes segmented from real videos. Similarly, the CNN enhanced with the fusion of GZMI at the FNN level, achieves low classification accuracy, although slightly better than the standard CNN. On the other hand, a simple classifier using the GZMI (Zernike moment invariants, defined using the geodetic properties of the calibration of the specific acquiring camera) achieves significantly better accuracy, although still not high enough to be practically useful. The GZMI features appear to be more immune to the artefacts induced by the segmentation than the CNN. The classification accuracy achieved with transfer learning is close to practically useful levels. Image features are extracted and used for the detection of clinical characteristics, namely linear structures, such as streaks in dermoscopy images. Furthermore, several well-established image processing filter banks are employed for hand-crafted features for image classification with traditional classifiers. The proposed methodologies use image filters to e.g. segment dark linear structures using Hessian-based multi-resolution image features, as well as Convolutional Neural Networks to classify RGB images. Subsequently we investigate the usefulness of these filters for augmenting the input of Convolutional Neural Networks (CNNs) for the task of classification at the image and superpixel level. Melanoma and nevus dermoscopy images classification is applied. The novelty of the proposed methods is the use of (a) these filters also for augmenting the input to CNNs, to increase the size of the subset-of-interest in a meaningful way, as well as (b) transfer learning, i.e. fine-tuning previously trained CNNs using the augmented dataset and (c) an interesting comparison between the hand-crafted streak-based features with the various deep learning architectures. Results show that the accuracy achieved by the CNN with the augmented input is consistently higher than that of the RGB image input, both in terms of different repetitions of the execution, as well as throughout the iterations of each repetition, provided that TL has been utilized. Finally, we present a simple and robust method for curvature measurement of a very commonly manufactured mechanical object, a metal rod. Our initial results show that the proposed method is capable of discriminating between normal and not acceptable objects, based on mono-occular video, without any special requirements for light conditions and experimental geometric setup. The method is computationally very efficient, achieving real-time execution on a low-end laptop.
περισσότερα