Περίληψη
Η Μηχανική Μάθηση (Machine Learning, ML) έχει φέρει επανάσταση στην ανάλυση δεδομένων και τη λήψη αποφάσεων, επιτρέποντας στα συστήματα να μαθαίνουν και να βελτιώνονται μέσω της εμπειρίας όντας προσαρμοζόμενα στα δεδομένα, σε αντίθεση με την παραδοσιακή προγραμματιστική προσέγγιση που βασίζεται σε κανόνες. Οι αλγόριθμοι ML διέπονται από την ικανότητα της ανάλυσης μεγάλων συνόλων δεδομένων με κύριο μηχανισμό την ανακάλυψη μοτίβων και απώτερο σκοπό την διενέργεια προβλέψεων. Συνήθως η διαδικασία της μάθησης βελτιώνεται όσο περισσότερο δεδομένα λαμβάνουν κατά την εκπαίδευση τους. Αυτή η διαδικασία της προσαρμοστικής μάθησης επιτρέπει σε εφαρμογές να αναγνωρίσουν το περιεχόμενο σε εικόνες και αρχείων ομιλίας, την επεξεργασία και ανάλυση της φυσικής γλώσσας επιτυγχάνοντας την αντιμετώπιση εργασιών που λόγω του όγκου των δεδομένων είναι ανέφικτες για τους ανθρώπους. Η ML είναι ένας υποτομέας της τεχνητής νοημοσύνης (Artificial Intelligence, AI), που επικεντρώνεται στη μάθηση από δεδομένα. Πε ...
Η Μηχανική Μάθηση (Machine Learning, ML) έχει φέρει επανάσταση στην ανάλυση δεδομένων και τη λήψη αποφάσεων, επιτρέποντας στα συστήματα να μαθαίνουν και να βελτιώνονται μέσω της εμπειρίας όντας προσαρμοζόμενα στα δεδομένα, σε αντίθεση με την παραδοσιακή προγραμματιστική προσέγγιση που βασίζεται σε κανόνες. Οι αλγόριθμοι ML διέπονται από την ικανότητα της ανάλυσης μεγάλων συνόλων δεδομένων με κύριο μηχανισμό την ανακάλυψη μοτίβων και απώτερο σκοπό την διενέργεια προβλέψεων. Συνήθως η διαδικασία της μάθησης βελτιώνεται όσο περισσότερο δεδομένα λαμβάνουν κατά την εκπαίδευση τους. Αυτή η διαδικασία της προσαρμοστικής μάθησης επιτρέπει σε εφαρμογές να αναγνωρίσουν το περιεχόμενο σε εικόνες και αρχείων ομιλίας, την επεξεργασία και ανάλυση της φυσικής γλώσσας επιτυγχάνοντας την αντιμετώπιση εργασιών που λόγω του όγκου των δεδομένων είναι ανέφικτες για τους ανθρώπους. Η ML είναι ένας υποτομέας της τεχνητής νοημοσύνης (Artificial Intelligence, AI), που επικεντρώνεται στη μάθηση από δεδομένα. Περιλαμβάνει την επιβλεπόμενη μάθηση (supervised learning), η οποία χρησιμοποιεί δεδομένα με ετικέτες για να προβλέψει την ετικέτα δεδομένων που δεν χρησιμοποιήθηκαν κατά την εκπαίδευση, και τη μη επιβλεπόμενη μάθηση (unsupervised learning), που αναγνωρίζει μοτίβα σε δεδομένα και εκτελεί διεργασίες ομαδοποίηση χωρίς την χρήση ετικετών. Η ημι-επιβλεπόμενη μάθηση (semi-supervised learning) χρησιμοποιεί έναν συνδυασμό δεδομένων με και χωρίς ετικέτες, ενώ η ενισχυτική μάθηση (reinforcement learning) περιλαμβάνει τη μάθηση μέσω ανατροφοδότησης σε δυναμικά περιβάλλοντα. Η επιστήμη των δεδομένων (data science), είναι ένας ευρύτερος τομέας και περιλαμβάνει τη συλλογή, προεπεξεργασία, ανάλυση και οπτικοποίηση δεδομένων, με την ML να παρέχει τα εργαλεία για την κατασκευή προβλεπτικών μοντέλων. Η εφαρμογή της ML σε πραγματικές συνθήκες αντιμετωπίζει προκλήσεις όπως τα μη ισορροπημένα και ελλιπή σύνολα δεδομένων. Επίσης είναι διαρκής η ανάγκη της συντήρηση των μοντέλων. Τα σύνολα δεδομένων που χρησιμοποιούνται για ακαδημαϊκούς σκοπούς είναι ελεγχόμενα και επιμελημένα βάσει αυστηρά προκαθορισμένων πρωτοκόλλων, ενώ τα δεδομένα στον πραγματικό κόσμο απαιτούν περίπλοκη προεπεξεργασία πριν την χρήση τους. Τα μοντέλα της ML για να ενσωματωθούν σε μεγαλύτερα συστήματα, πρέπει να λάβουν υπόψη την εμπειρία του χρήστη, την ηθική χρήση και τη συμμόρφωση σε νομικά πλαίσια και κανόνες. Η κλιμάκωση των αλγορίθμων, επίσης είναι κρίσιμος παράγοντας για τον αποτελεσματικό χειρισμό μεγάλων όγκων δεδομένων και η διαχείριση ευαίσθητων δεδομένων είναι μια απαιτητική διαδικασία, ιδιαίτερα σε κλάδους υψηλού κινδύνου όπως η υγειονομική περίθαλψη και τα χρηματοοικονομικά. Η εποχή των μεγάλων δεδομένων (big data) προσφέρει ευκαιρίες και προκλήσεις. Οι άφθονες πηγές δεδομένων παράγουν τεράστιους όγκους πληροφορίας, αλλά η επισήμανση αυτών είναι δαπανηρή και χρονοβόρα. Οι τεχνικές ημι-επιβλεπόμενης και μη επιβλεπόμενης μάθησης στοχεύουν στην αποτελεσματική αξιοποίηση των δεδομένων χωρίς τη χρήση ετικετών στο πλήρες σύνολο δεδομένων. Η κατανόηση της φύσης των δεδομένων και η αντιμετώπιση των μη ισορροπημένων συνόλων δεδομένων εξασφαλίζει την ανάπτυξη αξιόπιστων μοντέλων και την διάθεση αποτελεσματικών συστημάτων. Η θετική και μη σημασμένη (Positive and Unlabeled, PU) μάθηση αντιμετωπίζει την έλλειψη ετικετών και τα μη ισορροπημένα σύνολα δεδομένων χρησιμοποιώντας μικρά υποσύνολα θετικώς αναγνωρισμένων παραδειγμάτων και μεγάλες ομάδες μη σημασμένων δεδομένων (χωρίς ετικέτες). Η PU μάθηση αξιοποιεί τα περιορισμένα θετικά παραδείγματα για την κατασκευή προβλεπτικών μοντέλων ακριβείας με συνήθει εφαρμογή σε τομείς όπως η ανίχνευση απάτης και η ιατρική διάγνωση. Αυτή η διδακτορική διατριβή εξετάζει τα θεωρητικά θεμέλια και τις πρακτικές εφαρμογές της PU μάθησης, προτείνοντας μεθοδολογίες που μπορούν να εφαρμοστούν σε πραγματικά σύνολα δεδομένων. Επιπλέον, εξετάζεται η εφαρμογή και η εξέλιξη της θετικής-μη σημασμένης (PU) μάθησης μέσω μιας νέα προσέγγισης στη μηχανική μάθηση που αντιμετωπίζει τις προκλήσεις που θέτουν τα μη ισορροπημένα σύνολα δεδομένων και των συνόλων δεδομένων που περιέχουν μερικώς σημασμένα δεδομένα. Η διατριβή αναλύει στα παρακάτω πέντε κεφάλαια με συστηματικό τρόπο τα θεωρητικά θεμέλια, τις μεθόδους αξιολόγησης, τις στρατηγικές μείωσης προκατάληψης (bias), τον σχεδιασμό μίας καινοτόμου μεθόδου στο πλαίσιο της PU μάθησης (Dense-PU) και τις εφαρμογές της PU μάθησης στον πραγματικό κόσμο, συμβάλλοντας τόσο στην ακαδημαϊκή κοινότητα όσο και στη βιομηχανία.Η διατριβή είναι δομημένη ως εξής: Το Κεφάλαιο 1 εισάγει την κύρια έννοια της μάθησης από δεδομένα, όπου η ML παρουσιάζεται ως μέθοδος γενίκευσης από συγκεκριμένα παραδείγματα σε νέα δεδομένα. Το κεφάλαιο συγκρίνει την ML με συναφείς τομείς όπως η στατιστική, η εξόρυξη δεδομένων και η ΑΙ, τονίζοντας τις μοναδικές προκλήσεις που θέτουν τα δεδομένα του πραγματικού κόσμου, τα οποία συχνά είναι ελλιπή και θορυβώδη. Ένα κρίσιμο ζήτημα που τίθεται είναι τα μη ισορροπημένα σύνολα δεδομένων, στα οποία κάποιες κατηγορίες είναι υπερπληθής με αποτέλεσμα άλλες να είναι σημαντικά υποεκπροσωπούμενες. Η PU μάθηση παρουσιάζεται ως μια ελπιδοφόρα λύση σε αυτή την πρόκληση, αξιοποιώντας ένα μικρό σύνολο γνωστών θετικών παραδειγμάτων και μια μεγάλη ομάδα μη σημασμένων δεδομένων. Το κεφάλαιο προετοιμάζει το έδαφος για το υπόλοιπο της διατριβής, περιγράφοντας τη δομή και τους στόχους της έρευνας. Το Κεφάλαιο 2 επικεντρώνεται στην αξιολόγηση της επίδοσης των μοντέλων PU μάθησης, τονίζοντας την ανάγκη για εξειδικευμένα μετρικά αξιολόγησης και στρατηγικές επαλήθευσης λόγω της απουσίας επισημειωμένων αρνητικών παραδειγμάτων. Τα παραδοσιακά μετρικά, όπως η ακρίβεια και το ποσοστό σφάλματος, θεωρούνται ανεπαρκή για σύνολα δεδομένων που είναι μη ισορροπημένα, και προτείνονται εναλλακτικές όπως το F-score και ο Συντελεστής Συσχέτισης του Matthews (MCC). Το κεφάλαιο παρέχει επίσης μια επισκόπηση διαφόρων συνόλων δεδομένων που χρησιμοποιούνται για αξιολόγηση, από την αναγνώριση εικόνας γενικής χρήσης έως εξειδικευμένες βιομηχανικές εφαρμογές. Το Κεφάλαιο 3 αντιμετωπίζει την προκατάληψη (bias) που υπάρχει στα σύνολα δεδομένων, η οποία εισάγεται κατά τη δημιουργία τους και προτείνονται μεθόδοι για τη μείωσή της. Στο κεφάλαιο αυτό γίνεται συζήτηση για την επιρροή της προκατάληψης των συνόλων δεδομένων στην μειωμένη ικανότητα γενίκευσης σε νέα δεδομένα. Για να αντιμετωπιστεί αυτό, προτείνεται ένας νέο πλαίσιο συλλογής δεδομένων, σχεδιασμένο να δημιουργεί περισσότερο αντιπροσωπευτικά σύνολα δεδομένων, καθώς αξιοποιεί τον Παγκόσμιο Ιστό για την απόκτηση νέων δηγμάτων και φιλτράρει το άσχετο και διπλότυπο περιεχόμενο. Το κεφάλαιο εξετάζει επίσης την εφαρμογή τεχνικών βαθιάς μάθησης σε συνδυασμό με την γρήγορη ευρετηρίαση μέσω του δομών δέντρου Burkhard-Keller (BK-tree). Το προτεινόμενο πλαίσιο συλλογής δεδομένων χρησιμοποιήθηκε για την επιτυχημένη κατασκευή ενός νέου συνόλου δεδομένων, το οποίο περιέχει εικόνες που αντιπροσωπεύουν Ελληνικά φαγητά. Το Κεφάλαιο 4 παρουσιάζει τη μέθοδο Dense-PU, μια καινοτόμο προσέγγιση που βελτιώνει την απόδοση της PU μάθησης μέσω της δημιουργίας νέων δειγμάτων με τη τη χρήση τεχνικών επαύξησης και γνώμονα τα όρια των θετικώς αναγνωρισμένων παραδειγμάτων. Στη συνέχεια γίνεται δειγματοληψία μέσω αλγορίθμου ανίχνευσης ανωμαλιών στα μη σημασμένα δεδομένα για την ανακάλυψη παραδειγμάτων που πιθανώς δεν ανήκουν στην γενικότερη ομάδα των θετικώς αναγνωρισμένων παραδειγμάτων. Αυτή η προσέγγιση μετατρέπει την πρόκληση της PU μάθησης σε πρόβλημα δυαδικής ταξινόμησης, επιτρέποντας την αποτελεσματική εκπαίδευση μοντέλων ML. Η Dense-PU δοκιμάστηκε σε σύνολα δεδομένων αναφοράς όπως τα CIFAR-10 και Fashion-MNIST, όπου έδειξε απόδοση κορυφαίου επιπέδου.Το Κεφάλαιο 5 εξετάζει τις εφαρμογές της PU μάθησης σε πραγματικές συνθήκες σε διάφορους τομείς, υπογραμμίζοντας την αποτελεσματικότητά της στη διαχείριση μη ισορροπημένων και μερικώς σημασμένων συνόλων δεδομένων. Το κεφάλαιο παρουσιάζει μελέτες περιπτώσεων, όπως η αναγνώριση σημείων αυξημένου κινδύνου ατυχημάτων στο ελληνικό οδικό δίκτυο, η ανίχνευση ελαττωμάτων σε βιομηχανικές εγκαταστάσεις και η ανίχνευση ελαττωματικών φωτοβολταϊκών πάνελ. Αυτές οι μελέτες αναδεικνύουν την προσαρμοστικότητα και την ανθεκτικότητα της PU μάθησης, δείχνοντας την υπεροχή της έναντι των παραδοσιακών μεθόδων επιβλεπόμενης μάθησης στην αντιμετώπιση των προκλήσεων δεδομένων στον πραγματικό κόσμο. Συνοψίζοντας, αυτή η διατριβή κάνει σημαντικές συμβολές στον τομέα της μηχανικής μάθησης, προωθώντας τη θεωρητική κατανόηση της PU μάθησης, δείχνοντας τις πρακτικές εφαρμογές της και παρέχοντας έναν οδικό χάρτη για μελλοντική έρευνα. Τα ευρήματα προσφέρουν μια σταθερή βάση για τη συνεχιζόμενη ανάπτυξη και εφαρμογή της PU μάθησης σε διάφορους τομείς, ιδιαίτερα όπου η ύπαρξη μη ισσοροπημένων δεδομένων και τα περιορισμένα επισήμαντα δεδομένα είναι διαδεδομένα. Η παρακάτω λίστα παρουσιάζει τις συνεισφορές αυτής της διατριβής σε (α) θεωρητικό και (β) πρακτικό επίπεδο, καθώς και (γ) στον γενικότερο τομέα της μηχανικής μάθησης. Θεωρητικές συνεισφορές αυτής της διατριβής: 1. Δημιουργία της Μεθόδου Dense-PU: Αυτή η μελέτη παρουσιάζει μια νέα μέθοδογια μάθηση από θετικά και μη σημασμένα δεδομένα που ονομάζεται Dense-PU [1]. Η μέθοδος χρησιμοποιεί με καινοτόμο τρόπο τη δειγματοληψία βάσει των ορίων της κλάσης των γνωστών παραδειγμάτων και την ανίχνευση ανωμαλιών στα άγνωστα για να μετατρέψει το πρόβλημα της PU μάθησης σε ένα συμβατικό πρόβλημα δυαδικής ταξινόμησης. Η Dense-PU προσεγγίζει αποτελεσματικά τα όρια της θετικής κλάσης, μειώνοντας την εξάρτηση από τα αρνητικά δεδομένα, τα οποία συχνά δεν είναι διαθέσιμα σε σενάρια PU μάθησης. 2. Αναγνώριση και Μείωση της Μεροληψίας στο Σύνολο Δεδομένων: Αυτή η μελέτη παρέχει μια διεξοδική ανάλυση της μεροληψίας στο σύνολο δεδομένων, μια σημαντική πρόκληση στη μηχανική μάθηση, ιδιαίτερα στην γενίκευση μοντέλων σε δεδομένα πραγματικού κόσμου [2]. Εισάγει καινοτόμες μεθόδους για την ανίχνευση και μείωση της μεροληψίας κατά τη διαδικασία δημιουργίας του συνόλου δεδομένων, διασφαλίζοντας ότι τα μοντέλα που εκπαιδεύονται σε αυτά τα δεδομένα αποδίδουν πιο αποτελεσματικά σε διάφορα και άγνωστα περιβάλλοντα. 3. Ενσωμάτωση του «βαθμού ανωμαλίας» κατά την Εκπαίδευση DNN: Μια από τις βασικές συνεισφορές είναι η ανάπτυξη μιας καινοτόμου μεθόδου που βελτιώνει την ασθενή επιβλεπόμενη μάθηση μέσω εκπαίδευσης της προσαρμογής του βάρους των παραδειγμάτων βάσει του «βαθμού ανωμαλίας» [3]. Αυτή η προσέγγιση βελτιώνει σημαντικά τη διαδικασία ανίχνευσης ελαττωμάτων σε βιομηχανικές εφαρμογές, οδηγώντας σε σημαντικές βελτιώσεις στις μετρικές ταξινόμησης σε διάφορα σύνολα δεδομένων. 4. Χρήση των Deep Convolutional Generative Adversarial Networks (DCGAN) για την προσέγγιση μιας άγνωστης αρνητικής κλάσης: Η μελέτη παρουσιάζει την ενσωμάτωση των DCGANs στο πλαίσιο της Dense-PU, για την προσέγγιση δεδομένων που δεν ανήκουν στην θετικώς αναγνωρισμένη κλάση, με εφαρμογή στην ανίχνευση ελαττωμάτων σε φωτοβολταϊκά πάνελ. Αυτή η μέθοδος επιτυγχάνει επίπεδα απόδοσης συγκρίσιμα με αυτά της πλήρως επιβλεπόμενης μάθησης ενώ απαιτεί μόνο ένα μικρό υποσύνολο σημασμένων δεδομένων, αναδεικνύοντας την αποδοτικότητα της PU μάθησης σε περιβάλλοντα με έλλειψη δεδομένων [4]. Πρακτικές συνεισφορές με εφαρμογές στον πραγματικό κόσμο: 1. Προσαρμοστικότητα σε Σενάρια Πραγματικού Κόσμου: Αυτή η μελέτη εφαρμόζει τις προτεινόμενες μεθόδους PU μάθησης σε πολύπλοκα προβλήματα πραγματικού κόσμου, όπως η ταυτοποίηση επικίνδυνων σημείων ατυχημάτων στο ελληνικό οδικό δίκτυο [5,6] και η ανίχνευση ελαττωμάτων σε βιομηχανικά περιβάλλοντα [3,4,7]. Έτσι, αποδεικνύει την ευελιξία και την αποτελεσματικότητα της PU μάθησης σε περιβάλλοντα, τα οποία οι παραδοσιακές μέθοδοι επιβλεπόμενης μάθησης δυσκολεύονται, ιδίως στη διαχείριση μη ισορροπημένων συνόλων δεδομένων. 2. Υπολογιστική Αποδοτικότητα: Παρά την ενσωμάτωση προτεινόμενων τεχνικών, η Dense-PU παραμένει υπολογιστικά αποδοτική και απλή στην υλοποίηση. Αυτή η ισορροπία μεταξύ πολυπλοκότητας και πρακτικότητας καθιστά τη μέθοδο προσιτή για εφαρμογές στον πραγματικό κόσμο χωρίς να απαιτούνται εκτεταμένοι υπολογιστικοί πόροι [3]. 3. Ανάπτυξη μιας Νέας Διεργασίας Δημιουργίας Συνόλων Δεδομένων: Προτείνεται μια νέα διεργασία για τη δημιουργία συνόλων δεδομένων από δεδομένα που αποκτώνται από το διαδίκτυο. Αυτή η διεργασία περιλαμβάνει πολλαπλά στάδια, όπως ανίχνευση άσχετου περιεχομένου, αφαίρεση διπλότυπων εικόνων και την κατάταξη αντιπροσωπευτικών δειγμάτων, όλα με στόχο τη μείωση του θορύβου και της μεροληψίας στο σύνολο δεδομένων [2,8]. Η διεργασία είναι σχεδιασμένη να είναι κλιμακούμενη, αποδοτική και εφαρμόσιμη σε ευρύ φάσμα τομέων. 4. Προσαρμογή του BK-Tree για Αποτελεσματική Ανίχνευση Διπλότυπων και Αναγνώριση Τοποθεσίας: Η μελέτη προσαρμόζει τη δομή του Δέντρου Burkhard- Keller (BK-tree) για δύο σκοπούς: (α) αποτελεσματική ανίχνευση διπλότυπων εικόνων κατά τη δημιουργία συνόλου δεδομένων [2,8] και (β) βελτίωση της ανίχνευσης κλεισίματος βρόχου σε συστήματα Ταυτόχρονου Εντοπισμού και Χαρτογράφησης (SLAM). Αυτή η προσαρμογή μειώνει σημαντικά την υπολογιστική πολυπλοκότητα και βελτιώνει την ακρίβεια, καθιστώντας την ένα πολύτιμο εργαλείο τόσο για τη δημιουργία συνόλων δεδομένων όσο και για συστήματα αυτόνομης πλοήγησης [9]. Άλλες συνεισφορές σχετικές με τον ευρύτερο τομέα της ML: 1. Κορυφαία Απόδοση σε Βάσεις Δεδομένων Αναφοράς: Η αποτελεσματικότητατης Dense-PU αποδεικνύεται μέσω εκτεταμένων πειραμάτων σε ευρέως αναγνωρισμένες βάσεις δεδομένων αναφοράς, όπως το CIFAR-10 και το Fashion- MNIST. Η μέθοδος ξεπερνά συνεχώς τις υπάρχουσες κορυφαίες προσεγγίσεις όσον αφορά το F1-score, την ακρίβεια, την ανάκληση και τη συνολική ακρίβεια, καθιερώνοντας ένα νέο πρότυπο για τις μεθόδους PU μάθησης [1,3]2. Αλλαγή παραδείγματος στη PU-μάθηση που υπερβαίνει την απόδοση της επιβλεπόμενης μάθησης: Η μελέτη εισάγει μια νέα προσέγγιση που εφαρμόζει την PU μάθηση στην ταξινόμηση ατυχημάτων σε επικίνδυνα σημεία [5,6]. Αυτή η μεθοδολογία βελτιώνει σημαντικά την ακρίβεια, την ανάκληση, και το F1-score σε σύγκριση με τις υπάρχουσες μεθόδους επιβλεπόμενης μάθησης. Παρέχει επίσης μια πλήρη συγκριτική ανάλυση, αποκαλύπτοντας τη στατιστική σημασία των βελτιώσεων που επιτυγχάνονται με την PU μάθηση. 3. Εισαγωγή του συνόλου δεδομένων GREFood: Η προτεινόμενη διεργασία κατασκευής συνόλων δεδομένων επικυρώνεται μέσω περιπτωσιολογικών μελετών στον τομέα της αναγνώρισης τροφίμων [2,8]. Αυτές οι μελέτες δείχνουν την αποτελεσματικότητα της διεργασίας στη δημιουργία ισορροπημένων, αντιπροσωπευτικών συνόλων δεδομένων που μειώνουν σημαντικά την επίδραση της μεροληψίας. Η μελέτη εισάγει ένα νέο σύνολο δεδομένων για την αναγνώριση τροφίμων που αποτελείται από ελληνικά φαγητά. Τα αποτελέσματα δείχνουν ότι τα μοντέλα που εκπαιδεύονται σε αυτά τα νέα σύνολα δεδομένων έχουν καλύτερες δυνατότητες γενίκευσης σε σύγκριση με εκείνα που εκπαιδεύονται σε παραδοσιακά σύνολα δεδομένων.
περισσότερα
Περίληψη σε άλλη γλώσσα
Machine Learning (ML) has revolutionized data analysis and decision-making by allow- ing systems to learn and improve from experience, in contrast to traditional program- ming’s rules-based approach. ML algorithms analyze large datasets to uncover patterns and make predictions, improving with more data. This adaptive learning process en- ables applications in image and speech recognition, natural language processing, and predictive analytics, handling tasks that are impractical for humans.ML is a subset of artificial intelligence (AI) focused on learning from data. It in- cludes supervised learning, which uses labeled data to predict outputs for new data, and unsupervised learning, which identifies patterns in unlabeled data. Semi-supervised learning uses a mix of labeled and unlabeled data, while reinforcement learning in- volves learning through feedback in dynamic environments. Data science, a broader field, encompasses data collection, preprocessing, analysis, and visualization, wi ...
Machine Learning (ML) has revolutionized data analysis and decision-making by allow- ing systems to learn and improve from experience, in contrast to traditional program- ming’s rules-based approach. ML algorithms analyze large datasets to uncover patterns and make predictions, improving with more data. This adaptive learning process en- ables applications in image and speech recognition, natural language processing, and predictive analytics, handling tasks that are impractical for humans.ML is a subset of artificial intelligence (AI) focused on learning from data. It in- cludes supervised learning, which uses labeled data to predict outputs for new data, and unsupervised learning, which identifies patterns in unlabeled data. Semi-supervised learning uses a mix of labeled and unlabeled data, while reinforcement learning in- volves learning through feedback in dynamic environments. Data science, a broader field, encompasses data collection, preprocessing, analysis, and visualization, with ML providing tools for building predictive models. The real-world application of ML faces challenges such as messy, incomplete data and the need for continuous model maintenance. Academic datasets are controlled and curated, while real-world data requires sophisticated preprocessing. ML models must integrate into larger systems, considering user experience, ethics, and compliance. Scalability is crucial for handling large data volumes and adapting to changing conditions, especially in high-stakes industries like healthcare and finance. The era of big data presents opportunities and challenges. Abundant data sources generate vast information, but labeling this data is expensive and time-consuming. Semi-supervised and unsupervised learning techniques aim to utilize unlabeled data effectively. Data understanding is critical for robust models, and addressing dataset imbalance ensures fair and effective systems. Positive and Unlabeled (PU) learning addresses data scarcity and imbalance by using small sets of positive examples and large pools of unlabeled data. Common in fields like fraud detection and medical diagnosis, PU learning leverages limited positive examples to build accurate predictive models. This thesis explores PU learning’s theoretical foundations and practical applications, proposing robust methodologies for real-world datasets. This PhD thesis explores the application and advancement of Positive-Unlabeled (PU) learning, a novel approach in machine learning that addresses the challenges posed by imbalanced and partially labeled datasets. Through five comprehensive chapters, the thesis systematically delves into the theoretical foundations, benchmarking methods, bias mitigation strategies, and real-world applications of PU learning, ultimately offering significant contributions to both academia and industry. The thesis is structured as follows: Chapter 1 introduces the core concept of learning from data, where machine learning (ML) is framed as a method of generalizing from specific instances to new, unseen data. The chapter compares ML with related fields such as statistics, data mining, and artificial intelligence (AI), emphasizing the unique challenges posed by real-world data, which is often messy, incomplete, and noisy. A critical issue discussed is data imbalance, where one class is significantly underrepresented. PU learning is presented as a promising solution to this challenge, leveraging a small set of known positive examples and a large pool of unlabeled data. The chapter sets the stage for the rest of the thesis by outlining the structure and goals of the research. Chapter 2 focuses on the benchmarking of PU learning models, emphasizing the need for specialized evaluation metrics and validation strategies due to the absence of labeled negative examples. Traditional metrics like accuracy and error rate are deemed inadequate for imbalanced datasets, and alternatives such as the F-score and Matthews Correlation Coefficient (MCC) are recommended. The chapter also provides an overview of various datasets used for benchmarking, ranging from general image recognition to specialized industrial applications. This chapter establishes the foundation for rigorous evaluation, which is essential for developing robust PU learning models. Chapter 3 addresses the inevitable bias in dataset creation and proposes methods to mitigate it. The chapter discusses how dataset bias can lead to poor generalization on unseen data, a common issue in supervised learning. To combat this, a novel data collection pipeline is introduced, designed to create more representative datasets by filtering out irrelevant and duplicate content. The chapter also explores the application of deep learning techniques and the Burkhard-Keller Tree (BK-tree) indexing in improving dataset quality and model performance. The methods proposed here significantly reduce the impact of dataset bias, enhancing the generalizability of AI models. Chapter 4 presents Dense-PU, an innovative method that improves the performance of PU learning by generating new samples through boundary-aware sampling and anomaly detection. This approach transforms the PU learning challenge into a binary classification problem, enabling more effective model training. Dense-PU was tested on benchmark datasets such as CIFAR-10 and Fashion-MNIST, where it demonstrated state-of-the-art performance. The chapter highlights the method’s applicability in real- world scenarios, particularly those involving imbalanced datasets, and suggests future research directions to further enhance PU learning. Chapter 5 explores the real-world applications of PU learning across various do- mains, emphasizing its effectiveness in managing imbalanced and partially labeled datasets. The chapter presents case studies, including the identification of accident black spots in Greek road networks and defect detection in industrial settings. These studies showcase the adaptability and robustness of PU learning, demonstrating its superiority over traditional supervised learning methods in handling real-world data challenges. The chapter concludes by outlining future research opportunities to optimize PU learning further. In summary, this thesis makes significant contributions to the field of machine learning by advancing the theoretical understanding of PU learning, demonstrating its practical applications, and providing a roadmap for future research. The findings offer a solid foundation for the continued development and application of PU learning in diverse domains, particularly where data imbalance and limited labeled data are prevalent. The contributions are also listed bellow in three categories: (a) theoretical contributions, (b) practical contributions, and (c) other contributions to the broader field of ML. Theoretical contributions of this dissertation:1. Introduction of the Dense-PU Method: This study presents a novel method for PU learning called Dense-PU [1]. The method innovatively uses boundary-aware sampling and anomaly detection to transform the PU learning problem into a conventional binary classification task. By interpolating between latent encodings of positive-labeled data, Dense-PU effectively approximates the boundary of the positive class, reducing reliance on negative data, which is often unavailable in PU learning scenarios.2. Identification and Mitigation of Dataset Bias: This study provides a thorough analysis of dataset bias, a significant challenge in machine learning, particularly in the generalization of models to real-world data [2]. It introduces innovative methods to detect and mitigate bias during the dataset creation process, ensuring that models trained on these datasets perform more effectively across diverse and unseen environments.3. Integration of Anomaly-Informed Training during DNN training: One of the key contributions is the development of an innovative method that enhances weakly supervised learning through anomaly-informed weighted training [3]. This approach refines the defect detection process in industrial applications, leading to substantial improvements in classification metrics across diverse datasets.4. Use of Deep Convolutional Generative Adversarial Networks (DCGAN) for approximating an unseen negative class: The study presents the integration of DCGANs for data approximation in the context of PU learning, particularly in the detection of defects in photovoltaic cells. This method achieves performance levels on par with fully supervised learning while requiring only a small subset of labeled data, highlighting the efficiency of PU learning in data-scarce environments [4]. Practical contributions with real-world applications:1. Adaptability to Real-World Scenarios: This study pioneers the application of PU learning to complex, real-world problems such as the identification of accident black spots within Greek road networks [5, 6] and defect detection in industrial settings [3, 4, 7]. By doing so, it demonstrates the versatility and effectiveness of PU learning in contexts where traditional supervised learning methods struggle, particularly in managing imbalanced datasets.2. Computational Efficiency and Simplicity: Despite incorporating advanced techniques like interpolation and anomaly detection, Dense-PU remains com- putationally efficient and straightforward to implement. This balance between complexity and practicality makes the method accessible for real-world applications without requiring extensive computational resources [3].3. Development of a Novel Dataset Construction Pipeline: A novel pipeline for constructing datasets from web-acquired data is introduced. This pipeline includes multiple stages, such as irrelevant content detection, duplicate image removal, and ranking of representative samples, all aimed at reducing noise and bias in the dataset [2, 8]. The pipeline is designed to be scalable, efficient, and applicable to a wide range of domains.4. Adaptation of BK-Tree for Efficient Deduplication and Place Recognition: The study adapts the Burkhard-Keller Tree (BK-tree) structure for two purposes: (a) efficient duplicate image detection during dataset construction [2, 8] and (b) enhancing visual loop-closure detection in Simultaneous Localization and Mapping (SLAM) systems. This adaptation significantly reduces computational complexity and improves accuracy, making it a valuable tool for both dataset construction and autonomous navigation systems [9].Other contributions related to the broader field of ML:1. State-of-the-Art Performance on Benchmark Datasets: The effectiveness of Dense-PU is demonstrated through extensive experimentation on widely recognized benchmark datasets such as CIFAR-10 and Fashion-MNIST. The method consistently outperforms existing state-of-the-art approaches in terms of F1-score, precision, recall, and overall accuracy, establishing a new benchmark for PU learning methods [1, 3].2. Paradigm change to pu-learning surpassed supervised learning performance: The study introduces a novel approach that applies PU learning to the classification of accidents at black spots [5, 6]. This methodology significantly improves the accuracy, precision, recall, and F1-score compared to existing supervised learning. It also provides a comprehensive comparative analysis, revealing the statistical significance of the improvements achieved with PU learning.3. Introduction of the GREFood dataset: The proposed pipeline is validated through detailed case studies in the domain of food recognition [2, 8]. These case studies demonstrate the pipeline’s effectiveness in creating balanced, representative datasets that significantly reduce the impact of dataset bias. The study introduces a novel dataset for food recognition comprised of Greek food dishes. The results show that models trained on these newly constructed datasets have better generalization capabilities compared to those trained on traditional datasets.
περισσότερα