Τεχνικές για εξελισσόμενα σύνολα ετικέτων και ερμηνευσιμότητα στην ταξινόμηση κειμένου σε πολλαπλές ετικέτες
Περίληψη
Η Τεχνητή Νοημοσύνη (Artificial Intelligence (AI)) είναι ο ακρογωνιαίος λίθος πίσω από την πρόοδο στον κλάδο της πληροφορικής, δίνοντας την δυνατότητα ανάπτυξης αναρίθμητων εφαρμογών σε διαφόρους τομείς της ζωής μας όπως η υγεία, η οικο- νομία και η βιοπληροφορική. Δύο από τις πιο γνωστές υποπεριοχές της τεχνητής νοημοσύνης, είναι η Μηχανική Μάθηση (Machine Learning (ML)) και η Επεξεργασία Φυσικής Γλώσσας (Natural Language Processing (NLP)). Η πρώτη πραγματεύεται το πως μπορούμε να διδάξουμε στις μηχανές να μαθαίνουν και να ξεχωρίζουν περίπλοκα μοτίβα, χρησιμοποιώντας δομημένα ή μη δεδομένα. Η δεύτερη στοχεύει στο να δώσει την δυνατότητα στις μηχανές να κατανοήσουν και να παράξουν φυσική γλώσσα, προερχόμενη από ανθρώπους. Ένα πολύ γνωστό αντικείμενο το οποίο βρίσκεται στο σημείο τομής μεταξύ της Μηχανικής Μάθησης και της Επεξεργασίας Φυσικής Γλώσσας, είναι η Tαξινόμηση Kειμένου (Text Classification). Η ταξινόμηση κειμένου, περιλαμβάνει όλα τα προβλή- ματα τα οποία έχουν ως στόχο την αν ...
Η Τεχνητή Νοημοσύνη (Artificial Intelligence (AI)) είναι ο ακρογωνιαίος λίθος πίσω από την πρόοδο στον κλάδο της πληροφορικής, δίνοντας την δυνατότητα ανάπτυξης αναρίθμητων εφαρμογών σε διαφόρους τομείς της ζωής μας όπως η υγεία, η οικο- νομία και η βιοπληροφορική. Δύο από τις πιο γνωστές υποπεριοχές της τεχνητής νοημοσύνης, είναι η Μηχανική Μάθηση (Machine Learning (ML)) και η Επεξεργασία Φυσικής Γλώσσας (Natural Language Processing (NLP)). Η πρώτη πραγματεύεται το πως μπορούμε να διδάξουμε στις μηχανές να μαθαίνουν και να ξεχωρίζουν περίπλοκα μοτίβα, χρησιμοποιώντας δομημένα ή μη δεδομένα. Η δεύτερη στοχεύει στο να δώσει την δυνατότητα στις μηχανές να κατανοήσουν και να παράξουν φυσική γλώσσα, προερχόμενη από ανθρώπους. Ένα πολύ γνωστό αντικείμενο το οποίο βρίσκεται στο σημείο τομής μεταξύ της Μηχανικής Μάθησης και της Επεξεργασίας Φυσικής Γλώσσας, είναι η Tαξινόμηση Kειμένου (Text Classification). Η ταξινόμηση κειμένου, περιλαμβάνει όλα τα προβλή- ματα τα οποία έχουν ως στόχο την ανάθεση μια κατάλληλης ετικέτας (label) από ένα σύνολο διαθέσιμων ετικετών σε ένα κείμενο. Το κείμενο αυτό μπορεί να είναι ένα έγγραφο, ένα απόσπασμα κείμενου ή απλά μια μικρή πρόταση. Οι ετικέτες που ανήκουν στο σύνολο ετικετών και η σημασία τους, εξαρτώνται από το είδος του προβλήματος, στο οποίο χρησιμοποιείται η ταξινόμηση κείμενου. Μερικά από τα πιο γνωστά είδη τέτοιων προβλημάτων είναι η κατηγοριοποίηση συναισθήματος (emotion classification) [104], η ανίχνευση ρητορικής μίσους (hate speech detection) [6], ταξινό- μηση ειδησεογραφικών κειμένων (news article classification) [194] και η ευρετηρίαση βιοϊατρικών άρθρων (biomedical article indexing) [4]. Δεδομένου ότι ένα μεγάλο μέρος της διαθέσιμης πληροφορίας στο διαδίκτυο έχει την μορφή δεδομένων κειμένου, η ταξινόμηση κειμένου είναι ένα πολύ βασικό εργαλείο, το οποίο έχει αναπόσπαστο ρόλο στην λειτουργία του διαδικτύου [69]. Μέσω της ταξινόμησης κειμένου, καθίσταται δυνατή η αυτοματοποίηση διαφόρων διαδικασιών, υποβοηθώντας έτσι διάφορες διεργασίες στο διαδίκτυο. Μία τέτοια διαδικασία είναι η κατηγοριοποίηση ειδησεογραφικών άρθρων επιτρέποντας την εύκολη πρόσβαση των πολιτών σε σχετικές με αυτούς ειδήσεις. Επιπλέον, το φιλτρά- ρισμα αναρτήσεων στα μέσα κοινωνικής δικτύωσης μέσω της εξαίρεσης ορισμένων κείμενων που ανήκουν σε συγκεκριμένες ετικέτες, προστατεύει ευάλωτα άτομα από αναρτήσεις που σχετίζονται με υβριστική γλώσσα ή ρητορική μίσους. Η ταξινόμηση κειμένου βρίσκει παράλληλα εφαρμογή σε συστήματα συστάσεων, διευκολύνοντας την ανάκτηση πληροφοριών που αφορούν συγκεκριμένους χρήστες. Η ταξινόμηση κειμένου βρίσκει επίσης χρήση σε εφαρμογές που χρησιμοποιού- νται σε τομείς υψηλού κινδύνου [51, 93], όπως είναι οι τομείς της υγείας και των οικονομικών. Στην υγεία, διευκολύνει την υγειονομική περίθαλψη, μέσω της κατη- γοριοποίησης των ιατρικών κειμένων, κλινικών σημειώσεων των γιατρών και των βιοϊατρικών άρθρων. Μέσω των εφαρμογών αυτών, η ταξινόμηση κειμένου βοηθάει στην αποτελεσματικότερη φροντίδα των ασθενών και επιτρέπει στους ερευνητές της ιατρικής να έχουν εύκολη πρόσβαση σε άρθρα που σχετίζονται με την έρευνά τους από την τεράστια συλλογή των διαθέσιμων. Στην περίπτωση των οικονομικών, μπορεί να διευκολύνει στην ανίχνευση πόλωσης ή ψεύδους στις οικονομικές ειδή- σεις, αποτρέποντας τους χρήστες από τη λήψη δυνητικά επιβλαβών οικονομικών αποφάσεων. Συνολικά η ταξινόμηση κειμένου αποτελεί ένα πολύ βασικό στοιχείο σε πολυά- ριθμους τομείς, κυρίως λόγω του μεγάλου όγκου διαθέσιμων δεδομένων σε μορφή κειμένου. Ο μεγάλος αυτός όγκος, καθιστά την επεξεργασία και τον χειροκίνητο σχολιασμό όλων αυτών των πληροφοριών αδύνατo στις περισσότερες περιπτώσεις. Λόγω της μη-δομημένης φύσης των δεδομένων κειμένου, τεχνικές επιβλεπόμενης μάθησης προτιμώνται συνήθως για την αντιμετώπιση του προβλήματος της ταξινό- μησης κειμένου. Στις περισσότερες περιπτώσεις, οι τεχνικές επιβλεπόμενης μάθησης απαιτούν μια μεγάλη ποσότητα δεδομένων, όπου κάθε στιγμιότυπο από τα δεδομένα αυτά είναι χαρακτηρισμένο με μία ετικέτα, για να μπορέσουν να εξάγουν πληροφορίες από τα δεδομένα αυτά και στην συνέχεια να αποδώσουν ετικέτες σε άλλα άγνωστα δεδομένα. Το σύνολο των δεδομένων αυτών τα οποία είναι χαρακτηρισμένα με μία ετικέτα, και από τα οποία μαθαίνουν οι τεχνικές επιβλεπόμενης μάθησης είναι γνωστό ως σύνολο εκπαίδευσης (training set). Η πλειονότητα των διαθέσιμων κειμένων που υπάρχουν στο διαδίκτυο και επο- μένως εμφανίζονται σε πραγματικά προβλήματα, σχετίζονται με παραπάνω από ένα θέματα και επομένως, παραπάνω από μια ετικέτες μπορεί να είναι σχετικές με αυτά. Στο πλαίσιο της ταξινόμησης κειμένου, αυτό συνεπάγεται ότι τα μοντέλα που χρησιμοποιούνται για την ταξινόμηση αυτών των κειμένων, πρέπει να είναι σε θέση να τους αποδίδουν πολλαπλές ετικέτες ταυτόχρονα αντί για μία μόνο. Στη βιβλιογραφία το πρόβλημα αυτό είναι γνωστό ως Μάθηση Πολλαπλών Ετικετών (Multi Label Learning (MLL)), και στην γενική περίπτωση, θεωρείται ως πιο δύσκολο πρόβλημα από την τυπική ταξινόμηση με μία μόνο ετικέτα. Η δυσκολία αυτή καθιστά την ανάγκη για προσημασμένα δεδομένα υψηλής ποιότητας ακόμα πιο εμφανή. Ωστόσο, η εύρεση τέτοιων δεδομένων δεν είναι πάντα εφικτή σε προβλήματα του πραγματικού κόσμου, όπου μπορεί να υπάρχουν σύνολα ετικετών χωρίς προσημα- σμένα δεδομένα. Το πρόβλημα της έλλειψης δεδομένων γίνεται ακόμα πιο εμφανές σε σύνολα ετικετών που εξελίσσονται με την πάροδο του χρόνου. Σε προβλήματα όπου το σύνολο των διαθέσιμων ετικετών αλλάζει συνεχώς, είτε με την εισαγωγή νέων διαθέσιμων ετικετών είτε με αλλαγές στη σημασία των ήδη υπαρχόντων, ακό- μα και αν υπάρχουν μερικά προσημασμένα δεδομένα, μπορεί να είναι ανεπαρκή για να εκπαιδευτούν κατάλληλα μοντέλα για την ταξινόμηση των κειμένων. Αυτό οφείλεται είτε στο ότι τα κείμενα αυτά δεν περιέχουν πληροφορίες σχετικά με τις νεοεισαχθείσες ετικέτες είτε στο ότι οι ετικέτες τους καθίστανται μη κατάλλη- λες [19], λόγω μετατοπίσεων στη σημασία των ίδιων ή ετικετών που σχετίζονται με αυτές. Το τελευταίο φαινόμενο είναι γνωστό ως μετατόπιση εννοιών (concept drift) και εκδηλώνεται ως μετατοπίσεις στη σημασία ή τη χρήση συγκεκριμένων λέξεων με την πάροδο του χρόνου. Επιπλέον, σε σενάρια πολλαπλών ετικετών, όπου οι ετικέτες συνδέονται στενά μεταξύ τους, το πρόβλημα της εξέλιξης του συνόλου ετικετών γίνεται ακόμη πιο εμφανές. Σε αυτές τις περιπτώσεις, οι αλλαγές σε μια ετικέτα μπορεί να επηρεάσουν έμμεσα και άλλες σχετικές ετικέτες, καθιστώντας τη διαδικασία ανάθεσης κατάλληλων ετικετών σε κείμενα πολύ δυσκολότερη. Με βάσει την προηγούμενη συζήτηση μπορούμε να συμπεράνουμε ότι ένα ανοιχτό ζήτημα στην ταξινόμηση κειμένου με πολλαπλές ετικέτες είναι η ύπαρξη εξελισσόμε- νων συνόλων ετικετών, όπου οι ετικέτες που τα απαρτίζουν αλλάζουν συνεχώς. Η μη-στατική φύση αυτών των συνόλων ετικετών καθιστά τις τυπικές προσεγγίσεις μάθησης υπο-επίβλεψη αναποτελεσματικές, καθώς είτε δεν μπορούν να αντιμετω- πίσουν την εμφάνιση νέων ετικετών, είτε η απόδοση τους φθίνει σημαντικά με τον χρόνο, καθώς το σύνολο των ετικετών εξελίσσεται προοδευτικά και η σημασία των λέξεων και κατά συνέπεια των ετικετών αλλάζει. Επομένως για την ανάθεση των κατάλληλων ετικετών σε σενάρια στα οποία έχουμε εξελισσόμενα σύνολα ετικετών, προτιμώνται τεχνικές που μπορούν να λει- τουργήσουν με περιορισμένα ή καθόλου προσημασμένα δεδομένα, καθώς μπορούν να αντιμετωπίσουν αποτελεσματικά την απουσία κειμένων που να συνδέονται με συγκεκριμένες ετικέτες, ενώ παράλληλα αντιμετωπίζουν και το φαινόμενο της μετατόπισης των εννοιών, καθώς δεν έχουν προηγούμενη γνώση για τη σημασία των λέξεων πριν από την μετατόπιση, καθώς δεν έχουν μάθει από κάποιο σύνολο δεδομένων. Επιπλέον, είναι απαραίτητη η ύπαρξη μεθόδων οι οποίες είναι σε θέση να ανι- χνεύσουν το πότε το νόημα ή η χρήση ήδη υπαρχουσών ετικετών μετατοπίζεται και αλλάζει. Με την ανίχνευση τέτοιων αλλαγών, μπορούν να γίνουν οι κατάλληλες ενέργειες, ώστε να αποτραπεί η μείωση της απόδοσης ήδη εκπαιδευμένων μοντέλων με παλαιότερα δεδομένα, τα οποία δεν αντιπροσωπεύουν το τρέχων νόημα των ετικετών. Με την χρήση των μεθόδων αυτών επομένως, μπορούν μοντέλα που χρησιμοποιούνται σε πραγματικές εφαρμογές να επανεκπαιδεύονται με την χρήση πιο πρόσφατων δεδομένων αν ανιχνευθεί το φαινόμενο της μετατόπισης εννοιών και έτσι να παραμείνει η επίδοση τους σταθερή παρά τις αλλαγές στο σύνολο των ετικετών. Ένα από τα δύο βασικά θέματα και κίνητρα πίσω από την συγγραφή της δια- τριβής αυτής είναι η ανάπτυξη τεχνικών και μεθόδων για την αντιμετώπιση των εξελισσόμενων συνόλων ετικετών και των προβλημάτων που προκύπτουν από την εξέλιξη αυτή στην ταξινόμηση κειμένων με πολλαπλές ετικέτες. Πιο συγκεκριμένα, στο πλαίσιο της παρούσας διατριβής εστιάζουμε στον τομέα της βιοϊατρικής, ο οποίος αποτελεί παράδειγμα τομέα στον οποίο χρησιμοποιείται κατά κύριο λόγο ένα εξελισσόμενο σύνολο ετικετών. Συγκεκριμένα, ένα από τα θέματα που θα συζητηθούν στην διατριβή αυτή είναι η ευρετηρίαση βιοϊατρικών άρθρων, όπου το σύνολο ετικετών που χρησιμοποιείται κατά κύριο λόγο είναι η ιατρική οντολογία με όνομα Medical Subject Headings (MeSH). Η MeSH είναι ένα συνεχώς μεταβαλλόμενο λεξιλόγιο, το οποίο έχει την μορφή δενδρικής οντολογίας και αποτελείται από ιατρικούς όρους. Η MeSH ενημερώνεται κάθε χρόνο για να αντικατοπτρίζει τις πιο πρόσφατες γνώσεις μας στον τομέα της βιοϊατρικής, και οι όροι οι οποίο την αποτελούν χρησιμοποιούνται ως ετικέτες για τα βιοϊατρικά άρθρα που βρίσκονται στο διαδίκτυο. Κατά κύριο λόγο, τα βιοϊατρικά άρθρα σχετίζονται με περισσότερα από ένα αντικείμενα, καθώς ακόμη και όταν καλύπτουν μια συγκεκριμένη θεματική περιοχή της ιατρικής, η πολυπλοκότητα του βιοϊατρικού τομέα καθιστά αναπόφευκτες τις αλληλεπιδράσεις μεταξύ διαφορετικών ιατρικών εννοιών. Αυτό θέτει την ευρε- τηρίαση βιοϊατρικών άρθρων ως ένα πρόβλημα ταξινόμησης κειμένου με πολλαπλές ετικέτες, όπου οι ετικέτες είναι οι όροι που απαρτίζουν την MeSH. Το δεύτερο κίνητρο πίσω από την συγγραφή της διατριβής αυτής, το οποίο απο- τελεί και το δεύτερο βασικό της θέμα είναι η ερμηνευσιμότητα στο πρόβλημα της ταξινόμησης κειμένου πολλαπλών ετικετών. Η λέξη ερμηνευσιμότητα (interpretability), αναφέρεται στην ικανότητα εξαγωγής συμπερασμάτων και αιτιολογήσεων πίσω από τις αποφάσεις ενός μοντέλου μηχανικής μάθησης. Οι αιτιολογήσεις αυτές είναι σε πολλές περιπτώσεις απαραίτητες, καθώς μπορούν να διασφαλίσουν ότι ένας αλγό- ριθμος ή ένα μοντέλο μηχανικής μάθησης λειτουργεί δίκαια και χωρίς προκαταλήψεις, τις οποίες μπορεί να έλαβε από τα δεδομένα στα οποία εκπαιδεύτηκε. Οι ίδιες αιτιολογήσεις παράλληλα, μπορούν να παρέχουν εξηγήσείς στους χρήστες, σχετικά με το πώς το μοντέλο μηχανικής μάθησης, κατέληξε σε ένα συγκεκριμένο συμπέρασμα, και έβγαλε τελικά την απόφαση του, εξασφαλίζοντας με αυτόν τον τρόπο διαφάνεια. Το γεγονός αυτό είναι και ο λόγος που το αποτέλεσμα των τεχνικών ερμηνευσιμότητας αναφέρεται στην βιβλιογραφία και ως επεξηγήσεις (interpretations). Τα μοντέλα transformer, αποτελούν την πιο ευρέως χρησιμοποιούμενη οικογένεια μοντέλων για την επίλυση προβλημάτων ταξινόμησης κειμένου, ξεπερνώντας σε επιδόσεις προηγούμενες προσεγγίσεις, οι οποίες ήταν βασισμένες σε Συνελικτικά Νευρωνικά Δίκτυα (Convolutional Neural Networks (CNN)) και σε Δίκτυα Μακράς Βραχύχρονης Μνήμης (Long short-term memory Networks (LSTM)). Η υψηλή επίδοση των μοντέλων αυτών οφείλεται εν μέρει στην αρχιτεκτονική τους που βα- σίζεται στον μηχανισμό της προσοχής (attention). Ο μηχανισμός αυτός επιτρέπει στα μοντέλα transformer, να αναγνωρίζουν, αντιλαμβάνονται και να μοντελοποιούν αποτελεσματικά, το γενικότερο θέμα και τα συμφραζόμενα του κειμένου. βάσει αυτού, τα μοντέλα αυτά μπορούν να δημιουργήσουν πιο εκφραστικές και με περισ- σότερη πληροφορία αναπαραστάσεις για τα δεδομένα κειμένου. Αυτό κατά συνέπεια οδηγεί σε βελτιωμένες επιδόσεις σε διάφορες εργασίες στις οποίες μπορούν να χρησιμοποιηθούν τα μοντέλα αυτά, οι οποίες συμπεριλαμβάνουν και την ταξινόμηση κειμένου. Παρά τις υψηλές τους επιδόσεις ωστόσο, τα μοντέλα transformer είναι γνωστά για την πολυπλοκότητα τους. Συγκεκριμένα η αρχιτεκτονική τους αποτελείται από μεγάλο αριθμό παραμέτρων. Αυτό σε συνδυασμό με το πόσο πολύπλοκη και βαθιά είναι η αρχιτεκτονική τους, καθιστά δύσκολο να κατανοήσει κάποιος πως αυτά τα μοντέλα καταλήγουν να βγάζουν τις προβλέψεις τους. Μοντέλα για τα οποία είναι δύσκολο να καταλάβει κάποιος το πως από την είσοδο τους καταλήγουν στην έξοδο τους είναι γνωστά στην βιβλιογραφία ως μοντέλα μαύρου κουτιού (black box). Η ονομασία αυτή προέρχεται από το γεγονός ότι ένας χρήστης δεν μπορεί να γνωρίζει πως λειτουργεί το μοντέλο για να παράξει τις προβλέψεις του. Συνεπώς δίνεται η εντύπωση ενός μαύρου κουτιού, μέσα στο οποίο ο χρήστης δεν μπορεί να κοιτάξει, και το μόνο που αντιλαμβάνεται είναι ότι δίνοντας μια συγκεκριμένη είσοδο το μαύρο κουτί αυτό θα βγάλει μια έξοδο, χωρίς να έχει παραπάνω πληροφορίες για το πως βάσει των παραπάνω, καταλαβαίνουμε ότι τα μοντέλα transformer, είναι εγγενώς μη ερμηνεύσιμα. Η φύση τους αυτή, περιορίζει την χρηστικότητα τους σε τομείς υψη- λού ρίσκου, όπου η ταξινόμηση κειμένου έχει αποδειχθεί αποτελεσματικό εργαλείο, όπως είδαμε και παραπάνω. Οι τομείς υψηλού ρίσκου, απαιτούν τα συστήματα απο- φάσεων που εφαρμόζονται σε αυτούς, να είναι ικανά να παρέχουν και κατανοητές επεξηγήσεις για τα αποτελέσματα τους, καθώς αυτά τα αποτελέσματα ενδέχεται να ενέχουν σημαντικούς κινδύνους για την ανθρώπινη διαβίωση ή να οδηγούν σε σημαντικές οικονομικές ζημίες. Με βάσει τα παραπάνω, η ερμηνευσιμότητα αποτελεί σημαντική πτυχή για τους εν λόγο τομείς. Όπως αναφέραμε προηγουμένως, το δεύτερο βασικό αντικείμενο με το οποίο θα ασχοληθεί η διατριβή αυτή είναι η ερμηνευσιμότητα στην ταξινόμηση κείμενου πολλαπλών ετικετών. Δεδομένου ότι τα μοντέλα που χρησιμοποιούνται για το πρόβλημα αυτό είναι κατά βάσει βασισμένα σε transformers, η διατριβή αυτή κατά κύριο λόγο πραγματεύεται την ερμηνευσιμότητα των μοντέλων αυτών. Η πιο δημοφιλής προσέγγιση στην βιβλιογραφία για την ερμηνευσιμότητα της οικογένειας των μοντέλων transformer, είναι η χρήση του μηχανισμού προσοχής που έχουν όλα τα μοντέλα αυτά, και αποτελεί τον πυρήνα της αρχιτεκτονικής τους. Δεδομένου ότι οι τιμές που λαμβάνει ο μηχανισμός προσοχής ενός transformer υπολογίζονται κατά της διάρκεια της εκπαίδευσης του μοντέλου και συνεπώς είναι έτοιμα διαθέσιμες κατά την διάρκεια της διαδικασίας που το μοντέλο βγάζει τις προβλέψεις του, η χρήση τους για την εξαγωγή επεξηγήσεων δεν προσθέτει καμία σημαντική υπολογιστική επιβάρυνση. Το παραπάνω, σε συνδυασμό με το γεγονός ότι όπως είπαμε ο μηχανισμός προσοχής είναι βασικό κομμάτι της αρχιτεκτονικής των transformer, καθιστά τον μηχανισμό προσοχής μια πολύ χρήσιμη πηγή για την εξαγωγή συμπερασμάτων ως προς τις προβλέψεις των μοντέλων transformer.Ωστόσο, παρά τα παραπάνω πλεονεκτήματα που αναφέραμε, η χρήση του μηχανι- σμού της προσοχής, ως βάση για την εξαγωγή επεξηγήσεων, έχει αντιμετωπιστεί με σκεπτικισμό από ορισμένους ερευνητές στο παρελθόν. Στο πλαίσιο αυτής της διατριβής, παρουσιάζουμε ότι με τη σωστή επεξεργασία, ο μηχανισμός της προσοχής μπορεί πράγματι να χρησιμοποιηθεί ως ερμηνεία για τα μοντέλα transformer στο πρόβλημα της ταξινόμησης κειμένου με πολλαπλές ετικέτες. Εκτός από τον μηχανισμό της προσοχής, η διατριβή αυτή εξερευνά και την χρήση φράσεων κλειδιών (keyphrases), για την επεξήγηση των μοντέλων transformer. Οι φράσεις κλειδιά, όπως προδίδει και το όνομα τους είναι λέξεις ή φράσεις, οι οποίες μπορούν να περιγράψουν και να συνοψίσουν το βασικό νόημα ενός κειμένου. Ουσιαστικά οι φράσεις κλειδιά αποτελούν το βασικό αντικείμενο του κειμένου το οποίο περιγράφουν, και μπορούν να χρησιμοποιηθούν είτε για να συνοψίσουν το περιεχόμενό του είτε για να επιτρέψουν την ευρετηρίαση και την ανάκτηση εγγράφων. Οι τεχνικές εξαγωγής φράσεων κλειδιών μπορούν να κατηγοριοποιηθούν σε επο- πτευόμενες και μη εποπτευόμενες, ανάλογα με το αν έχουμε πληροφορίες για την ύπαρξη φράσεων κλειδιών σχετικά με ένα σύνολο εγγράφων ή όχι. Η πρώτη κατηγορία γενικά επιτυγχάνει υψηλότερες επιδόσεις, ενώ η δεύτερη που είναι και αυτή που χρησιμοποιείται πιο συχνά, περιλαμβάνει τεχνικές οι οποίες μπορούν να χρησιμοποιηθούν χωρίς δεδομένα, και σε οποιονδήποτε τομέα περιέχει κείμενα, χωρίς κάποιο πρόσθετο κόστος. Οι φράσεις κλειδιά ως μέσο για την επεξήγηση των αποτελεσμάτων στο πρόβλημα της ταξινόμησης κειμένου, είναι ένα αντικείμενο που δεν έχει εξερευνηθεί στο παρελ- θόν από τους ερευνητές. Η χρήση τους ως επεξηγήσεις έχει πολλά πλεονεκτήματα, με κυριότερο το μικρό μέγεθος των επεξηγήσεων (καθώς η επεξήγηση θα περιλαμβάνει μόνο τις φράσεις κλειδιά και όχι όλες τις λέξεις του κειμένου), που τις κάνει πιο εύκολα κατανοητές από τους χρήστες που δεν έχουν κάποιο επιστημονικό υπόβαθρο. Η διατριβή αυτή επομένως, θα μελετήσει την χρήση τους για την επεξήγηση του προβλήματος της ταξινόμησης κειμένου με την χρήση μοντέλων transformer. Επιπλέον, στα πλαίσια της ερμηνευσιμότητας στο πρόβλημα της ταξινόμησης κειμένου, η διατριβή αυτή μελετάει και την ερμηνευσιμότητα των τεχνικών μείωσης διαστάσεων (Dimensionality Reduction (DR)). Οι τεχνικές αυτές όπως προδίδει και το όνομα τους χρησιμοποιούνται για να μειώσουν τις διαστάσεις των δεδομένων από τον χώρο στον οποίο βρίσκονται, σε έναν άλλο χαμηλότερων διαστάσεων. Με τον τρόπο αυτό διευκολύνεται η οπτικοποίηση των δεδομένων, ενώ παράλληλα γίνεται λιγότερο κοστοβόρα η επεξεργασίας τους. Στην ταξινόμηση κειμένου αυτό μας αφορά καθώς οι αναπαραστάσεις που χρησι- μοποιούνται από τα περισσότερα μοντέλα ταξινομητών που χρησιμοποιούνται στα προβλήματα αυτά, μαθαίνουν από αναπαραστάσεις σε χώρους με πολλές διαστάσεις. Επομένως, οι τεχνικές μείωσης διαστάσεων βρίσκουν χρήση και στο πρόβλημα της ταξινόμησης κειμένου, και ακόμα περισσότερο σε προβλήματα πολλαπλών ετικετών, όταν ο χώρος των ετικετών είναι πάρα πολύ μεγάλος. Επιπρόσθετα, οι τεχνικές μείωσης διαστάσεων οι οποίες χρησιμοποιούνται στην βιβλιογραφία σε πραγματικά προβλήματα δεν είναι γραμμικές, και επομένως δεν μπορούμε να γνωρίζουμε πως από τις αρχικές διαστάσεις η τεχνική αυτή κατέληξε στις νέες μειωμένες διαστάσεις. βάσει αυτού είναι αδύνατο να γυρίσουμε από τον νέο μειωμένο χώρο στον αρχικό, κάτι το οποίο είναι απαραίτητο στην ταξινόμηση κείμενου. Ένα παράδειγμα όπου είναι απαραίτητο να μπορούμε να επιστρέφουμε τα δεδομένα στον αρχικό χώρο είναι όταν μειώνουμε το σύνολο των ετικετών για να διευκολύνουμε την μάθηση ενός μοντέλου, και θέλουμε να γυρίσουμε στον αρχικό χώρο για να αξιολογήσουμε την απόδοση του. Στις περιπτώσεις αυτές τεχνικές οι οποίες μπορούν να ερμηνεύσουν την μείωση των διαστάσεων είναι πολύ χρήσιμες, καθώς μέσω των εξηγήσεων που παράγουν, μπορούμε να επιστρέψουμε στον αρχικό χώρο των δεδομένων. Η βασική συνεισφορά της παρούσας Διδακτορικής Διατριβής είναι η δημιουργία και παρουσίαση καινοτόμων τεχνικών για την αντιμετώπιση των ζητημάτων που προκύπτουν σε προβλήματα ταξινόμησης κειμένου με πολλαπλές ετικέτες, όταν οι ετικέτες αυτές ανήκουν σε ένα εξελισσόμενο σύνολο ετικετών. Επιπλέον, μέσω της διατριβής αυτής εισάγονται τεχνικές για την ερμηνευσιμότητα των μοντέλων transformer, τα οποία όπως αναφέραμε προηγουμένως είναι τα μοντέλα που χρησιμο- ποιούνται κατά κύριο λόγο στα προβλήματα ταξινόμησης κειμένου σε πραγματικές εφαρμογές. Τέλος, η διατριβή αυτή παρουσιάζει και μια τεχνική για την επεξήγηση μη γραμμικών τεχνικών μείωσης διαστάσεων, το οποίο είναι ένα αντικείμενο το οποίο βρίσκει εφαρμογή σε διάφορα προβλήματα. Όσων αφορά την ταξινόμηση κειμένων πολλαπλών ετικετών με εξελισσόμενα σύνολα ετικετών, εστιάζουμε στον τομέα της βιοϊατρικής και πιο συγκεκριμένα στην ταξινόμηση βιοϊατρικών άρθρων, όπου το σύνολο των ετικετών είναι η ιατρική οντολογία MeSH, η οποία ανανεώνεται κάθε χρόνο. Πιο συγκεκριμένα, για την αντιμετώπιση της εμφάνισης νέων ετικετών καθώς και για τις πιο σύνθετες αλλαγές που συμβαίνουν στην οντολογία, αναπτύχθηκε μια τεχνική Μάθησης Χωρίς Δεδομένα (Zero-Shot Learning (ZSL)), η οποία κάνει χρήση της σημασιολογικής ομοιότητας μεταξύ βιοϊατρικών άρθρων και ετικετών για τις οποίες δεν έχουμε δεδομένα εκπαίδευσης. Η ταξινόμηση των βιοϊατρικών άρθρων γίνεται με βάσει το πόσο υψηλή είναι η ομοιότητα τους με την ετικέτα. Με τον τρόπο αυτό καθίσταται δυνατή η ταξινόμηση των άρθρων αυτών χωρίς την εκπαίδευση κάποιου μοντέλου. Η τεχνική μας αυτή κάνει χρήση αναπαραστάσεων κειμένου προερχόμενες από μοντέλα transformer, και αναπαριστά το κάθε κείμενο ως ένα σύνολο από προτάσεις. Αυτός ο τρόπος αναπαράστασης σε αντίθεση με τον πιο συνηθισμένο τρόπο που αναπαριστά τα κείμενα ως n-grams που χρησιμοποιείται στα προβλήματα Μάθησης Χωρίς Δεδομένα, φαίνεται να δίνει καλύτερα αποτελέσματα. Η ιατρική οντολογία MeSH, παρέχει επιπλέον πληροφορίες προέλευσης (provenance information) για κάθε νέα ετικέτα που εισάγεται στο λεξιλόγιο. Οι πληροφορίες αυτές είναι ένα πολύ χρήσιμο εργαλείο, μέσω του οποίου μπορούμε να υποβοηθήσουμε την διαδικασία της ταξινόμησης των βιοϊατρικών άρθρων με τις καινούργιες αυτές ετικέτες. Αξιοποιώντας αυτές τις πληροφορίες προέλευσης, δημιουργήσαμε μια νέα τεχνική Μάθησης με Ασθενή Επίβλεψη (Weakly-Supervised Learning (WSL)). Η τεχνική αυτή δημιουργεί ένα σύνολο εκπαίδευσης ασθενούς επίβλεψης για τις νέες ετικέτες, με σκοπό να το χρησιμοποιήσει για την εκπαίδευση ενός τυπικού μοντέλου που χρησιμοποιείται στα προβλήματα μάθησης πολλαπλών ετικετών. Δεδομένου ότι δεν υπάρχουν βιοϊατρικά άρθρα για τις νέες ετικέτες, η τεχνική μας χρησιμοποιεί τις πληροφορίες προέλευσης της κάθε ετικέτας για να την ’ταιριάξει’ με ήδη υπάρχοντα κείμενα για να δημιουργήσει αυτό το σύνολο εκπαίδευσης. Για την ανάθεση αυτών των ετικετών, καθώς και για την αναπαράσταση των βιοϊατρικών άρθρων η τεχνική μας αξιοποιεί και την περίληψη και τον τίτλο τους. Επιπλέον, στα πλαίσια της διατριβής αυτής πραγματοποιήσαμε μια ανάλυση του τρόπου με τον οποίο η ίδια η οντολογία μεταβάλλεται με την πάροδο των ετών, με στόχο την ανίχνευση του φαινομένου της μετατόπισης των εννοιών, το οποίο εκδηλώνεται στις ετικέτες που την απαρτίζουν. Μέσω της ανάλυσης αυτής, αναδείξαμε ότι η σύνθετη μορφή της οντολογίας της MeSH, σε συνδυασμό με το γεγονός ότι τα βιοϊατρικά άρθρα σχετίζονται με πολλαπλές ετικέτες, μπορεί να προκαλέσει το φαινόμενο της μετατόπισης των εννοιών ακόμα και σε ετικέτες οι οποίες δεν επηρεάστηκαν από τις ετήσιες αλλαγές, που συμβαίνουν στην MeSH. Ονομάσαμε αυτό το φαινόμενο έμμεση μετατόπιση έννοιας (indirect concept drift) και πραγματοποιήσαμε μια διπλή ανάλυση για τον εντοπισμό του, εστιάζοντας στο πως μεταβάλλεται η επίδοση ενός εκπαιδευμένου μοντέλου με την πάροδο του χρόνου σε συγκεκριμένες ετικέτες, σε συνδυασμό με τις αλλαγές στην ταυτόχρονη εμφάνιση μεταξύ των ετικετών. Όσον αφορά την ερμηνευσιμότητα στο πλαίσιο της ταξινόμησης κειμένων, ανα- πτύχθηκαν καινοτόμες τεχνικές για την επεξήγηση των αποφάσεων των μοντέλων transformer, τα οποία θεωρούνται ως τα πλέον σύγχρονα μοντέλα για προβλήματα ταξινόμησης κειμένων. Ειδικότερα, διερευνήθηκε το πως η χρήση του μηχανισμού της προσοχής, που όπως αναφέραμε αποτελεί τον πυρήνα των μοντέλων αυτών, μπορεί να χρησιμοποιηθεί ως μέσο εξαγωγής συμπερασμάτων για τις αποφάσεις τους. βάσει αυτού δημιουργήθηκε η οικογένεια τεχνικών Optimus, για την επεξήγηση των αποφάσεων των μοντέλων transformer. Η οικογένεια Optimus, επιλέγει την πιο αξιόπιστη επεξήγηση, βάσει μιας μετρικής πιστότητας. Η επιλογή αυτή ανάλογα την μέθοδο Optimus που χρησιμοποιείται μπορεί να γίνει για ένα κείμενο, για ένα κείμενο και κάθε ετικέτα του, ή για ένα σύνολο κειμένων. Η οικογένεια τεχνικών αυτή, φάνηκε μέσω πειραμάτων να παρέχει πιο αξιόπιστες επεξηγήσεις σε σύγκριση με άλλες τεχνικές ερμηνευσιμότητας, ενώ για ορισμένες τεχνικές της οικογένειας, έχει επίσης και χαμηλότερο χρόνο εκτέλεσης. Πέρα από την οικογένεια τεχνικών Optimus, στα πλαίσια της ίδιας εργασίας, επινοήθηκε μια νέα μετρική πιστότητας για να υποβοηθήσει στη διαδικασία ερμη- νευσιμότητας του Optimus. Η μετρική αυτή σε αντίθεση με την πιο γνωστή μετρική πιστότητας, λαμβάνει υπόψη όλες τις λέξεις από τις οποίες αποτελείται ένα κείμενο όταν αξιολογεί τις τεχνικές ερμηνευσιμότητας. Επιπλέον αξιολογεί την επεξήγηση όχι μόνο ως προς το αν έδωσε την σωστή σημαντικότητα σε κάθε λέξη, αλλά και το αν την έβαλε στην σωστή διάταξη σε σχέση με τις υπόλοιπες. βάσει των προηγούμε- νων, η μετρική αυτή μπορεί να προσφέρει μια πιο ολοκληρωμέμνη αξιολόγηση των τεχνικών επεξήγησης που δίνουν τιμές στο κάθε χαρακτηριστικό των δεδομένων, βάσει της σημασίας του στην απόφαση του μοντέλου. Επιπλέον, λόγω της διαδικα- σίας αξιολόγησης που ακολουθεί η μετρική μας, τα αποτελέσματα που δίνει για κάθε τεχνική επεξήγησης είναι πιο κοντά σε αυτά που δίνονται από επιβλεπόμενες μετρικές, ενισχύοντας επιπλέον την καταλληλότητα της μετρικής μας. Εκτός από την χρήση του μηχανισμού της προσοχής, στην παρούσα διατριβή διερευνήθηκε και η ερμηνευσιμότητα των μοντέλων transformer για την ταξινόμηση κειμένου με βάση την χρήση φράσεων κλειδιών, με στόχο την παροχή μικρότερων και πιο συνοπτικών επεξηγήσεων. Σκοπός των επεξηγήσεων αυτών είναι η ευκολότερη κατανόηση τους από κάποιον άνθρωπο οποίος δεν έχει κάποιο τεχνικό υπόβα- θρο. Οι επεξηγήσεις που βασίζονται στις φράσεις κλειδιά έχουν και το πρόσθετο πλεονέκτημα ότι λαμβάνουν υπόψη τις αλληλεπιδράσεις μεταξύ των λέξεων κατά την επεξήγηση της απόφασης ενός μοντέλου ένα θέμα που δεν έχει διερευνηθεί επαρκώς στην βιβλιογραφία. Στην διατριβή αυτή παρουσιάζουμε την τεχνική text ClassificAtion is Keyphrase Explainable (CAKE), η οποία χρησιμοποιεί διάφορες μη- επιβλεπόμενες τεχνικές εξαγωγής φράσεων κλειδιών για την παροχή των σχετικών φράσεων κλειδιών σε ένα κείμενο, και στην συνεχεία βαθμολογεί και φιλτράρει τις φράσεις κλειδιά αυτές, για να παράξει την τελική επεξήγηση. Τέλος, επινοήθηκε μια μέθοδος ερμηνείας των μη γραμμικών τεχνικών μείωσης διαστάσεων. Η τεχνική αυτή που ονομάζεται Local eXplanation of Dimensionality Reduction (LXDR), μπορεί να παράξει τα βάρη από τα οποία προήλθαν οι νέες μειωμένες διαστάσεις από την χρήση μη γραμμικών τεχνικών μείωσης διαστάσεων. Η εν λόγο μέθοδος βρέθηκε ότι μπορεί να εφαρμοστεί σε μια πληθώρα διαφορετικών τομέων, συμπεριλαμβανομένης της αναπαράστασης θεμάτων (topic modeling) και της μάθησης ακραία πολλαπλών ετικετών (Extreme Multi Label Learning). Στην πρώτη περίπτωση τα θέματα (topics) που δημιουργούνται βάσει του LXDR, φάνηκαν να είναι υψηλότερης ποιότητας από αυτά άλλων παρόμοιων τεχνικών. Στην δεύτερη περίπτωση, με την μείωση του χώρου των ετικετών κατά την εκπαίδευση του μοντέλου, και με την επιστροφή τους στις αρχικές διαστάσεις με την χρήση του LXDR, κατά την αξιολόγηση των αποφάσεων, τα πειράματα μας έδειξαν αύξηση των επιδόσεων. Η διατριβή αυτή αποτελείται από πέντε κεφάλαια. Το Κεφάλαιο 1 αποτελεί μια εισαγωγή στο αντικείμενο της διατριβής και παρουσιάζει συνοπτικά τα δύο βασικά θέματα που θα αναλυθούν στα πλαίσια της διατριβής αυτής. Η υπόλοιπη διατριβή διαρθρώνεται ως εξής. Το Κεφάλαιο 2 παρέχει τις απαραίτητες πληροφορίες σχετικά με το υπόβαθρο και τις γνώσεις που χρειάζονται για την κατανόηση των θεμάτων της διατριβής αυτής. Το κεφάλαιο αυτό περιέχει όλα τα γνωστικά αντικείμενα του τομέα της επιστήμης των υπολογιστών που είναι σχετικά με το ειδικότερο θέμα της διατριβής και παρέχει μια ανάλυση τους για να διευκολύνει τον αναγνώστη να κατανοήσει τις καινοτομίες που θα παρουσιαστούν αργότερα. Επιπλέον, δίνονται πληροφορίες σχετικά με έρευνες που έχουν γίνει στο παρελθόν και οι οποίες είναι σχετικές με την παρούσα διατριβή. Το Κεφάλαιο 3 παρουσιάζει τις συνεισφορές μας στον τομέα της ταξινόμησης βιοϊατρικών άρθρων, χρησιμοποιώντας την εξελισσόμενη οντολογία της MeSH ως σύνολο ετικετών. Συγκεκριμένα στο κεφάλαιο αυτό παρουσιάζονται οι τεχνικές που αναπτύξαμε για την αντιμετώπιση των αλλαγών στην οντολογία, καθώς και τα αποτελέσματα τους σε σύγκριση με άλλες τεχνικές της βιβλιογραφίας. Επιπρόσθετα παρουσιάζουμε την ανάλυση μας για το φαινόμενο της μετατόπισης εννοιών στην MeSH και δείχνουμε πως η περίπλοκη δομή της μπορεί να επηρεάσει και ετικέτες έμμεσα, χωρίς αυτές να επηρεάζονται άμεσα από τις ετήσιες αλλαγές της οντολογίας. Το Κεφάλαιο 4, παρουσιάζει την ερευνά μας σχετικά με την ερμηνευσιμότητα στα προβλήματα ταξινόμησης κειμένου πολλαπλών ετικετών και πιο συγκεκριμένα εστιάζοντας στα μοντέλα transformer. Στο κεφάλαιο αυτό παρουσιάζεται η οικογέ- νεια τεχνικών Optimus που κάνει χρήση του μηχανισμού προσοχής των μοντέλων transformer καθώς και η πειραματική μας ανάλυση που δείχνει πως ο μηχανισμός προσοχής μπορεί να χρησιμοποιηθεί ως επεξήγηση για τα μοντέλα transformer, ύστερα από κατάλληλη επεξεργασίας. Επιπλέον παρουσιάζουμε και την τεχνική text ClassificAtion is Keyphrase Explainable (CAKE), που χρησιμοποιεί φράσεις κλειδιά για την επεξήγηση των μοντέλων transformer, δίνοντας πιο κατανοητές και μικρές επεξηγήσεις. Τέλος στο ίδιο κεφάλαιο παρουσιάζουμε την τεχνική Local eXplanation of Dimensionality Reduction (LXDR), η οποία μπορεί να χρησιμοποιηθεί για την παραγωγή επεξηγήσεων για μη γραμμικές τεχνικές μείωσης διαστάσεων. Παρουσιά- ζουμε επίσης την χρησιμότητα της τεχνικής LXDR σε μια πληθώρα από διαφορετικά προβλήματα του πραγματικού κόσμου. Η παρούσα διατριβή ολοκληρώνεται στο Κεφάλαιο 5, όπου συζητάμε ορισμένα βασικά συμπεράσματα που προκύπτουν από την έρευνά μας και προτείνουμε μελλοντικές κατευθύνσεις προς τους ίδιους ερευνητικούς στόχους.
περισσότερα
Περίληψη σε άλλη γλώσσα
Natural Language Processing (NLP) is a field of Artificial Intelligence (AI), tasked with enabling machines to understand, interpret, and generate human language, bridging the gap between human communication and computational systems. It encompasses a wide range of techniques and algorithms that enable computers to process and analyze natural language data. Machine Learning (ML) is another field of AI, which facilitates machines to learn patterns from data. ML plays a major role in the advancement of technology and its use in a plethora of domains. One of the most fundamental tasks of NLP and ML is text classification, which involves automatically assigning predefined categories or labels to textual data and plays a significant role in organizing, analyzing, and extracting insights from large volumes of textual data. Text classification finds use in a plethora of domains, with one of the most prominent ones being the biomedical domain, where it facilitates the classification of medical ...
Natural Language Processing (NLP) is a field of Artificial Intelligence (AI), tasked with enabling machines to understand, interpret, and generate human language, bridging the gap between human communication and computational systems. It encompasses a wide range of techniques and algorithms that enable computers to process and analyze natural language data. Machine Learning (ML) is another field of AI, which facilitates machines to learn patterns from data. ML plays a major role in the advancement of technology and its use in a plethora of domains. One of the most fundamental tasks of NLP and ML is text classification, which involves automatically assigning predefined categories or labels to textual data and plays a significant role in organizing, analyzing, and extracting insights from large volumes of textual data. Text classification finds use in a plethora of domains, with one of the most prominent ones being the biomedical domain, where it facilitates the classification of medical documents, clinical notes or research articles, into fine-grained categories, something that would otherwise require expert supervision, ultimately aiding not only in the treatment outcomes of patients but also in the advancement of the biomedical field. Despite its prominence text classification also faces significant challenges. Notably, training effective models to classify texts from evolving domains is a not a straightfor- ward task, especially when this evolution causes changes in the label space or shifts the relationships between the input and the output space of the data. Additionally, in Multi Label Learning (MLL) scenarios where labels are closely associated with each other, and therefore changes in one label may indirectly affect other ones related to it, designing techniques for effectively detecting and dealing with these changes becomes even more strenuous. To exacerbate these issues, new labels are frequently introduced in evolving domains, without annotated texts accompanying them, prompting data shortage issues as well. Aside from the complications arising from the evolving domains, another pronounced hurdle faced in text classification is interpretability. Most of the models achieving state-of-the-art performance in text classification tasks are notoriously uninterpretable, making it impossible to derive reasoning behind their decisions. Interpretability is crucial in certain domains such as biomedicine discussed earlier, since the decisions of models in these domains can directly affect human livelihood. The goal of this thesis is to introduce novel techniques to help alleviate those challenges. Specifically, for the biomedical domain and more precisely biomedical article classification, where the ever evolving Medical Subject Headings (MeSH) thesaurus is used we designed techniques to deal with the emergence of new labels or descriptors as they are called in the thesaurus, in addition to other more complex changes. With that goal in mind a Zero-Shot Learning (ZSL) approach was developed, making use of semantic similarity between biomedical articles and descriptors for which we have no train data, in order to perform classification. This approach made use of a state-of-the-art embedding method to obtain per sentence article representations in contrast to the n-gram based approaches commonly used for ZSL. MeSH, provides provenance information about each new descriptor introduced in the thesaurus, which can be used to aid the classification process. Utilizing this provenance information we introduced a Weakly-Supervised Learning (WSL) technique that creates a high quality weakly-supervised train set for new MeSH descriptors before training a typical MLL classification model. This technique leverages both the abstracts and titles of biomedical articles from previous iterations of MeSH and in conjunction to the provenance information of each new descriptor, assigns these new descriptors to the articles to create the weakly-supervised train set. We additionally, studied the evolution of the thesaurus outside the introduction of new descriptors, instead focusing on the how the concept drift phenomenon affects the vocabulary, as a consequence of the yearly MeSH revisions. Due to the multi-label nature of MeSH and the close relationships between descriptors in the tree-hierarchy of the thesaurus, changes in one descriptor can indirectly affect other ones related to it. We called this phenomenon indirect concept drift and performed a two-fold analysis, focusing on the performance changes of descriptors, in conjunction to shifts in their co-occurrence in order to detect it. Concerning interpretability in the context of text-classification, novel techniques were developed, to provide interpretations for the decision of transformer models, which are considered as state-of-the-art for the task of text-classification. In particular, the use of the readily available attention module present in transformer models as means of extracting interpretations was explored, leading to the creation of the Optimus family of techniques. The Optimus family selects the most faithful interpretation, among multiple attention-based ones, according to an unsupervised faithfulness-based metric. This selection, depending on the sub-method of the Optimus family, is performed per instance, per label per instance or for a set of instances. Optimus was found to provide more faithful interpretations compared to other state-of-the-art techniques, while also having lower execution time for certain techniques in the family. Additionally, a novel faithfulness-based metric was introduced to aid in the inter- pretability process of Optimus and to offer a more complete evaluation of feature- importance based interpretability techniques. This metric, contrary to the most well- known faithfulness-based metric, examines all the tokens of a textual input, when evaluating the interpretations provided by a feature-importance technique. Further- more, the importance of each token is evaluated not only based on its score, but in regards to its rank when compared to other tokens in the same input. This process of the metric brings its evaluation closer to supervised metrics, making it more suitable for interpretability evaluation. Besides the use of attention, keyphrase-based of interpretability of text classification was explored in this thesis, with the goal of providing smaller and more concise interpretations that are easier for the human reader to understand. Keyphrase- based interpretations have the additional advantage of taking into account word interactions when interpreting a model’s decision a topic that is scarcely explored in the literature. To that end, several state-of-the-art keyphrase extraction techniques were used, to provide the relevant keyphrases to an input text, before a scoring and a filtering procedure take place to provide the final keyphrases along with their feature-importance as interpretations. Finally, a method for interpreting dimensionality reduction techniques was devised, towards providing more interpretable document representations. The method in question, can interprete the dimensionality reduction process of any non-linear dimen- sionality reduction technique, and was found to be applicable in a plethora of different domains including topic representation and extreme multi-label learning, aiding in the generation of higher quality topics in the former and increased performance in the latter.
περισσότερα
![]() | |
![]() | Κατεβάστε τη διατριβή σε μορφή PDF (10.94 MB)
(Η υπηρεσία είναι διαθέσιμη μετά από δωρεάν εγγραφή)
|
Όλα τα τεκμήρια στο ΕΑΔΔ προστατεύονται από πνευματικά δικαιώματα.
|
Στατιστικά χρήσης


ΠΡΟΒΟΛΕΣ
Αφορά στις μοναδικές επισκέψεις της διδακτορικής διατριβής για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.
Πηγή: Google Analytics.


ΞΕΦΥΛΛΙΣΜΑΤΑ
Αφορά στο άνοιγμα του online αναγνώστη για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.
Πηγή: Google Analytics.


ΜΕΤΑΦΟΡΤΩΣΕΙΣ
Αφορά στο σύνολο των μεταφορτώσων του αρχείου της διδακτορικής διατριβής.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.


ΧΡΗΣΤΕΣ
Αφορά στους συνδεδεμένους στο σύστημα χρήστες οι οποίοι έχουν αλληλεπιδράσει με τη διδακτορική διατριβή. Ως επί το πλείστον, αφορά τις μεταφορτώσεις.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.
λιγότερα
περισσότερα