Περίληψη
Αυτή η διατριβή διερευνά την ανάπτυξη αλγορίθμων και αρχιτεκτονικών βαθιάς μάθησης που μπορούν να χρησιμοποιηθούν στην επεξεργασία φυσικής γλώσσας. Για το λόγο αυτό, αξιοποιούμε ένα πρωτότυπο πλαίσιο βελτιστοποίησης υπό περιορισμούς που ενσωματώνει a priori γνώσεις στη διαδικασία της εκπαίδευσης. Το πλαίσιο αυτό επιδιώκει να μεγιστοποιήσει σταδιακά μια αντικειμενική συνάρτηση και ταυτόχρονα να ικανοποιήσει ένα σύνολο προϋποθέσεων κατά τη διάρκεια της εκπαίδευσης. Οι προϋποθέσεις αυτές είναι οι εξής: α) η συνάρτηση κόστους πρέπει να μειώνεται σε κάθε εποχή και β) η αναζήτηση του βέλτιστου διανύσματος προσαρμογής βαρών θα πρέπει να περιορίζεται σε μια υπερσφαίρα γνωστής ακτίνας, έτσι ώστε να μην αυξάνονται απεριόριστα οι τιμές των βαρών. Η αντικειμενική συνάρτηση είναι μια ποσότητα που κωδικοποιεί τις πρόσθετες γνώσεις που πρέπει να ενσωματωθούν στον μηχανισμό μάθησης. Μέσω της επίλυσης αυτού του προβλήματος βελτιστοποίησης υπό περιορισμούς εξάγεται ένα γενικό πλαίσιο βελτιστοποίησης, τ ...
Αυτή η διατριβή διερευνά την ανάπτυξη αλγορίθμων και αρχιτεκτονικών βαθιάς μάθησης που μπορούν να χρησιμοποιηθούν στην επεξεργασία φυσικής γλώσσας. Για το λόγο αυτό, αξιοποιούμε ένα πρωτότυπο πλαίσιο βελτιστοποίησης υπό περιορισμούς που ενσωματώνει a priori γνώσεις στη διαδικασία της εκπαίδευσης. Το πλαίσιο αυτό επιδιώκει να μεγιστοποιήσει σταδιακά μια αντικειμενική συνάρτηση και ταυτόχρονα να ικανοποιήσει ένα σύνολο προϋποθέσεων κατά τη διάρκεια της εκπαίδευσης. Οι προϋποθέσεις αυτές είναι οι εξής: α) η συνάρτηση κόστους πρέπει να μειώνεται σε κάθε εποχή και β) η αναζήτηση του βέλτιστου διανύσματος προσαρμογής βαρών θα πρέπει να περιορίζεται σε μια υπερσφαίρα γνωστής ακτίνας, έτσι ώστε να μην αυξάνονται απεριόριστα οι τιμές των βαρών. Η αντικειμενική συνάρτηση είναι μια ποσότητα που κωδικοποιεί τις πρόσθετες γνώσεις που πρέπει να ενσωματωθούν στον μηχανισμό μάθησης. Μέσω της επίλυσης αυτού του προβλήματος βελτιστοποίησης υπό περιορισμούς εξάγεται ένα γενικό πλαίσιο βελτιστοποίησης, το οποίο χρησιμοποιείται ως γενική βάση και επεκτείνεται προκειμένου να διαμορφωθούν αποτελεσματικοί αλγόριθμοι που ενσωματώνουν a-priori γνώσεις στη διαδικασία εκπαίδευσης. Εξετάζονται δύο βασικές κατηγορίες επιπρόσθετης γνώσης. Η πρώτη περιλαμβάνει εγγενείς γνώσεις που προέρχονται από όλες τις συνθήκες που αφορούν στα χαρακτηριστικά της υπερεπιφάνειας της συνάρτησης κόστους. Η δεύτερη κατηγορία αποτελείται από τις συνθήκες εκείνες που κωδικοποιούν την εξωτερική γνώση η οποία προέρχεται από τη φύση του προβλήματος προς επίλυση. Στην περίπτωση της εγγενούς γνώσης, αναπτύσσουμε έναν αλγόριθμο για την εκπαίδευση βαθιών νευρωνικών δικτύων, ο οποίος ονομάζεται Hessian Free algorithm with Curvature Scaled Adaptive Momentum (HF-CSAM), και λαμβάνει υπόψη τις εγγενείς γνώσεις που προέρχονται από τη δεύτερη παράγωγο της συνάρτησης κόστους (Εσσιανό πίνακα). Το κίνητρο πίσω από τη διαμόρφωση του αλγορίθμου είναι ότι στην πράξη, η εκπαίδευση νευρωνικών δικτύων περιλαμβάνει την ελαχιστοποίηση μη κυρτών συναρτήσεων, επομένως οι μέθοδοι που βασίζονται στην πρώτη παράγωγο μπορούν να οδηγήσουν μόνο σε κάποιο τοπικό ελάχιστο. Επιπρόσθετα, ένα άλλο ζήτημα που προκύπτει είναι η ακραία καμπυλότητα της συνάρτησης κόστους. Παρόλο που η χρήση μεθόδων πρώτης τάξης, όπως για παράδειγμα η στοχαστική μέθοδος καθόδου κλίσης (stochastic gradient descent - SGD), είναι η πιο δημοφιλής προσέγγιση για την εκπαίδευση νευρωνικών δικτύων, αυτές οι μέθοδοι αγνοούν εντελώς την καμπυλότητα της αντικειμενικής συνάρτησης. Σε αντίθεση με τις μεθόδους πρώτης τάξης, οι μέθοδοι δεύτερης τάξης είναι πολύ καλές στην αντιμετώπιση της καμπυλότητας. Επομένως ενσωματώνοντας τις πληροφορίες που λαμβάνουμε από τον Εσσιανό πίνακα στον κανόνα της μάθησης θα καταλήξουμε σε καλύτερα αποτελέσματα. Το κύριο μειονέκτημα των μεθόδων δεύτερης τάξης είναι ότι δεν είναι πρακτικές για την εκπαίδευση νευρωνικών δικτύων μεγάλης κλίμακας λόγω της υπολογιστικής πολυπλοκότητας του υπολογισμού του Εσσιανού πίνακα. Ο αλγόριθμος HF-CSAM, παρά το ότι είναι αλγόριθμος δεύτερης τάξης, απαιτεί ελάχιστους επιπλέον υπολογισμούς σε σύγκριση με ένα κλασικό αλγόριθμο SGD με ορμή (momentum). Ο υπολογισμός των παραγώγων επιτυγχάνεται μέσω τεχνικών Hessian Free (HF) optimization και του τελεστή R{.} που επιτρέπουν τον απ'ευθείας υπολογισμό του γινομένου ενός διανύσματος με τον πίνακα δεύτερων παραγώγων για την εκτίμηση του επόμενου βήματος προς την ελαχιστοποίηση της συνάρτησης κόστους. Ο κανόνας της ενημέρωσης των βαρών του αλγορίθμου HF-CSAM είναι παρόμοιος με αυτόν του SGD με ορμή, αλλά με δύο κύριες διαφορές που προκύπτουν από τη διατύπωση του προβλήματος της εκμάθησης ως πρόβλημα βελτιστοποίησης υπό περιορισμούς: (α) ο όρος της ορμής κλιμακώνεται με την πληροφορία καμπυλότητας (με τη μορφή του Εσσιανού πίνακα). (β) οι συντελεστές για το ρυθμό εκμάθησης (learning rate) και ο όρος της κλιμακωτής ορμής (scaled momentum) καθορίζονται προσαρμοστικά. Η αποτελεσματικότητα του αλγορίθμου HF-CSAM αποδεικνύεται μέσω της υλοποίησης του σε διαφορετικές αρχιτεκτονικές νευρωνικών δικτύων για προβλήματα επεξεργασίας φυσικής γλώσσας και υπολογιστικής όρασης όπου αξιολογείται έναντι των πιο συχνά εφαρμοσμένων αλγορίθμων εκπαίδευσης νευρωνικών δικτύων. Στην περίπτωση της κωδικοποίησης εξωτερικής πληροφορίας η οποία προέρχεται από τη φύση του προβλήματος, διερευνούμε μια ποικιλία εξωτερικών πηγών γνώσης ανάλογα με το πρόβλημα που έχουμε προς επίλυση. Αρχικά εξετάζουμε μεθοδολογίες σε συστήματα συστάσεων, καθώς προκύπτουν αρκετά προβλήματα λόγω της έλλειψης επαρκούς πληροφορίας στον πίνακας αξιολογήσεων. Επομένως οποιαδήποτε επιπλέον γνώση εκτός από αυτή που παρέχεται από τον πίνακα βαθμολογίας μπορεί να βελτιώσει σημαντικά την ποιότητα των προτάσεων. Ερευνώνται τεχνικές συνεργατικού φιλτραρίσματος (collaborative filtering) οι οποίες κάνουν αυτόματες προβλέψεις σχετικά με τα ενδιαφέροντα των χρηστών, χρησιμοποιώντας πληροφορίες που συλλέγονται από χρήστες με παρόμοια συμπεριφορά ώστε να προτείνουν νέα στοιχεία. Λόγω του ότι ο πίνακας βαθμολογιών είναι εξαιρετικά αραιός, το βήμα υπολογισμού της ομοιότητας μεταξύ των χρηστών συχνά αποτυγχάνει. Για το λόγο αυτό προτείνεται μια μέθοδος για τη δημιουργία συστάσεων σε τέτοιες προβληματικές περιπτώσεις η οποία μοντελοποιεί το σύστημα συστάσεων ως ένα σταθμισμένο γράφο και αντιμετωπίζει το πρόβλημα αυτό επεκτείνοντας και διασχίζοντας το γράφο ομοιότητας/κοινωνικής δικτύωσης των χρηστών. Η προτεινόμενη μέθοδος δημιουργεί νέες προβλέψεις συνδέσμων μεταξύ χρηστών που δεν είναι άμεσα συνδεδεμένοι, εκμεταλλευόμενη τις έμμεσες διαδρομές που περνούν από τους κοινούς γείτονές τους, γεγονός που επιτρέπει τη δημιουργία προτάσεων ακόμη και σε προβληματικές περιπτώσεις. Επιπλέον, χρησιμοποιείται μια μέθοδος διανυσματικής αναπαράστασης γράφου (graph embedding method) τελευταίας τεχνολογίας, η οποία λέγεται node2vec, για τη διανυσματική αναπαράσταση των χρηστών και την κατασκευή ενός νέου γράφου ομοιοτήτων. Οι μέθοδοι αυτοί αξιολογούνται στο δίκτυο κοινωνικής αξιολόγησης Epinions όπου αποδεικνύεται ότι η προτεινόμενη μέθοδος διάσχισης του γράφου παράγει συγκρίσιμα αποτελέσματα με το node2vec αλλά με σημαντικά χαμηλότερο υπολογιστικό κόστος και άμεσα συγκρίσιμη κάλυψη. Παρατηρώντας τις αδυναμίες των μεθόδων συνεργατικού φιλτραρίσματος, διαπιστώνουμε ότι οι τεχνικές παραγοντοποίησης πινάκων (matrix factorization) είναι πιο αποτελεσματικές στα συστήματα συστάσεων. Επομένως, διερευνάται το πρόβλημα παραγοντοποίησης του πίνακα βαθμολογιών ως ένα νευρωνικό δίκτυο, όπου οι χρήστες και τα αντικείμενα εκφράζονται ως διανύσματα (embeddings) τα οποία εκπαιδεύονται ως μέρος του δικτύου. Μέσω αυτού του φορμαλισμού, αποκαλύπτονται ενδιαφέρουσες ιδιότητες της συνάρτησης ενεργοποίησης Scaled Exponential Linear Unit (SELU), η οποία έχει αποδειχθεί ότι ρυθμίζει αυτόματα τις παραμέτρους του δικτύου και καθιστά τη μάθηση εύρωστη λόγω των αυτο-κανονικοποιημένων (self-normalizing) ιδιοτήτων της. Πιο συγκεκριμένα, η SELU παρουσιάζει συστηματική απόδοση ανεξάρτητα από την επιλογή του αλγορίθμου βελτιστοποίησης και των αντίστοιχων υπερπαραμέτρων του. Αυτό αποδεικνύεται ξεκάθαρα από έναν αριθμό πειραματικών αποτελεσμάτων που περιλαμβάνουν έναν αριθμό διαφορετικών συναρτήσεων ενεργοποίησης και αλγόριθμων βελτιστοποίησης για την εκπαίδευση διάφορων αρχιτεκτονικών νευρωνικών δικτύων σε τυποποιημένα σύνολα δεδομένων για συστήματα συστάσεων. Ακόμα καλύτερα αποτελέσματα μπορούν να επιτευχθούν αν αντλήσουμε πληροφορίες από τα κοινωνικά δίκτυα αξιολόγησης, και πιο συγκεκριμένα από τις κοινωνικές συνδέσεις μεταξύ των χρηστών. Το γενικευμένο πλαίσιο βελτιστοποίησης υπό περιορισμούς που έχει προταθεί μας επιτρέπει να αξιοποιήσουμε την πληροφορία αυτή μέσω ενός αλγόριθμου παραγοντοποίησης πινάκων για συστήματα υποδείξεων. Αυτός ο αλγόριθμος ονομάζεται SocialFALCON και λαμβάνει υπόψη τις πληροφορίες που παρέχονται από το κοινωνικό δίκτυο των χρηστών σε συνδυασμό με τη συμπεριφορά αξιολόγησης τους. Η βασική ιδέα πίσω από την διαμόρφωση του SocialFALCON είναι η ενσωμάτωση των πρόσθετων γνώσεων που αποκτήθηκαν από το κοινωνικό δίκτυο στον κανόνα εκμάθησης του πίνακα παραγοντοποίησης. Επομένως, σε κάθε εποχή θέλουμε να μεγιστοποιήσουμε την ευθυγράμμιση του διανύσματος ενημέρωσης του χρήστη με τον σταθμισμένο μέσο όρο των διανυσμάτων ενημέρωσης των άμεσων γειτόνων του (όπως ορίζονται από το κοινωνικό δίκτυο) στην αμέσως προηγούμενη εποχή. Επιτυγχάνοντας τη μέγιστη δυνατή ευθυγράμμιση μεταξύ των διαδοχικών διανυσμάτων ενημερώσεων του κάθε χρήστη με εκείνα των άμεσων γειτόνων του, αλλάζουν και τα διανύσματα των έμμεσων γειτόνων του στο κοινωνικό δίκτυο και ως εκ τούτου η επιρροή του κοινωνικού δικτύου διαχέεται κατά τη διάρκεια της εκπαίδευσης. Το SocialFALCON υλοποιείται σε διάφορα πειράματα σε δημοφιλή σύνολα δεδομένων για συστήματα συστάσεων και αξιολογείται σε σύγκριση με άλλες μεθόδους οι οποίες ελαχιστοποιούν την συνάρτηση κόστους χρησιμοποιώντας μεθόδους καθόδου κλίσης χωρίς περιορισμούς. Σε σύγκριση με αυτές τις μεθόδους ο προτεινόμενος αλγόριθμος βελτιώνει την απόδοση όσον αφορά την ταχύτητα σύγκλισης και την ακρίβεια των προτάσεων, ειδικότερα σε χρήστες που έχουν βαθμολογήσει ελάχιστα αντικείμενα. Αυτή η προσέγγιση τροποποιείται κατάλληλα ώστε να εφαρμοστεί στον τομέα της επεξεργασίας φυσικής γλώσσας. Όπως έχει αποδειχθεί, οι μέθοδοι διανυσματικών αναπαραστάσεων κατηγορικών μεταβλητών είναι πολύ ισχυρές και έχουν αξιοσημείωτη απόδοση σε προβλήματα επεξεργασίας φυσικής γλώσσας. Για το λόγο αυτό προτείνεται ένας αποτελεσματικός αλγόριθμος, που ονομάζεται LexiconFALCON, ο οποίος παράγει διανυσματικές αναπαραστάσεις λέξεων (word embeddings) που ενισχύονται από τις σημασιολογικές πληροφορίες. Ο αλγόριθμος LexiconFALCON υιοθετεί το πλαίσιο βελτιστοποίησης υπό περιορισμούς που έχει προταθεί για να αξιοποιήσει την πληροφορία από διαθέσιμες οντολογίες/λεξικά που περιλαμβάνουν συσχετίσεις μεταξύ λέξεων σε μορφή γράφου. Αυτός ο αλγόριθμος εμπνέεται από τον πολύ γνωστό αλγόριθμο GloVe όπου οι αναπαραστάσεις λέξεων μαθαίνονται από την παραγοντοποίηση του πίνακα συν-εμφανίσεων (co-occurrence matrix) των λέξεων που κατασκευάζεται από μεγάλα κείμενα. Το LexiconFALCON υιοθετεί μια επαναληπτική προσέγγιση έτσι ώστε να μεγιστοποιεί σε κάθε χρονική στιγμή την ευθυγράμμιση του διανύσματος ενημέρωσης της κάθε λέξης με τον σταθμισμένο μέσο όρο των διανυσμάτων ενημέρωσης των συνώνυμων λέξεων της (όπως ορίζονται από ένα σημασιολογικό λεξικό) στο αμέσως προηγούμενο χρονικό βήμα. Αυτή η μέθοδος σχετίζεται στενά με τον αλγόριθμο SocialFALCON που περιγράφηκε προηγουμένως, ωστόσο, πέρα από την αξιοποίηση του LexiconFALCON σε ένα νέο πεδίο εφαρμογής εκτός των συστημάτων υποδείξεων, η μεθοδολογία αυτή τροποποιείται για να ενσωματώνει στοχαστικές ενημερώσεις και επομένως μπορεί να εφαρμοστεί εύκολα σε προβλήματα επεξεργασίας φυσικής γλώσσας μεγάλης κλίμακας. Οι διανυσματικές αναπαραστάσεις λέξεων που παράγει ο αλγόριθμος LexiconFALCON αξιολογείται σε διαφορετικά προβλήματα επεξεργασίας φυσικής γλώσσας, όπου αποδεικνύεται ότι η συγκεκριμένη μέθοδος υπερτερεί έναντι άλλων σχετικών αλγόριθμων. Τέλος, προτείνεται ένας αλγόριθμος βελτιστοποίησης υπό περιορισμούς που χρησιμοποιείται στο μοντέλο Transformer για προβλήματα μηχανικής μετάφρασης και μοντελοποίησης γλώσσας και ενσωματώνει τον γενικευμένο αλγόριθμο Hebbian στον κανόνα ενημέρωσης των βαρών. Πρόσφατες μελέτες έχουν δείξει ότι ορισμένες κεφαλές (heads) του στρώματος προσοχής πολλαπλών κεφαλών (multi-head attention layer) της αρχιτεκτονικής του Transformer μπορούν να αφαιρεθούν χωρίς να βλάψουν την αποτελεσματικότητα του μοντέλου. Αυτό οφείλεται στο γεγονός ότι διαφορετικές κεφαλές συλλαμβάνουν παρόμοιες πληροφορίες. Ως εκ τούτου προτείνεται ένας αλγόριθμος που εκπαιδεύει συγκεκριμένα στρώματα της αρχιτεκτονικής του Transformer τα οποία επιβάλλουν τη διαφοροποίηση μεταξύ διαφορετικών κεφαλών στο στρώμα multi-head attention. Η διαφοροποίηση των κεφαλών επιτυγχάνεται μέσω ενός μονοστρωματικού νευρωνικού δικτύου πρόσω-τροφοδότησης το οποίο εισάγεται στην αρχιτεκτονική του Transformer και εκπαιδεύεται με τον προτεινόμενο αλγόριθμο ενώ το υπόλοιπο μοντέλο εκπαιδεύεται με τον αλγόριθμο Adam. Ο αλγόριθμος υιοθετεί την προσέγγιση βελτιστοποίησης υπό περιορισμούς που έχει ήδη προταθεί ώστε να ενσωματώσει τον γενικευμένο αλγόριθμο Hebbian στον κανόνα εκμάθησης και χρησιμοποιείται σε τρεις διαφορετικές παραλλαγές της αρχιτεκτονικής του βασικού μοντέλου Transformer. Εκτός από τη διαφοροποίηση των κεφαλών, η προτεινόμενη μεθοδολογία μπορεί να χρησιμοποιηθεί για την αφαίρεση των κεφαλών που συλλαμβάνουν περιττές πληροφορίες. Τα πειράματα πάνω σε προβλήματα μηχανικής μετάφρασης δείχνουν ότι αυτή η προσέγγιση μπορεί να βελτιώσει την απόδοση του βασικού μοντέλου Transformer.
περισσότερα
Περίληψη σε άλλη γλώσσα
This dissertation explores the development of deep neural networks training algorithms and architectures which can be utilized in real world Natural Language Processing (NLP) tasks. To this end, we develop a novel constrained optimization framework that incorporates a-priori knowledge in the training process. Two different types of knowledge are explored: i) intrinsic knowledge about the characteristics of the network's loss function landscape, and ii) external knowledge originating from the nature of the learning task. In the case of intrinsic knowledge we develop a generic algorithm for training deep neural networks utilizing information from the second derivatives of the loss function (Hessian matrix). However the algorithm is Hessian free in the sense that it only requires the computation of a Hessian-vector product which can be computed exactly and very efficiently within any modern computational graph framework. We demonstrate the efficiency of the proposed algorithm in a variety ...
This dissertation explores the development of deep neural networks training algorithms and architectures which can be utilized in real world Natural Language Processing (NLP) tasks. To this end, we develop a novel constrained optimization framework that incorporates a-priori knowledge in the training process. Two different types of knowledge are explored: i) intrinsic knowledge about the characteristics of the network's loss function landscape, and ii) external knowledge originating from the nature of the learning task. In the case of intrinsic knowledge we develop a generic algorithm for training deep neural networks utilizing information from the second derivatives of the loss function (Hessian matrix). However the algorithm is Hessian free in the sense that it only requires the computation of a Hessian-vector product which can be computed exactly and very efficiently within any modern computational graph framework. We demonstrate the efficiency of the proposed algorithm in a variety of both NLP and computer vision tasks. In the latter case we explore a variety of external knowledge sources depending on the learning task at hand. We first explore methodologies in a recommender systems setting because in most cases the ratings matrix is extremely sparse and thus the step of calculating similarities between users often fails. Thus any additional knowledge apart from that provided by the ratings matrix can greatly enhance the quality of the recommendations. Initially we propose a method for generating recommendations in such problematic cases by expanding and traversing the users' similarity graph so as to make new link predictions between users that are not directly connected. We evaluate our proposal on a social rating network, and show that the infusion of this new information in the similarity graph is comparable to state of the art graph embedding techniques but with lower computational cost and directly comparable coverage. We also investigate the matrix factorization problem as a neural network, where the users and items are expressed as trainable embeddings. Within this formulation, the Scaled Exponential Linear Unit (SELU) exhibits performance invariance properties regarding the selection of the optimization algorithm and its corresponding hyperparameters. This is demonstrated in a number of experiments which involve various activation functions and optimization algorithms for training different neural network architectures on standard recommender systems benchmark datasets. Better results can be achieved in a social ratings network setting where additional knowledge is available from the social connections between users in addition to their rating behavior. This allows us to propose, within the constrained optimization framework, an efficient matrix factorization algorithm for recommender systems which improves on previously proposed related approaches in terms of convergence speed, recommendation accuracy and performance on cold start users. We then modify this approach to tackle NLP tasks by leveraging external knowledge about word similarities provided by semantic lexicons. We propose a powerful matrix factorization algorithm that extends GloVe and produces word embeddings enhanced by the semantic information. The proposed algorithm outperforms other related approaches that utilize semantic information either during training or as a post-processing step. Finally the efficiency of our constrained optimization approach for developing deep neural networks training algorithms and architectures for NLP tasks is demonstrated by the incorporation of the generalized Hebbian algorithm as external knowledge within the framework. This allows us to enhance the Transformer architecture with layers that enforce the diversification between different heads in the multi-head attention layer. Experiments on machine translation show that this approach can improve the performance of the baseline Transformer model.
περισσότερα