Περίληψη
Το αντικείμενο της παρούσας διατριβής είναι η Επεξεργασία Φυσικής Γλώσσας και η Εξαγωγή Πληροφοριών από κείμενα. Η διατριβή ασχολείται με τα ακόλουθα ερευνητικά προβλήματα που αφορούν συγκεκριμένες εργασίες της Επεξεργασίας Φυσικής Γλώσσας και Εξαγωγής Πληροφοριών: α) βελτίωση της διαδικασίας λήψης κλινικών αποφάσεων μέσω της Αναγνώρισης Βιοϊατρικών Οντοτήτων, β) βελτιστοποίηση της Εξόρυξης Βιοϊατρικών Επιχειρημάτων, γ) αποδοτικότερη τεχνική Μοντελοποίησης Γλώσσας με χρήση απομακρυσμένων πληροφοριών, δ) ανάπτυξη εφαρμογών Επεξεργασίας Φυσικής Γλώσσας για επίλυση πραγματικών προβλημάτων. Αρχικά, παρουσιάζονται μια σειρά από καινοτόμες αρχιτεκτονικές για καλύτερη Αναγνώριση Βιοϊατρικών Οντοτήτων, στοχευμένες σε οντότητες Ιατρικής Βασισμένης στη Τεκμηρίωση. Αυτές οι σημασιολογικές οντότητες είναι πιο περιγραφικές από βιοϊατρικές οντότητες γενικών κατηγοριών, προσφέρουν χρήσιμες πληροφορίες κατά την δημιουργία σχεδίων θεραπείας καθώς και είναι πιο δύσκολο να αναγνωριστούν από μοντέλα Μηχαν ...
Το αντικείμενο της παρούσας διατριβής είναι η Επεξεργασία Φυσικής Γλώσσας και η Εξαγωγή Πληροφοριών από κείμενα. Η διατριβή ασχολείται με τα ακόλουθα ερευνητικά προβλήματα που αφορούν συγκεκριμένες εργασίες της Επεξεργασίας Φυσικής Γλώσσας και Εξαγωγής Πληροφοριών: α) βελτίωση της διαδικασίας λήψης κλινικών αποφάσεων μέσω της Αναγνώρισης Βιοϊατρικών Οντοτήτων, β) βελτιστοποίηση της Εξόρυξης Βιοϊατρικών Επιχειρημάτων, γ) αποδοτικότερη τεχνική Μοντελοποίησης Γλώσσας με χρήση απομακρυσμένων πληροφοριών, δ) ανάπτυξη εφαρμογών Επεξεργασίας Φυσικής Γλώσσας για επίλυση πραγματικών προβλημάτων. Αρχικά, παρουσιάζονται μια σειρά από καινοτόμες αρχιτεκτονικές για καλύτερη Αναγνώριση Βιοϊατρικών Οντοτήτων, στοχευμένες σε οντότητες Ιατρικής Βασισμένης στη Τεκμηρίωση. Αυτές οι σημασιολογικές οντότητες είναι πιο περιγραφικές από βιοϊατρικές οντότητες γενικών κατηγοριών, προσφέρουν χρήσιμες πληροφορίες κατά την δημιουργία σχεδίων θεραπείας καθώς και είναι πιο δύσκολο να αναγνωριστούν από μοντέλα Μηχανικής Μάθησης. Η αρχιτεκτονικές βαθιών νευρωνικών δικτύων που προτάθηκαν σκοπεύουν στη βελτίωση της απόδοσης της αναγνώρισης όλων των βιοϊατρικών οντοτήτων και παρέχουν πιο αποδοτική λύση στις εργασίες αυτές. Επιπλέον μελετάται η χρήση οντοτήτων Ιατρικής Βασισμένης στη Τεκμηρίωση για την εξαγωγή συμπερασμάτων από ιατρικές δημοσιεύσεις. Για την περαιτέρω βελτίωση της κλινικής πρακτικής, επεκτείνουμε τη προσέγγισή μας για εξαγωγή συμπερασμάτων για τη δημιουργία δομών συμπερασμάτων από ιατρικές δημοσιεύσεις. Παρουσιάζεται μία καινοτόμα προσέγγιση Εξόρυξης Βιοϊατρικών Επιχειρημάτων, η οποία χρησιμοποιεί οντότητες Ιατρικής Βασισμένης στη Τεκμηρίωση. Το τελικό σύστημα έχει αυξημένη απόδοση σε όλες της εργασίες της Εξόρυξης Επιχειρημάτων και δημιουργεί πιο περιγραφικές δομές συμπερασμάτων. Αξιοποιώντας τη σημασία των σημασιολογικών οντοτήτων, παρουσιάζουμε δύο μεθοδολογίες για την χρήση αναφορικών πληροφοριών στην Αναπαράσταση Γλώσσας. Συνδυάζοντας την Επίλυση Αναφορών με την Αναπαράσταση Γλώσσας, παρουσιάζουμε νέες αρχιτεκτονικές για την αποδοτική χρήση αναφορικών εκφράσεων και τη δημιουργία κρυμμένων αναπαραστάσεων των οντοτήτων που περιγράφονται. Τα τελικά μοντέλα αναπαράστασης γλώσσας έχουν καλύτερη απόδοση σε εργασίες Επεξεργασίας Φυσικής Γλώσσας, με μικρή αύξηση στην υπολογιστική πολυπλοκότητα. Τέλος, παρουσιάζονται μια σειρά από εφαρμογές εργασιών Επεξεργασίας Φυσικής Γλώσσας σε πραγματικά προβλήματα και μελετάται η πρόσθετη αξία των εφαρμογών αυτών. Οι εφαρμογές αυτές είναι, ένα σύστημα ανάλυσης συναισθημάτων σε πραγματικό χρόνο με τη χρήση τεχνολογιών εξαγωγής τοποθεσίας, μία δομή για την μετατροπή μεγάλων αποθετηρίων εγγράφων σε Γράφους Γνώσης και μία πλατφόρμα εφαρμογής αλγορίθμων Μηχανιης Μάθησης, ανοιχτού κώδικα, για την διασύνδεση της ερευνητικής κοινότητας και της ελεύθερης αγοράς.
περισσότερα
Περίληψη σε άλλη γλώσσα
This thesis presents original research in the subject of Machine Learning and more specifically in the fields of Natural Language Processing and Information Extraction. We focus on the following research problems which concern specific tasks in Natural Language Processing and Information Extraction: a) improving clinical decision making through Biomedical Entity Recognition, b) advancing Biomedical Argumentation Mining, c) efficient Language Modeling with distant contextual information and d) deploying Natural Language Processing applications in the real world. First, we present a series of novel architectures for refined Biomedical Entity Recognition, with specific focus in Evidence-Based Medicine entities. These semantically rich entities, which are more descriptive than generic biomedical entity types, offer useful insights in the treatment formulation process and are harder for Machine Learning models to identify. The incrementally proposed changes to the Deep Neural Network archi ...
This thesis presents original research in the subject of Machine Learning and more specifically in the fields of Natural Language Processing and Information Extraction. We focus on the following research problems which concern specific tasks in Natural Language Processing and Information Extraction: a) improving clinical decision making through Biomedical Entity Recognition, b) advancing Biomedical Argumentation Mining, c) efficient Language Modeling with distant contextual information and d) deploying Natural Language Processing applications in the real world. First, we present a series of novel architectures for refined Biomedical Entity Recognition, with specific focus in Evidence-Based Medicine entities. These semantically rich entities, which are more descriptive than generic biomedical entity types, offer useful insights in the treatment formulation process and are harder for Machine Learning models to identify. The incrementally proposed changes to the Deep Neural Network architectures intend to improve the performance in all biomedical entity categories and provide more efficient solutions. We also explore the use of Evidence-Based Medicine entities towards the extraction of conclusions from medical publications. To further enhance the clinical practice, we expand our approach of conclusion extraction to create argumentative structures of inference from medical publications. We present a novel approach to fully handle Biomedical Argumentation Mining that incorporates Evidence-Based Medicine entities. The final system has increased performance in all Argumentation Mining sub-tasks and creates argument graphs with higher level information. Capitalizing on the importance of semantic entities, we present two methodologies to incorporate coreferent information in Language Modeling. Combining Coreference Resolution with Language Modeling, we introduce new architectures to efficiently use coreferent mentions and create latent entity representations. The resulting language models have better performance in Language Modeling and in downstream tasks, with minimum added complexity. Finally, we complete a number of case studies for the implementation of Natural Language Processing techniques in the real world and investigate their added value. We present a real-time Sentiment Analysis platform with location inference techniques, a framework for the transformation of large document repositories to Knowledge Graphs and an open-source Machine Learning platform that makes research contributions more accessible to the industry.
περισσότερα