Περίληψη
Η κατηγοριοποίηση κειμένων και η ανάκτηση πληροφορίας από κείμενα μελετάται εντατικά τις τελευταίες τέσσερις δεκατίες, και είναι ακόμη πιο επίκαιρη στην εποχή του παγκόσμιου ιστού, αφού το πλήθος των ηλεκτρονικών κειμένων αυξάνεται συνεχώς με μεγάλους ρυθμούς. Τα παραδοσιακά μοντέλα αναπαράστασης κειμένων στις δύο αυτές εφαρμογές, όπως το διανυσματικό μοντέλο, πάσχουν από το πρόβλημα της ανάγκης για ακριβή ταύτιση λέξεων ανάμεσα στα κείμενα, προκειμένου να υπολογίσουν την ομοιότητά τους. Ως συνέπεια, αγνοούν την σημασιολογική σχετικότητα ανάμεσα στα κείμενα και υποθέτουν ότι ένα ζευγάρι κειμένων πρέπει απαραίτητα να έχει κοινούς όρους ώστε να έχει κάποια ελάχιστη σχετικότητα. Η παρούσα διατριβή επιλύει αυτό το πρόβλημα προτείνοντας νέα μοντέλα για την αναπαράσταση των κειμένων, βασισμένα στην σημασιολογική πληροφορία που περιέχουν σημασιολογικοί θησαυροί, όπως το WordNet, και ταυτόχρονα νέους τρόπους υπολογισμού της σχετικότητας ανάμεσα στα κείμενα, οι οποίοι λαμβάνουν υπόψη την σημασι ...
Η κατηγοριοποίηση κειμένων και η ανάκτηση πληροφορίας από κείμενα μελετάται εντατικά τις τελευταίες τέσσερις δεκατίες, και είναι ακόμη πιο επίκαιρη στην εποχή του παγκόσμιου ιστού, αφού το πλήθος των ηλεκτρονικών κειμένων αυξάνεται συνεχώς με μεγάλους ρυθμούς. Τα παραδοσιακά μοντέλα αναπαράστασης κειμένων στις δύο αυτές εφαρμογές, όπως το διανυσματικό μοντέλο, πάσχουν από το πρόβλημα της ανάγκης για ακριβή ταύτιση λέξεων ανάμεσα στα κείμενα, προκειμένου να υπολογίσουν την ομοιότητά τους. Ως συνέπεια, αγνοούν την σημασιολογική σχετικότητα ανάμεσα στα κείμενα και υποθέτουν ότι ένα ζευγάρι κειμένων πρέπει απαραίτητα να έχει κοινούς όρους ώστε να έχει κάποια ελάχιστη σχετικότητα. Η παρούσα διατριβή επιλύει αυτό το πρόβλημα προτείνοντας νέα μοντέλα για την αναπαράσταση των κειμένων, βασισμένα στην σημασιολογική πληροφορία που περιέχουν σημασιολογικοί θησαυροί, όπως το WordNet, και ταυτόχρονα νέους τρόπους υπολογισμού της σχετικότητας ανάμεσα στα κείμενα, οι οποίοι λαμβάνουν υπόψη την σημασιολογική σχετικότητα των όρων τους. Τα τρία βασικά βήματα για την δημιουργία τέτοιων μέτρων είναι τα εξής: (1) Εξαγωγή σημασιολογικής πληροφορίας από κείμενα, (2) Αναπαράσταση των κειμένων κάνοντας χρήση της σημασιολογικής πληροφορίας, (3) Ορισμός μέτρου σχετικότητας με βάση την σημασιολογική αναπαράσταση. Όσον αφορά και τα τρία βήματα, η παρούσα διατριβή προτείνει νέα και πρωτοποριακή μεθοδολογία υλοποίησής τους, καθιστώντας σαφή τα σημεία στα οποία προηγούμενες μελέτες υστερούσαν, και διορθώνοντας τυχόν προβλήματά τους. Για την εξαγωγή σημασιολογικής πληροφορίας από κείμενα, η παρούσα διατριβή αναλύει τρεις νέες μεθόδους αποσαφήνισης εννοιών, και τις αξιολογεί θεωρητικά και πειραματικά στις τρεις πιο συχνά χρησιμοποιούμενες συλλογές, τα κείμενα των διαγωνισμών Senseval 2 και 3, και την συλλογή κειμένων SemCor. Τα αποτελέσματα των αποτελούν ορισμένες από τις καλύτερες, αναφορικά, επιδόσεις στην βιβλιογραφία, και δημοσιεύθηκαν σε διεθνή συνέδρια με κριτές. Όσον αφορά τον ορισμό του μέτρου σχετικότητας λαμβάνοντας υπόψη την σημασιολογική πληροφορία, στην παρούσα διατριβή προτείνουμε ένα νέο μέτρο σημασιολογικής σχετικότητας ανάμεσα σε όρους, το οποίο και επεκτείνουμε για να ορίσουμε: (α) Ένα νέο μέτρο σημασιολογικής σχετικότητας ανάμεσα σε σύνολα όρων, (β) Ένα νέο γενικευμένο μοντέλο για ανάκτηση πληροφορίας από κείμενα, και (γ) Ένα νέο σημασιολογικό πυρήνα για κατηγοριοποίηση κειμένων. Η αξιολόγηση των προτεινόμενων μεθοδολογιών είναι βαθμωτή και δείχνει ότι το προτεινόμενο μέτρο σημασιολογικής σχετικότητας ανάμεσα σε όρους προσομοιώνει καλύτερα από κάθε άλλο μέτρο που προτάθηκε στο παρελθόν, την ανθρώπινη αντίληψη για την σχετικότητα ζευγαριών όρων.
περισσότερα
Περίληψη σε άλλη γλώσσα
As the immense amount of text data increases rapidly over the years, the need to improve the quality of algorithms in text related tasks is eminent. Traditional mod- els for representing documents, like the standard vector space model, often neglect the aspect of semantic relatedness between words, suffering from the restriction of exact keywords matching, in order to explore the similarity or relatedness between segments of text. In critical tasks, like text classification and retrieval, which have been studied over the past decades intensively, this assumption of exact keyword matching is often the reason for poor performance. This thesis comes to explore the potential of incorporating semantic relatedness between documents in several text related applications, like text classification, retrieval and paraphrasing recognition. Several aspects have been taken into account, like word sense disambiguation to extract semantic information from text and the use of a word thesaurus, namely W ...
As the immense amount of text data increases rapidly over the years, the need to improve the quality of algorithms in text related tasks is eminent. Traditional mod- els for representing documents, like the standard vector space model, often neglect the aspect of semantic relatedness between words, suffering from the restriction of exact keywords matching, in order to explore the similarity or relatedness between segments of text. In critical tasks, like text classification and retrieval, which have been studied over the past decades intensively, this assumption of exact keyword matching is often the reason for poor performance. This thesis comes to explore the potential of incorporating semantic relatedness between documents in several text related applications, like text classification, retrieval and paraphrasing recognition. Several aspects have been taken into account, like word sense disambiguation to extract semantic information from text and the use of a word thesaurus, namely WordNet, in an effort to exhaust as many possibilities as possible in the workflow from analyzing and preprocessing documents up to embedding successfully the semantic information in a machine readable manner in those tasks. The outcome of this thesis shows that semantic information can be used efficiently in the studied tasks and that it can improve performance, widening the possibilities of more efficient algorithms in text applications. More precisely, in this thesis we propose a new measure of semantic relatedness that takes into account both the lexical semantic relatedness between words and their significance in the text that they are found (e.g., their TF-IDF scores). Such a measure that combines both aspects may help in many tasks, such as text classification and retrieval. The measure between words is based on their implicit semantic links. The approach does not require any type of training, since it exploits a word thesaurus, WordNet, in order to devise implicit semantic links between words. Based on this approach, we introduce a new measure of semantic relatedness between texts, which capitalizes on the semantic relatedness between individual words, and extends it to measure the relatedness between sets of words. We gradually validate our method: we first evaluate the performance of the measure between individual words in four data sets and then proceed with evaluating the performance of our method in measuring text-to-text semantic relatedness in three tasks. Experimental evaluation shows that the proposed method outperforms every other lexicon-based method of word semantic relatedness in the selected tasks and the tested data sets, and competes well against corpus-based approaches that require training.
περισσότερα