Περίληψη
Σε ένα παραδοσιακό Σύστημα Διαχείρισης Βάσεων Δεδομένων η ανάκτηση πληροφοριών πραγματοποιείται, κυρίως, χρησιμοποιώντας λέξεις-κλειδιά (keywords), ενώ κάθε εννοιολογική πληροφορία αγνοείται. Μια και κάθε όρος (έννοια) μπορεί να εκφραστεί με περισσότερες από μία λέξεις, ένας σημαντικός αριθμός εγγραφών αγνοείται κατά τη διαδικασία της αναζήτησης, αφού κατά την ανάκτηση των δεδομένων χρησιμοποιούνται μόνο οι a posteriori συσχετίσεις μεταξύ των όρων. Οι γλώσσες ερωταπαντήσεων (query languages) ανακτούν δεδομένα που περιέχουν τις συγκεκριμένες λέξεις τις οποίες καθορίζει ο χρήστης, ο οποίος δε γνωρίζει πάντα το περιεχόμενο της Βάσης αλλά και δεν είναι δυνατό να προσδιορίσει όλες τις λέξεις που χρησιμοποιούνται για να εκφράσουν μία έννοια. Επιπλέον, αν λάβουμε υπόψη το γεγονός ότι τα δεδομένα σε μία Βάση μπορεί να είναι πολύγλωσσα, είναι προφανές ότι το σύνολο των δεδομένων που τελικά αγνοείται από κάθε ερώτημα του χρήστη μπορεί να είναι σημαντικό. Η παρούσα έρευνα τεκμηριώνει τη χρήση, ...
Σε ένα παραδοσιακό Σύστημα Διαχείρισης Βάσεων Δεδομένων η ανάκτηση πληροφοριών πραγματοποιείται, κυρίως, χρησιμοποιώντας λέξεις-κλειδιά (keywords), ενώ κάθε εννοιολογική πληροφορία αγνοείται. Μια και κάθε όρος (έννοια) μπορεί να εκφραστεί με περισσότερες από μία λέξεις, ένας σημαντικός αριθμός εγγραφών αγνοείται κατά τη διαδικασία της αναζήτησης, αφού κατά την ανάκτηση των δεδομένων χρησιμοποιούνται μόνο οι a posteriori συσχετίσεις μεταξύ των όρων. Οι γλώσσες ερωταπαντήσεων (query languages) ανακτούν δεδομένα που περιέχουν τις συγκεκριμένες λέξεις τις οποίες καθορίζει ο χρήστης, ο οποίος δε γνωρίζει πάντα το περιεχόμενο της Βάσης αλλά και δεν είναι δυνατό να προσδιορίσει όλες τις λέξεις που χρησιμοποιούνται για να εκφράσουν μία έννοια. Επιπλέον, αν λάβουμε υπόψη το γεγονός ότι τα δεδομένα σε μία Βάση μπορεί να είναι πολύγλωσσα, είναι προφανές ότι το σύνολο των δεδομένων που τελικά αγνοείται από κάθε ερώτημα του χρήστη μπορεί να είναι σημαντικό. Η παρούσα έρευνα τεκμηριώνει τη χρήση, κατά τη διαδικασία ανάκτησης δεδομένων, των a priori εννοιολογικών συσχετίσεων, των συσχετίσεων, δηλαδή, μεταξύ των όρων που προϋπάρχουν ανεξάρτητα από οποιαδήποτε Βάση Δεδομένων και είναι διαθέσιμες μέσω του θησαυρού.Η προτεινόμενη ερευνητική προσέγγιση βασίζεται στο μοντέλο-πλαίσιο FDB (Framework DataBase) που ερευνάται στο Τμήμα μας από το 1999, υποστηρίζει δυναμικά εξελισσόμενα περιβάλλοντα Βάσεων Δεδομένων και επιτρέπει τον ορισμό πολύγλωσσων Βάσεων Δεδομένων στο ίδιο καθολικό σχήμα. Η παρούσα διατριβή επεκτείνει το πλαίσιο FDB έτσι ώστε να υπάρχει η δυνατότητα δημιουργίας και διαχείρισης πολύγλωσσων θησαυρών. Ο θησαυρός, αποτελεί μέρος του καθολικού σχήματος του μοντέλου FDB και ορίζεται δυναμικά χρησιμοποιώντας τα κατάλληλα μεταδεδομένα. Παράλληλα στην παρούσα έρευνα προτείνονται οι αλγόριθμοι διαχείρισης των πολύγλωσσων και μονόγλωσσων θησαυρών στο πλαίσιο FDB. Η συσχέτιση των δεδομένων μίας Βάσης με το θησαυρό καθώς και ο εμπλουτισμός και η δημιουργία νέου θησαυρού είναι χρονοβόρες και απαιτητικές διαδικασίες που απαιτούν την ανθρώπινη παρέμβαση. Με τους αλγόριθμους που προτείνονται, μπορεί να πραγματοποιηθεί αυτοματοποιημένα η σύνδεση των στιγμιότυπων δεδομένων με έναν ή περισσότερους θεματικούς όρους, να εμπλουτιστεί ένας υπάρχων θησαυρός με όρους προερχόμενους από συγκεκριμένα γνωρίσματα της Βάσης Δεδομένων, καθώς και να δημιουργηθεί ο «πυρήνας» ενός νέου θησαυρού χρησιμοποιώντας όρους που προέρχονται από τα δεδομένα. Με την παρούσα προσέγγιση εξοικονομείται χρόνος καθώς ιδιαίτερα απαιτητικές από άποψη χρόνου διαδικασίες μπορούν να πραγματοποιηθούν αυτόματα ενώ ελαχιστοποιείται η ανθρώπινη παρέμβαση από ειδικούς.Επιπλέον, με την παρούσα διατριβή τεκμηριώνεται η χρήση των a priori εννοιολογικών συσχετίσεων, που προσδιορίζονται από το θησαυρό, στη διαδικασία ανάκτησης δεδομένων από μία FDB Βάση Δεδομένων. Η αναζήτηση σε μία Βάση FDB πραγματοποιείται με ερωτήματα που υποβάλλει ο χρήστης. Η παρούσα έρευνα επεκτείνει τα ερωτήματα του χρήστη χρησιμοποιώντας την πληροφορία που αντλείται από τους πολύγλωσσους ή μονόγλωσσους θησαυρούς και η ανάκτηση των δεδομένων από τη Βάση γίνεται χρησιμοποιώντας και τις εννοιολογικές συσχετίσεις μεταξύ των όρων. Αυξημένη ευελιξία παρέχεται σε όλα τα στάδια της αναζήτησης καθώς ο χρήστης μπορεί να επιλέξει από μία πληθώρα παραμέτρων που καθορίζουν τη διαδικασία της αναζήτησης: μπορεί να χρησιμοποιήσει έναν ή περισσότερους θησαυρούς και μέχρι το επίπεδο που αυτός επιθυμεί, περιλαμβάνοντας περισσότερους ή λιγότερους τύπους συσχετίσεων (ισοδύναμους όρους, στενότερους κλπ.) κατά την ανάκτηση δεδομένων. Οι επιλογές του χρήστη είναι δυνατό να διαφοροποιούνται από αναζήτηση σε αναζήτηση, γεγονός που προσδίδει ακόμα μεγαλύτερη ευελιξία στο μοντέλο. Συμπληρωματικά παρουσιάζονται τα αποτελέσματα έρευνας που πραγματοποιήθηκε στη Βιβλιογραφική Βάση Δεδομένων του Ο.Π.Α. τα οποία τεκμηριώνουν ότι η χρήση θησαυρού κατά τη διαδικασία ανάκτησης δεδομένων αυξάνει σημαντικά το σχετικό recall ενώ η χρήση των πολύγλωσσων συσχετίσεων δε μειώνει σημαντικά την ακρίβεια (precision). Παράλληλα, παρουσιάζονται συμπεράσματα από την υλοποίηση των αλγορίθμων που προτείνονται σε πραγματικό περιβάλλον.
περισσότερα
Περίληψη σε άλλη γλώσσα
In a traditional Database Management System, data retrieval is mainly carried out using keywords, while any conceptual information is ignored. Since any term (concept) can be expressed in more than one word, a significant number of records are ignored during the data retrieval process, as only the a posteriori correlations among the terms are used. Query languages retrieve data containing specific keywords as defined by the user, who does not usually know the content of the Database since it is not possible to identify all the words that are used when defining a concept. Moreover, taking into consideration the fact that the data in a Database can be multilingual, it is obvious that the data set that is finally ignored by the data retrieval process may be important. The present research documents the utilization of the a priori conceptual correlations among terms that exist independently of any Database and are available for processing through the thesaurus.The proposed research approac ...
In a traditional Database Management System, data retrieval is mainly carried out using keywords, while any conceptual information is ignored. Since any term (concept) can be expressed in more than one word, a significant number of records are ignored during the data retrieval process, as only the a posteriori correlations among the terms are used. Query languages retrieve data containing specific keywords as defined by the user, who does not usually know the content of the Database since it is not possible to identify all the words that are used when defining a concept. Moreover, taking into consideration the fact that the data in a Database can be multilingual, it is obvious that the data set that is finally ignored by the data retrieval process may be important. The present research documents the utilization of the a priori conceptual correlations among terms that exist independently of any Database and are available for processing through the thesaurus.The proposed research approach is based on the FDB model (Framework DataBase) which is an ongoing research project in our department since 1999; it supports dynamically evolving Database environments and allows the definition of any multilingual Database in the FDB universal schema. The present dissertation extends the FDB model so that it can accommodate and manage any multilingual thesaurus. The thesaurus is part of the FDB universal schema and is dynamically defined using appropriate metadata.In the present research, the algorithms for the management of any multilingual or monolingual thesaurus in the FDB model are also proposed. Data correlation with the appropriate thesaurus terms, the enrichment of any existing thesaurus and the creation of a new thesaurus are long and demanding processes that require human intervention. Through the proposed algorithms, data instances of an FDB Database can be automatically correlated with one or more thesaurus terms, while any existing thesaurus can be enriched with terms derived from the FDB Database. Besides, the “core” for a new thesaurus with terms derived from data can be created. Through the present approach, procedures that demand time and effort can be carried out automatically and human intervention by experts is significantly minimized.Moreover, the present dissertation documents the use of the a priori conceptual correlations, which are identified by the underlying thesaurus in data retrieval from any FDB Database. Data search in any FDB Database is carried out using the queries submitted by the user. The present research extends the user queries by using the information provided by monolingual or multilingual thesauri, while data retrieval from any FDB Database is also carried out using the conceptual relationships among terms. Increased flexibility is provided at all stages of data retrieval as the user can choose from a variety of parameters which define the search process: one or more thesauri can be used up to the level desired during data retrieval, including more or less relationship types (equivalent terms, narrower terms etc.). User choices could be differentiated form one search to another, a fact that provides even greater flexibility to the whole model.Additionally, the thesis presents the results from the analysis of a bibliographic Database of the University, proving that the use of a thesaurus during the data retrieval process significantly increases the relative recall while the use of multilingual correlations does not significantly reduce precision. Finally, the findings from the implementation of the proposed algorithms in a real database environment are presented.
περισσότερα