Περίληψη
Το σημαντικότερο πρόβλημα στη διάθεση της πληροφορίας είναι ότι η μορφή στην οποία διατίθεται δεν είναι συνήθως ομοιογενής τόσο συντακτικά όσο και σημασιολογικά. Τεράστιος όγκος πληροφορίας υπάρχει, τόσο στο Διαδίκτυο όσο και σε λιγότερο διασυνδεδεμένες πηγές. Η ύπαρξη μεταδεδομένων τα οποία θα προσέθεταν έναν ανώτερο βαθμό σαφήνειας δε θεωρείται δεδομένη. Το ζήτημα που προκύπτει είναι το πώς θα ολοκληρωθεί ο όγκος αυτός πληροφορίας ώστε να μετατραπεί σε μια Βάση Γνώσεως από την οποία θα μπορούν να εξάγονται άμεσα αλλά και έμμεσα συμπεράσματα. Οι υπάρχουσες τεχνολογίες διαχείρισης, επεξεργασίας και αξιοποίησης της πληροφορίας είναι συνήθως βασισμένες σε συντακτική επισημείωση. Οι σημερινές μορφές επισημείωσης υστερούν στο ότι στην πλειοψηφία τους αποτελούν μονολιθικές και εξειδικευμένες προσεγγίσεις -λύσεις κατά περίπτωση- και προσφέρουν περιορισμένες δυνατότητες εξαγωγής αποτελεσμάτων και συμπερασμάτων. Εξυπηρετούν το στόχο για τον οποίο παρήχθησαν μεν, δεν επιτρέπουν την περαιτέρω αξ ...
Το σημαντικότερο πρόβλημα στη διάθεση της πληροφορίας είναι ότι η μορφή στην οποία διατίθεται δεν είναι συνήθως ομοιογενής τόσο συντακτικά όσο και σημασιολογικά. Τεράστιος όγκος πληροφορίας υπάρχει, τόσο στο Διαδίκτυο όσο και σε λιγότερο διασυνδεδεμένες πηγές. Η ύπαρξη μεταδεδομένων τα οποία θα προσέθεταν έναν ανώτερο βαθμό σαφήνειας δε θεωρείται δεδομένη. Το ζήτημα που προκύπτει είναι το πώς θα ολοκληρωθεί ο όγκος αυτός πληροφορίας ώστε να μετατραπεί σε μια Βάση Γνώσεως από την οποία θα μπορούν να εξάγονται άμεσα αλλά και έμμεσα συμπεράσματα. Οι υπάρχουσες τεχνολογίες διαχείρισης, επεξεργασίας και αξιοποίησης της πληροφορίας είναι συνήθως βασισμένες σε συντακτική επισημείωση. Οι σημερινές μορφές επισημείωσης υστερούν στο ότι στην πλειοψηφία τους αποτελούν μονολιθικές και εξειδικευμένες προσεγγίσεις -λύσεις κατά περίπτωση- και προσφέρουν περιορισμένες δυνατότητες εξαγωγής αποτελεσμάτων και συμπερασμάτων. Εξυπηρετούν το στόχο για τον οποίο παρήχθησαν μεν, δεν επιτρέπουν την περαιτέρω αξιοποίηση σε σημασιολογικό επίπεδο, δε. Αντιπροσωπευτικό παράδειγμα είναι το Βαθύ Διαδίκτυο [1], το οποίο συγκεντρώνει τεράστια ποσότητα πληροφορίας η οποία δύσκολα καθίσταται αξιοποιήσιμη και εκμεταλλεύσιμη από τον τελικό χρήστη του Διαδικτύου [2]. Αντίστοιχα, η φύση του προβλήματος είναι παρόμοια και στα συστήματα με επίγνωση περιβάλλοντος στα οποία ο όγκος της πληροφορίας αυξάνεται με μεγάλο ρυθμό, δυσχεραίνοντας τη διαχείρισή του, την ολοκλήρωση με άλλες πηγές πληροφορίας και κατ’ επέκταση την ευφυή εκμετάλλευσή του. Η παρούσα διατριβή εστιάζει στην έρευνα στο ευρύτερο πλαίσιο του σημασιολογικού εμπλουτισμού της πληροφορίας. Ειδικότερα, επικεντρώνεται στην έρευνα των αλλαγών και προσθηκών που χρειάζεται να γίνουν σε τεχνικό και θεωρητικό επίπεδο, ώστε η επόμενη γενιά πληροφοριακών συστημάτων να ενσωματώνει και να εκμεταλλεύεται σημασιολογική πληροφορία. Ως λύση προς την κατεύθυνση της ολοκλήρωσης της πληροφορίας μέσω του σημασιολογικού εμπλουτισμού της υιοθετείται ο Σημασιολογικός Ιστός, ο οποίος επιτρέπει την προσθήκη μεταδεδομένων τα οποία υπακούν σε κοινά πρότυπα και επιτρέπουν την εξαγωγή γνώσεως από την ήδη υπάρχουσα αλλά και το συνδυασμό της υπάρχουσας πληροφορίας με στόχο την εξαγωγή συμπερασμάτων. Η παρούσα εργασία αναλύει το πρόβλημα του σημασιολογικού εμπλουτισμού της πληροφορίας παρουσιάζοντας τις συνιστώσες που το συνθέτουν και που προσθέτουν στη δυσκολία επίλυσής του. Ειδικότερα, εξετάζονται πιο αναλυτικά δύο περιπτώσεις του ίδιου προβλήματος. Η πρώτη περίπτωση αφορά την ολοκλήρωση Βάσεων Δεδομένων με στόχο τη δημιουργία μιας κατανεμημένης Βάσης Γνώσεως η οποία θα ενσωματώνει ευφυή χαρακτηριστικά. Το πρόβλημα δεν είναι νέο, εξετάζεται όμως υπό το πρίσμα των τελευταίων τεχνολογικών εξελίξεων και συγκεκριμένα στο χώρο του αναπτυσσόμενου Σημασιολογικού Ιστού. Η συνεισφορά της διατριβής εδώ εντοπίζεται στην ανάλυση του χώρου της συνεργασίας των Βάσεων Δεδομένων με τις οντολογίες, τη λεπτομερή καταγραφή και κατηγοριοποίηση των προσεγγίσεων που υπάρχουν στη βιβλιογραφία και μαζί συνθέτουν την αιχμή των εξελίξεων καθώς και την αναλυτική αποτύπωση των συμπερασμάτων που προκύπτουν από την ενασχόληση με το χώρο αυτό. Σημειώνεται ότι λόγω της δυναμικής των εξελίξεων στο χώρο, η καταγραφή των προσεγγίσεων που υπάρχουν στη βιβλιογραφία συμβάλλει στην έρευνα στο χώρο καθώς παρατηρείται απουσία από αντίστοιχες μελέτες. Επιπλέον, υλοποιείται και παρουσιάζεται μια πρωτότυπη προσέγγιση στην επίλυση του προβλήματος και αναλύονται οι περιορισμοί και οι δυνατότητες των συστημάτων που αντιμετωπίζουν το πρόβλημα της συνεργασίας Βάσεων Δεδομένων και οντολογιών. Η δεύτερη περίπτωση αφορά τα συστήματα με επίγνωση περιβάλλοντος. Η ουσιαστική διαφορά εδώ σε σχέση με την ολοκλήρωση Βάσεων Δεδομένων έγκειται στον παράγοντα του χρόνου. Τυπικά, τα συστήματα αυτά συγκεντρώνουν τεράστιο όγκο πληροφορίας ο οποίος προέρχεται από δεδομένα που συλλέγονται από αισθητήρες. Ενώ είναι εύκολη μια χαμηλού επιπέδου επεξεργασία, η οποία θα μπορεί ενδεχομένως να εξυπηρετεί έναν περιορισμένο αριθμό απαιτήσεων, το πρόβλημα εντοπίζεται επίσης στον τρόπο με τον οποίο η πληροφορία αυτή θα είναι δυνατό να ολοκληρωθεί και να αξιοποιηθεί σε σημασιολογικό επίπεδο. Για την μελέτη του προβλήματος αναπτύσσεται μια πιλοτική εφαρμογή μεσισμικού η οποία στοχεύει στην επεξεργασία και το σημασιολογικό εμπλουτισμό της πληροφορίας. Τα δεδομένα τα οποία χρησιμοποιούνται πειραματικά είναι μεταδεδομένα πολυμεσικής πληροφορίας σε ημιδομημένη μορφή τα οποία προέρχονται από ετερογενείς κατανεμημένες πηγές. Με τη χρήση μεσισμικού τα δεδομένα αυτά εισρέουν στο σύστημα σχηματίζοντας μια σημασιολογική Βάση Γνώσεως η οποία είναι ικανή να δίνει απαντήσεις σε ερωτήματα υψηλότερου σημασιολογικού επιπέδου. Ιδιαίτερη αναφορά γίνεται στην επεξεργασία των αποτελεσμάτων σε πραγματικό χρόνο αλλά και στις εκ των υστέρων διαδικασίες που πραγματοποιούνται με στόχο τη βελτίωση της κλιμακωσιμότητας του συστήματος. Αναλύονται και τεκμηριώνονται τα πλεονεκτήματα αλλά και οι περιορισμοί που προκύπτουν από την παρουσιαζόμενη προσέγγιση στη δημιουργία μιας κατανεμημένης Βάσης Γνώσεως.
περισσότερα
Περίληψη σε άλλη γλώσσα
The major problem of information available is that usually, the form in which it is published lacks both syntactical and semantic homogenisation. There is a huge amount of information, both online and in less interlinked sources. The existence of metadata that would add a higher degree of clarity is not taken for granted. The question that arises is how to integrate this volume information in order to produce a Knowledge Base from which assumptions could be derived, both explicit and implicit. The existing information management, processing and exploitation technologies are usually based on syntactic annotation. The current forms of annotation in their majority are monolithic and specialized approaches -ad hoc solutions- and offer limited potential of exporting results and conclusions. On one hand, they serve the purpose for which they were produced, but on the other hand they do not allow further exploitation in semantic level. An example is the Deep Web [1], which aggregates an enorm ...
The major problem of information available is that usually, the form in which it is published lacks both syntactical and semantic homogenisation. There is a huge amount of information, both online and in less interlinked sources. The existence of metadata that would add a higher degree of clarity is not taken for granted. The question that arises is how to integrate this volume information in order to produce a Knowledge Base from which assumptions could be derived, both explicit and implicit. The existing information management, processing and exploitation technologies are usually based on syntactic annotation. The current forms of annotation in their majority are monolithic and specialized approaches -ad hoc solutions- and offer limited potential of exporting results and conclusions. On one hand, they serve the purpose for which they were produced, but on the other hand they do not allow further exploitation in semantic level. An example is the Deep Web [1], which aggregates an enormous amount of information that is difficult to become useful and usable by the end user of the Web [2], Accordingly, the nature of the problem is similar in concept to the context-aware systems in which the volume ofinformation is growing at a great pace, hindering its management, integration with other sources ofinformation and hence the intelligent exploitation. This thesis focuses on the research in the broader context of semantic information enrichment. In particular, the research focuses on the changes and additions that need to be made at the technical and theoretical level, so that the next generation of information systems will integrate and exploit semantic information. As a solution towards the integration of information through semantic enrichment, the Semantic Web is adopted, which allows the addition of metadata which are subject to common standards and permit knowledge extraction from the existing one, and the combination of existing information in order to infer implicit knowledge, as well. The current work analyzes the problem of semantic information enrichment by presenting the components that compose it and add to the difficulty of solving it. In particular, two cases of the same problem are discussed in more detail. The first case concerns Database integration aiming at creating a distributed Knowledge Base that will incorporate intelligent features. The problem is not new, but it is considered in the light of recent technological developments and particularly in the expanding Semantic Web. The contribution of the thesis here lies in the analysis of the domain of Database and ontology collaboration, the detailed recording and categorizing of the approaches that exist in the bibliography and together they form the state of the art of the developments, and the analytical assessing of the conclusions drawn by close-examining this domain. It is noted that due to the dynamic developments in the domain, the recording of the approaches that exist in the bibliography contributes to the research in the area as a lack of relevant studies can be observed. In addition, an original approach to solving the problem is implemented and presented, and the limitations and possibilities of the systems facing the problem of Database and ontology collaboration are analyzed. The second case concerns context-aware systems. The substantial difference here in comparison with the Database integration lies in the time factor. Typically, these systems collect huge amounts of information that originates from data collected by sensors. While a low-level processing which may serve a limited number of requirements is easy, the problem also lies in how this information will be integrated and used in semantic level. For the study of the problem, a pilot middleware application is developed that is designed to process and semantically enrich information. The data which is used for the experiments conducted are semistructured multimedia metadata that come from heterogeneous distributed sources. By using the middleware, these data flow in the system forming a semantic Knowledge Base that is able to provide answers to queries at a higher semantic level. Specific reference is made to the real-time processing of the results, but also to the post procedures carried out in order to improve the system’s scalability. Also, the advantages and limitations resulting from the ensuing approach to creating a distributed Knowledge Base are analyzed and documented.
περισσότερα