Περίληψη
Η διάθεση των κατάλληλων εργαλείων σε επαγγελματίες, επιστήμονες και άλλους γιατην υποστήριξη της αναζήτησης γεωγραφικών δεδομένων στον ιστό και την εφαρμογήπρακτικών ενσωμάτωσής τους είναι βασική προϋπόθεση για την ολοκλήρωση πολλών εργασιών, όπως η δημιουργία χαρτών και η χωρική ανάλυση. Νέοι τρόποι δημοσίευσηςσημασιολογικά εμπλουτισμένων δεδομένων στον ιστό, σύμφωνα με τις αρχές των συνδεδεμένων δεδομένων (Linked Data), έχουν οδηγήσει στη δημιουργία ενός μοναδικού,παγκόσμιου και διασυνδεδεμένου ιστού δεδομένων (Web of Data), ο οποίος διευκολύνειτην πρόσβαση, επεξεργασία και ενσωμάτωση μεγάλων ποσοτήτων δεδομένων από διαφορετικές πηγές και παρέχει προηγμένες δυνατότητες αναζήτησης και επερωτήσεων. Σε αυτήν την έρευνα, διερευνούμε το πρόβλημα της εύρεσης σχετιζόμενων γεωγραφικών δεδομένων στον ιστό δεδομένων. Συγκεκριμένα, προτείνουμε μία μεθοδολογία αναζήτησηςσυνόλων δεδομένων για την ανακάλυψη συνδέσμων (dataset recommendation for linkdiscovery), η οποία προτείνει, σε ένα δοσμένο σύ ...
Η διάθεση των κατάλληλων εργαλείων σε επαγγελματίες, επιστήμονες και άλλους γιατην υποστήριξη της αναζήτησης γεωγραφικών δεδομένων στον ιστό και την εφαρμογήπρακτικών ενσωμάτωσής τους είναι βασική προϋπόθεση για την ολοκλήρωση πολλών εργασιών, όπως η δημιουργία χαρτών και η χωρική ανάλυση. Νέοι τρόποι δημοσίευσηςσημασιολογικά εμπλουτισμένων δεδομένων στον ιστό, σύμφωνα με τις αρχές των συνδεδεμένων δεδομένων (Linked Data), έχουν οδηγήσει στη δημιουργία ενός μοναδικού,παγκόσμιου και διασυνδεδεμένου ιστού δεδομένων (Web of Data), ο οποίος διευκολύνειτην πρόσβαση, επεξεργασία και ενσωμάτωση μεγάλων ποσοτήτων δεδομένων από διαφορετικές πηγές και παρέχει προηγμένες δυνατότητες αναζήτησης και επερωτήσεων. Σε αυτήν την έρευνα, διερευνούμε το πρόβλημα της εύρεσης σχετιζόμενων γεωγραφικών δεδομένων στον ιστό δεδομένων. Συγκεκριμένα, προτείνουμε μία μεθοδολογία αναζήτησηςσυνόλων δεδομένων για την ανακάλυψη συνδέσμων (dataset recommendation for linkdiscovery), η οποία προτείνει, σε ένα δοσμένο σύνολο δεδομένων, άλλα σύνολα δεδομένων του ιστού δεδομένων που ενδέχεται να περιέχουν σχετικές οντότητες, δηλαδήοντότητες που περιγράφουν σημασιολογικά κοντινά ή ίδια γεωγραφικά αντικείμενα τουπραγματικού κόσμου. Τα προτεινόμενα σύνολα δεδομένων μπορούν εκ των υστέρωννα χρησιμοποιηθούν ως είσοδος σε μία διαδικασία ανακάλυψης συνδέσμων (link discovery) για τη δημιουργία των συνδέσμων (π.χ. sameAs) μεταξύ των σχετικών οντοτήτων.Σε αντίθεση με τις υφιστάμενες μεθοδολογίες, οι οποίες προτείνουν σχετικά σύνολαδεδομένων με βάση την ομοιότητα των αλφαριθμητικών και της δομής τους ή την αξιοποίηση υφιστάμενων συνδέσμων μεταξύ τους, προσεγγίζουμε το πρόβλημα από μίαγεωγραφική οπτική, θεμελιώνοντας την υπόθεση ότι ‘σύνολα δεδομένων των οποίων οιοντότητες παρουσιάζουν παρόμοια χωρική κατανομή είναι πιθανό να περιέχουν σημασιολογικά σχετιζόμενες οντότητες’. Για να υποστηρίξουμε την υπόθεσή μας, υλοποιήσαμεμία πρακτική λύση, η οποία έχει εφαρμογή σε κλίμακα διαδικτύου και αρχικά δημιουργείσυνόψεις σε γεωγραφικά χαρακτηριστικά (σημειακές οντότητες) των χωρικών συνόλωνδεδομένων που παρέχονται μέσω SPARQL endpoints και στη συνέχεια εφαρμόζει μετρικέςγια τον υπολογισμό της ομοιότητάς τους. Οι συνόψεις αποτυπώνουν γεωγραφικά χαρακτηριστικά των συνόλων δεδομένων, όπως η χωρική τους έκταση και η χωρική κατανομήτων οντοτήτων τους. Διάφορες μετρικές που βασίζονται στην ομοιότητα συνόλων, στηστατιστική και στη θεωρία πληροφορίας, εφαρμόζονται στις συνόψεις των συνόλων δεδομένων για τον υπολογισμό ενός βαθμού γεωγραφικής ομοιότητας συνόλων δεδομένων.΄Ενας αλγόριθμος αναζήτησης ταξινομεί τα προτεινόμενα σύνολα δεδομένων σύμφωνα μετη γεωγραφική τους ομοιότητα, έτσι ώστε στην κορυφή της ταξινομημένης λίστας ναβρίσκονται τα σύνολα δεδομένων που είναι πιο πιθανό να περιέχουν σχετικές οντότητες με το επερωτώμενο αρχικό σύνολο δεδομένων. Διεξαγάγαμε πειράματα για την αξιολόγηση της αποτελεσματικότητας και αποδοτικότητας της μεθοδολογίας αναζήτησηςσυνόλων δεδομένων για την ανακάλυψη συνδέσμων. Σύμφωνα με τα αποτελέσματατων πειραμάτων, ο προτεινόμενος αλγόριθμος αναζήτησης παράγει ταξινομημένες λίστεςσυνόλων δεδομένων με 62% μέση ακρίβεια (Mean Average Precision), περίπου 35% υψηλότερης σε σύγκριση με απλούς εναλλακτικούς αλγόριθμους. Επίσης, μειώνει περίπουκατά 99% τον χώρο αναζήτησης για σχετικά σύνολα δεδομένων στον ιστό δεδομένων μετη χρήση αποδοτικών τεχνικών. Μία πρόσθετη συνεισφορά της εργασίας μας αφορά τηνανάπτυξη μεθόδων που παρέχουν ενιαία πρόσβαση στο σύνολο του ιστού δεδομένων καιτην παραγωγή αναφορών σχετικά με το μέγεθος και την κατάσταση του γεωγραφικούσημασιολογικού ιστού (Semantic Web) που δείχνουν ότι περίπου το 39% των συνόλωνδεδομένων του σημασιολογικού ιστού περιέχουν γεωαναφερμένη πληροφορία. Επιπλέον,προτείνουμε το GeoVoID, ένα πρότυπο μεταδεδομένων για την περιγραφή γεωγραφικώνχαρακτηριστικών των συνόλων δεδομένων όπως η χωρική τους έκταση, οι χωρικές οντολογίες που χρησιμοποιούνται και ο αριθμός των γεωγραφικών τους οντοτήτων. Το αποτέλεσμα της έρευνάς μας πραγματώνεται σε μία διαδικτυακή εφαρμογή που ονομάζεται GeoLOD και αποτελεί έναν ενδελεχή κατάλογο χωρικών συνόλων δεδομένων στον σημασιολογικό ιστό και μία online μηχανή αναζήτησης συνόλων δεδομένων για την ανακάλυψησυνδέσμων. Η GeoLOD επιτρέπει την αναζήτηση συνόλων δεδομένων μέσω χάρτη καιπαρέχει καινοτόμες λειτουργίες όπως η ζωντανή προεπισκόπηση των περιεχομένων τωνσυνόλων δεδομένων σε διαδραστικό χάρτη, η εξαγωγή αρχείων ρυθμίσεων για άμεσηχρήση από τα λογισμικά ανακάλυψης συνδέσμων Silk και LIMES και η on-the-fly πρόταση συνόλων δεδομένων για την ανακάλυψη συνδέσμων για σύνολα δεδομένων πουπαρέχονται από άγνωστα SPARQL endpoints και σε συμβατή με τα Γεωγραφικά Πληροφοριακά Συστήματα (ΓΠΣ) μορφή (π.χ. Shapefile). Η χρησιμότητα της GeoLOD για τουςεπαγγελματίες ΓΠΣ και τους ειδικούς σε θέματα συνδεδεμένων δεδομένων επιβεβαιώνεται από τα αποτελέσματα μίας διεξαχθείσας μελέτης χρηστών.
περισσότερα
Περίληψη σε άλλη γλώσσα
The provision of suitable tools to professionals, scientists and others, that would supportthe search for geographic data in the web and their integration, is a basic premise for thecompletion of many tasks such as map-making and spatial analyses. New ways of publishingsemantically-enriched data in the web according to the linked data principles result in therealization of a single global and interconnected web of data, which eases the accessibility,process and integration of huge amounts of data from various sources and offers advancedsearching and querying capabilities. In this research, we address the problem of discoveringrelated geographic data in the web of data. In particular, we propose a dataset recommendationfor link discovery methodology that recommends, to a given spatial dataset, other spatialdatasets in the web of data that may contain related entities, that is, entities that refer to semanticallyclose or to the same real-world geographic objects. The recommended datasets ...
The provision of suitable tools to professionals, scientists and others, that would supportthe search for geographic data in the web and their integration, is a basic premise for thecompletion of many tasks such as map-making and spatial analyses. New ways of publishingsemantically-enriched data in the web according to the linked data principles result in therealization of a single global and interconnected web of data, which eases the accessibility,process and integration of huge amounts of data from various sources and offers advancedsearching and querying capabilities. In this research, we address the problem of discoveringrelated geographic data in the web of data. In particular, we propose a dataset recommendationfor link discovery methodology that recommends, to a given spatial dataset, other spatialdatasets in the web of data that may contain related entities, that is, entities that refer to semanticallyclose or to the same real-world geographic objects. The recommended datasetscan be then used as input to a link discovery process for the establishment of links (e.g.,sameAs) between their related entities. In contrast to the current approaches, which determinedataset relevancy based on the textual and structural similarity of datasets or by examiningexisting links, we approach the problem from a geographic perspective based on thehypothesis that “datasets whose entities present similar spatial distribution are likely to containsemantically related entities”. To support our hypothesis, we implemented a practical solutionthat operates in web scale and first creates summaries on geographical elements (pointentities) of spatial datasets provided through SPARQL endpoints and then apply metrics tocompute their similarity. The summaries capture geographical characteristics of datasets,such as their spatial extent and the spatial distribution of their entities. Various set-similarity,statistical and information theory metrics are applied on dataset summaries to compute a geographicalsimilarity score for datasets. A recommendation algorithm ranks relevant spatialdatasets according to their geographical similarity score, so as the top ranked datasets aremore probable to contain related entities with the queried spatial dataset. We conducted experimentsto evaluate the effectiveness and the efficiency of the dataset recommendation forlink discovery methodology. The results show that the proposed recommendation algorithmgenerate ranked lists with 62% mean average precision, approximately 35% higher than simplebaselines. Also, it reduces approximately 99% the search space for relevant data sourcesin the web of data using efficient techniques. A sideline contribution of our research concernsthe development of methods for the seamless access and parsing of web of data and thegeneration of reports that shed light on the size and the state of the geographic semantic webthat show that approximately 39% of the semantic web datasets contain georeferenced information.In addition, we propose GeoVoID, a metadata standard for describing geographiccharacteristics of datasets, such as their spatial extent, the spatial ontologies they use andthe number of their geographic entities. The outcome of our research is realized in a webapplication, called GeoLOD, an exhaustive catalog of spatial datasets in the semantic web and an online dataset recommender for link discovery. GeoLOD allows map-based searchfor datasets and offers novel features such as live preview of datasets geographic entities onan interactive map, export of configuration files for instant use in the Silk and LIMES linkdiscovery frameworks and on-the-fly recommendation for unknown SPARQL endpoints andspatial datasets in GIS compliant formats (e.g., Shapefile). The usefulness of GeoLOD forGIS professionals and linked data experts is confirmed by the results of a conducted userstudy.
περισσότερα