Περίληψη
Η παρούσα διατριβή εμβαθύνει στην εξέλιξη στη σημασιολογική σύνοψη και την εξερεύνηση γραφημάτων γνώσεων (KGs) με επίκεντρο τον χρήστη, δεδομένης της ταχείας διάδοσης των διασυνδεδεμένων δεδομένων. Οι σημασιολογικές συνόψεις έχουν καταστεί κρίσιμα εργαλεία για τη συμπύκνωση τεράστιων συνόλων δεδομένων σε διαχειρίσιμα μεγέθη, βελτιστοποιώντας την απάντηση σε ερωτήματα, την ευρετηρίαση και την απεικόνιση. Οι πρόσφατες εξελίξεις στις δομικές σημασιολογικές συνόψεις επικεντρώνονται στην εξαγωγή κεντρικών κόμβων από το σημασιολογικό γράφημα, εκμεταλλευόμενοι διάφορα μέτρα κεντρικότητας, και στη συνέχεια στη σύνδεσή τους και παρουσίασή τους ως συνόψεις. Αυτές οι συνόψεις μπορούν στη συνέχεια να χρησιμοποιηθούν, μεταξύ άλλων, για τη βελτιστοποίησητης απάντησης επερωτήσεων, καθώς το μέγεθος του γραφήματος μειώνεται δραστικά. Ωστόσο, καθώς τα σημασιολογικά γραφήματα είναι ετερογενή, η χρήση διαφόρων μέτρων κεντρικότητας για την επιλογή τμημάτων του γραφήματος που θα χρησιμοποιηθούν, δημιουργούν ...
Η παρούσα διατριβή εμβαθύνει στην εξέλιξη στη σημασιολογική σύνοψη και την εξερεύνηση γραφημάτων γνώσεων (KGs) με επίκεντρο τον χρήστη, δεδομένης της ταχείας διάδοσης των διασυνδεδεμένων δεδομένων. Οι σημασιολογικές συνόψεις έχουν καταστεί κρίσιμα εργαλεία για τη συμπύκνωση τεράστιων συνόλων δεδομένων σε διαχειρίσιμα μεγέθη, βελτιστοποιώντας την απάντηση σε ερωτήματα, την ευρετηρίαση και την απεικόνιση. Οι πρόσφατες εξελίξεις στις δομικές σημασιολογικές συνόψεις επικεντρώνονται στην εξαγωγή κεντρικών κόμβων από το σημασιολογικό γράφημα, εκμεταλλευόμενοι διάφορα μέτρα κεντρικότητας, και στη συνέχεια στη σύνδεσή τους και παρουσίασή τους ως συνόψεις. Αυτές οι συνόψεις μπορούν στη συνέχεια να χρησιμοποιηθούν, μεταξύ άλλων, για τη βελτιστοποίησητης απάντησης επερωτήσεων, καθώς το μέγεθος του γραφήματος μειώνεται δραστικά. Ωστόσο, καθώς τα σημασιολογικά γραφήματα είναι ετερογενή, η χρήση διαφόρων μέτρων κεντρικότητας για την επιλογή τμημάτων του γραφήματος που θα χρησιμοποιηθούν, δημιουργούν συνόψεις με περιορισμένα οφέλη για την απάντηση επερωτήσεων. Η αξιοποίηση των αρχείων καταγραφής ερωτημάτων χρήστη έχει τη δυνατότητα να προσφέρει απτά οφέλη προς αυτή την κατεύθυνση, καθώς μπορούννα προσφέρουν μοναδικές πληροφορίες για τις τάσεις και τα ενδιαφέροντα των χρηστών καθώς εξελίσσονται με την πάροδο του χρόνου. Προς αυτή την κατεύθυνση, αυτή η διατριβή αρχίζει να εξερευνά συνόψεις βασισμένες σε αρχεία καταγραφής ερωτημάτων επιλέγοντας κόμβους με βάση τη συχνότητά τους στα αρχεία αυτά. Αυτό βελτιώνει δραστικά τη χρησιμότητα των συνόψεων όσον αφορά την κάλυψη των ερωτημάτων. Στη συνέχεια, διερευνάται πώς η αξιοποίηση των αρχείων καταγραφής ερωτημάτων και των μεγάλων γλωσσικών μοντέλων (LLMs) μπορεί να οδηγήσει στην αυτόματη δημιουργία συχνών ερωτήσεων (FAQs), επιτρέποντας στους χρήστες να κατανοούν γρήγορα τα περιεχόμενα ενός ολόκληρου γραφήματος γνώσεων απλώς επισκεπτόμενοι ένα σύνολο ερωτήσεων και των απαντήσεών τους σε μορφή κειμένου. Παράλληλα, εξερευνούμε τις αλλαγές στα ενδιαφέροντα των χρηστών με την πάροδο του χρόνου χρησιμοποιώντας αρχεία καταγραφής ερωτημάτων και γλωσσικά μοντέλα, διευκολύνοντας την απεικόνιση και κατανόηση αυτών των εξελισσόμενων ενδιαφερόντων από τους χρήστες. Στη συνέχεια, επικεντρωνόμαστε στον τρόπο κατασκευής εξατομικευμένων συνόψεων που προσαρμόζονται στις προτιμήσεις των χρηστών. Και πάλι εκμεταλλευόμαστε τα αρχεία καταγραφής ερωτημάτων επιλέγοντας ερωτήματα παρόμοια με τα ενδιαφέροντα του χρήστη και δημιουργούμε συνόψεις που μεγιστοποιούν την κάλυψη για τα ερωτήματα του χρήστη, έχοντας καλύτερα αποτελέσματα από όλα τα αντωγωνιστικά συστήματα. Τέλος, επικεντρωνόμαστε στο πώς οι συνόψεις βασισμένες σε αρχεία καταγραφής ερωτημάτων μπορούν να χρησιμοποιηθούν για τη δημιουργία συμπαγών δομών που μπορούν να χρησιμοποιηθούν ως μηχανισμός προσωρινής αποθήκευσης για την γρήγορη παροχή μιας πρώτης απάντησης στα ερωτήματα των χρηστών πριν από την πλήρη απάντησή τους. Αποδεικνύουμε ότι τέτοιες περιλήψεις είναι τόσο πρακτικές, καθώς μπορούν να κατασκευαστούν και να διατηρηθούν εύκολα στη μνήμη, όσο και ωφέλιμες, καθώς μπορούν να βελτιστοποιήσουν σημαντικά το χρόνο που απαιτείται για τα πρώτα αποτελέσματα των ερωτημάτων των χρηστών. Με την ενσωμάτωση αυτών των καινοτόμων προσεγγίσεων, αυτή η διατριβή στοχεύει να προωθήσει τον τομέα των σημασιολογικών συνόψεων και την εξερεύνηση γράφων γνώσης με επίκεντρο τον χρήστη, προάγοντας πιο αποτελεσματική και αποδοτική εξερεύνηση δεδομένων σε ολοένα και πιο διασυνδεδεμένα περιβάλλοντα.
περισσότερα
Περίληψη σε άλλη γλώσσα
This dissertation delves into the advancements in semantic summarization and user centric exploration of Knowledge Graphs (KGs), driven by the rapid expansion of interconnected data. Semantic summaries have become critical tools for distilling vast datasets into manageable sizes, optimizing query answering, indexing, and visualization. Recent developments in structural semantic summaries have focused on extracting central nodes from the semantic graph, exploiting several graph centrality measures, then linking them and presenting them as summaries. Those summaries can then be used among others to optimize query answering as the size of the graph is drastically reduced. However, as the semantic graphs are heterogeneous, using variations of centrality measures for selecting parts of the graph to be used as a summary, generates summaries with limited benefits for query answering. Leveraging user query workloads has the potential to offer tangible benefits to this direction, as they can of ...
This dissertation delves into the advancements in semantic summarization and user centric exploration of Knowledge Graphs (KGs), driven by the rapid expansion of interconnected data. Semantic summaries have become critical tools for distilling vast datasets into manageable sizes, optimizing query answering, indexing, and visualization. Recent developments in structural semantic summaries have focused on extracting central nodes from the semantic graph, exploiting several graph centrality measures, then linking them and presenting them as summaries. Those summaries can then be used among others to optimize query answering as the size of the graph is drastically reduced. However, as the semantic graphs are heterogeneous, using variations of centrality measures for selecting parts of the graph to be used as a summary, generates summaries with limited benefits for query answering. Leveraging user query workloads has the potential to offer tangible benefits to this direction, as they can offer unique insights on trends and user interests as they evolve over time. To this direction, this dissertation starts exploring workload-based summaries by selecting nodes based on their frequency in query workloads. This drastically improves the usefulness of the result summaries in terms of query coverage. Then it explores how utilizing query logs and Large Language Models (LLMs) can lead to the automatically generation of FAQs, enabling users to rapidly understand the contents of an entire KGjust visiting a set of questions and their answers in textual format. In parallel, we explore shifts in user interests over time using query logs and language models, facilitating users' visualization and understanding of these evolving interests. Then we focus on how to construct personalized summaries that adapt to individual user preferences. We again exploit query logs selecting queries similar to the interests of the user and generate summaries maximizing coverage for user queries, dominating all baselines and competitors. Finally we focus on how workload-based summaries can be used for the generation of compact structures that can be used as a caching mechanism to rapidly provide a first answer to user queries before answering their queries in full. We demonstrate that such summaries are both practical, as they can be trivially constructed and retained in main memory, and also of high benefit as they can significantly optimize the time required for the first results of user queries. By integrating these innovative approaches, this dissertation aims to advance the field of semantic summarization and user-centric KG exploration, fostering more effective and efficient data exploration in increasingly interconnected environments.
περισσότερα