Περίληψη
Η εκθετική ανάπτυξη των Βάσεων Γνώσης RDF έχει οδηγήσει σε τεράστιο όγκο δεδομένων με ποικίλουςβαθμούς ποιότητας και πολυπλοκότητας. Πολλά σύνολα δεδομένων περιέχουν πλέον εκατομμύρια ή ακόμη καιδισεκατομμύρια τριπλέτες, οδηγώντας σε προκλήσεις στην αναπαράσταση δεδομένων, σε εκτεταμένη διάρκειααναζήτησης και σε δυσκολία κατανόησης των δεδομένων. Αυτά τα ζητήματα υπογραμμίζουν την ανάγκη γιαεργαλεία που μπορούν να εξάγουν και να αναδεικνύουν αποτελεσματικά τις πιο σχετικές πληροφορίες. Προςαυτή την κατεύθυνση, έχουν προκύψει μέθοδοι σημασιολογικής σύνοψης, προσπαθώντας να εξάγουν νόημααπό τα δεδομένα μειώνοντας παράλληλα το μέγεθος του αρχικού γράφου. Οι σημασιολογικές συνόψεις μπορούννα αξιοποιηθούν αντί του αρχικού γράφου για την αποδοτικότερη ή αποτελεσματικότερη εκτέλεση ορισμένωνεργασιών, ωστόσο η κατασκευή σημασιολογικών συνόψεων παρουσιάζει προκλήσεις όσον αφορά την απόδοσηκαι την ποιότητα, ενώ δεν υπάρχει ευρέως αποδεκτή λύση στον τομέα.Σε αυτή τη διατριβή, παρουσιάζουμε καινοτ ...
Η εκθετική ανάπτυξη των Βάσεων Γνώσης RDF έχει οδηγήσει σε τεράστιο όγκο δεδομένων με ποικίλουςβαθμούς ποιότητας και πολυπλοκότητας. Πολλά σύνολα δεδομένων περιέχουν πλέον εκατομμύρια ή ακόμη καιδισεκατομμύρια τριπλέτες, οδηγώντας σε προκλήσεις στην αναπαράσταση δεδομένων, σε εκτεταμένη διάρκειααναζήτησης και σε δυσκολία κατανόησης των δεδομένων. Αυτά τα ζητήματα υπογραμμίζουν την ανάγκη γιαεργαλεία που μπορούν να εξάγουν και να αναδεικνύουν αποτελεσματικά τις πιο σχετικές πληροφορίες. Προςαυτή την κατεύθυνση, έχουν προκύψει μέθοδοι σημασιολογικής σύνοψης, προσπαθώντας να εξάγουν νόημααπό τα δεδομένα μειώνοντας παράλληλα το μέγεθος του αρχικού γράφου. Οι σημασιολογικές συνόψεις μπορούννα αξιοποιηθούν αντί του αρχικού γράφου για την αποδοτικότερη ή αποτελεσματικότερη εκτέλεση ορισμένωνεργασιών, ωστόσο η κατασκευή σημασιολογικών συνόψεων παρουσιάζει προκλήσεις όσον αφορά την απόδοσηκαι την ποιότητα, ενώ δεν υπάρχει ευρέως αποδεκτή λύση στον τομέα.Σε αυτή τη διατριβή, παρουσιάζουμε καινοτόμες τεχνικές σημασιολογικής περίληψης, εστιάζοντας τόσοστην απόδοση του αλγορίθμου σύνοψης όσο και στην ποιότητα της κατασκευασμένης σύνοψης.Αρχικά, παρουσιάζουμε το SumMER, το οποίο επικεντρώνεται στη δημιουργία δομικών, μη ποσοστιαίωνσημασιολογικών συνόψεων. Το SumMER ξεπερνά τις παλαιότερες προσεγγίσεις δομικής σύνοψης, πουεπιλέγουν ένα μόνο ή λίγα μέτρα κεντρικότητας για την επιλογή των κόμβων, μαθαίνοντας μέσω των τεχνικώνμηχανικής μάθησης πώς να συνδυάζει βέλτιστα πολλαπλά μέτρα κεντρικότητας για την επιλογή των κόμβων. Οσυνδυασμός πολλαπλών μέτρων κεντρικότητας παρέχει μια συμπληρωματική άποψη για τη σημαντικότητα ενόςκόμβου, αναβαθμίζοντας σημαντικά την ποιότητα των παραγόμενων συνόψεων και κυριαρχώντας έναντι όλωντων υπολοίπων μεθόδων του τομέα.Παρόλο που η επιλογή των κόμβων μέσω της αξιοποίησης πολλαπλών μέτρων κεντρικότητας οδηγεί σεσυνόψεις υψηλής ποιότητας, αντιμετωπίζει προβλήματα κλιμάκωσης για μεγάλους γράφους. Επιπλέον, ησημασία των ακμών δεν λαμβανόταν καθόλου υπόψη στις τελικές περιλήψεις. Για να ξεπεράσουμε αυτά ταπροβλήματα, στη συνέχεια επικεντρωνόμαστε στην αξιοποίηση ενσωματώσεων (embeddings) για τηναναπαράσταση και την επιλογή κόμβων και ακμών. Αυτή η προσέγγιση συνδυάζει γραφικές ενσωματώσεις μετη μηχανική μάθηση για τον εντοπισμό των πιο σημαντικών κόμβων και ακμων, ενω παράλληλα χρησιμοποιείπροσεκτικά επιλεγμένους προσεγγιστικούς αλγορίθμους για τη σύνδεση κόμβων, λαμβάνοντας υπόψη όχιμόνο τον ελάχιστο αριθμό κόμβων όπως έκαναν προηγούμενες εργασίες, αλλά και τη σημασία τωνακμών. Οι αλγόριθμοι που προκύπτουν για τη δημιουργία συνόψεων επιδεικνύουν υψηλή απόδοση καιμειωμένο χρόνο εκτέλεσης, όντας κατά τάξεις μεγέθους ταχύτεροι από τους ανταγωνιστές, ενώ οι παραγόμενεςσυνόψεις έχουν επίσης καλύτερη ποιότητα.Τέλος, αντί να επικεντρωθούμε στην περίληψη ολόκληρης της Βάσης Γνώσης, εστιάζουμε την προσοχήμας σε συγκεκριμένα μέρη του γράφου που μπορεί να θέλουν να συνοψίσουν οι χρήστες, δίνοντας έμφαση στηΠερίληψη Οντοτήτων (Entity Summarization). Προτείνουμε το EntitySum, μια προσέγγιση σύνοψης οντοτήτωνπου εξασφαλίζει το φιλτράρισμα των δεδομένων και τη μείωση του πλεονασμού, σε αντίθεση με τις σύγχρονεςπροσεγγίσεις, οι οποίες στη συντριπτική τους πλειοψηφία δεν φιλτράρουν τα δεδομένα και δυσκολεύονται ναελαχιστοποιήσουν το πλεονασμό. Επιπλέον, η προσέγγισή μας επιλέγει ταυτόχρονα τις πιο σημαντικές τριπλέτεςμε βάση τα μέτρα κεντρικότητας για τη σημαντικότητα των αντικειμένων και τη συχνότητα για τις ιδιότητες. Ηπροσέγγισή μας ενσωματώνει επίσης μεγάλα γλωσσικά μοντέλα (LLMs) για τη μετατροπή των συνόψεων σεφυσική γλώσσα, ενισχύοντας την κατανόηση. Δείχνουμε ότι το EntitySum επιδεικνύει ανώτερη απόδοσησυγκριτικά με τις πιο σύγχρονες μεθόδους, ενώ παράγει με συνέπεια καλύτερα αποτελέσματα.
περισσότερα
Περίληψη σε άλλη γλώσσα
The exponential growth of RDF Knowledge Bases has resulted in massive volumes of data withvarying degrees of quality and complexity. Many datasets now contain millions or even billions oftriples, leading to challenges in data representation, extended search times, and difficulties in datacomprehension. These issues underscore the need for tools that can efficiently extract and highlightthe most pertinent information. In this direction, semantic summarization methods have emergedtrying to extract meaning from data while reducing the size of the original graph. Semantic summariescan be exploited instead of the original graph to perform certain tasks more efficiently or effectively,however constructing semantic summaries poses challenges regarding efficiency and quality whereasthere is no widely accepted solution in the domain.In this dissertation, we present novel semantic summarization techniques focusing on both theefficiency of the summarization algorithm as well on the quality of the ...
The exponential growth of RDF Knowledge Bases has resulted in massive volumes of data withvarying degrees of quality and complexity. Many datasets now contain millions or even billions oftriples, leading to challenges in data representation, extended search times, and difficulties in datacomprehension. These issues underscore the need for tools that can efficiently extract and highlightthe most pertinent information. In this direction, semantic summarization methods have emergedtrying to extract meaning from data while reducing the size of the original graph. Semantic summariescan be exploited instead of the original graph to perform certain tasks more efficiently or effectively,however constructing semantic summaries poses challenges regarding efficiency and quality whereasthere is no widely accepted solution in the domain.In this dissertation, we present novel semantic summarization techniques focusing on both theefficiency of the summarization algorithm as well on the quality of the constructed summary.We initially present SumMER, focusing on the generation of structural, non-quotient semanticsummaries. SumMER moves beyond past approaches on structural summarization, thatselect a single(or just a few) centrality measure(s) for node selection, learning using machine learning techniqueshow to optimally combine multiple centrality measures for node selection. Combining multiplecentrality measures provides a complementary view of the node’s importance, significantly upliftingthe quality of the generated summaries and dominating all other baselines in the domain.Although node selection exploiting multiple centrality measures results in high-qualitysummaries, it faces scalability problems for large graphs. In addition, edges’ importance was notconsidered at all in the final summaries. To overcome those problems we next focus on exploitingembeddings for node and edges representation and selection. This approach combines graphembeddings with machine learning to identify the most significant nodes and edges while employscarefully chosen approximate algorithms for node linking, considering not just the minimum numberof nodes like previous works did, but the importance of edges as well. The resulting algorithms forsummary generation demonstrate high efficiency and reduced execution time being orders ofmagnitude faster than competitors, whereas the generated summaries also enjoy better quality.Finally, instead of focusing on summarizing the entire KB, we next focus on specific parts of thegraph that users might want to summarize focusing on Entity Summarization. We propose EntitySum,an entity summarization approach that ensures data filtering and redundancy reduction, in constrastwith the state-of-the art approaches, which the most of them do not filtering data and struggle tominimize redundancy. In addition our approach, concurrently selecting the most significant triplesbased on centrality measures for object importance and frequency for properties. Our approachfurther incorporates large language models (LLMs) to transform summaries into natural language,enhancing interpretability. We show that EntitySum demonstrates superior efficiency compared tothe state-of-the-art methodologies, whereas it produces consistently better results.
περισσότερα