Περίληψη
Οι βάσεις δεδομένων, τόσο σαν ερευνητικός τομέας όσο και σαν πρακτικές εφαρμογές έχουν ήδη επιδείξει διάφορα χαρακτηριστικά ωριμότητας σε σχέση με άλλους τομείς της πληροφορικής. Έχουν εδραιωμένο ρόλο στην παραγωγή, ένα σταθερό εννοιολογικό και λογικό μοντέλο πίσω από τις εφαρμογές τους και αντιμετωπίζουν αποδοτικό τον πρωταρχικό τους στόχο: το χειρισμό μεγάλων όγκων δεδομένων. Τα τελευταία χρόνια όμως, οι απαιτήσεις έχουν αλλάξει σημαντικά καθώς οι βάσεις δεδομένων βρίσκουν εφαρμογή σε νέα πεδία, όμως τα βιοϊατρικά δεδομένα, δεδομένα σε συστήματα ομοτίμων, δεδομένα από αισθητήρες κτλ. Επιπροσθέτως, είναι η ίδια η έννοια του χειρισμού των δεδομένων που αλλάζει καθώς η αποθήκευση και ανεύρεση δεδομένων, έστω και με σύνθετα κριτήρια, δεν αρκεί για να ανταποκριθεί στις απαιτήσεις των σύγχρονων εφαρμογών. Οι χρήστες πλέον χειρίζονται γιγάντιους όγκους δεδομένων και θέλουν να μπορούν να τους εξερευνούν αποδοτικά και να βλέπουν τα αποτελέσματα με ένα συνοπτικό τρόπο. Πολύ συχνά θέλουν να ανα ...
Οι βάσεις δεδομένων, τόσο σαν ερευνητικός τομέας όσο και σαν πρακτικές εφαρμογές έχουν ήδη επιδείξει διάφορα χαρακτηριστικά ωριμότητας σε σχέση με άλλους τομείς της πληροφορικής. Έχουν εδραιωμένο ρόλο στην παραγωγή, ένα σταθερό εννοιολογικό και λογικό μοντέλο πίσω από τις εφαρμογές τους και αντιμετωπίζουν αποδοτικό τον πρωταρχικό τους στόχο: το χειρισμό μεγάλων όγκων δεδομένων. Τα τελευταία χρόνια όμως, οι απαιτήσεις έχουν αλλάξει σημαντικά καθώς οι βάσεις δεδομένων βρίσκουν εφαρμογή σε νέα πεδία, όμως τα βιοϊατρικά δεδομένα, δεδομένα σε συστήματα ομοτίμων, δεδομένα από αισθητήρες κτλ. Επιπροσθέτως, είναι η ίδια η έννοια του χειρισμού των δεδομένων που αλλάζει καθώς η αποθήκευση και ανεύρεση δεδομένων, έστω και με σύνθετα κριτήρια, δεν αρκεί για να ανταποκριθεί στις απαιτήσεις των σύγχρονων εφαρμογών. Οι χρήστες πλέον χειρίζονται γιγάντιους όγκους δεδομένων και θέλουν να μπορούν να τους εξερευνούν αποδοτικά και να βλέπουν τα αποτελέσματα με ένα συνοπτικό τρόπο. Πολύ συχνά θέλουν να ανακαλύπτουν αποτελέσματα που δεν τα έχουν περιγράφει με ακρίβεια στην ερώτηση. Υπάρχουν διάφορες σύνθετες μέθοδοι ανάλυσης των δεδομένων, οι οποίες όμως συνήθως γίνονται μέσα από εργαλεία που δεν ακολουθούν κάποια τυποποίηση. Οι πιο γενικές και συστηματοποιημένες τεχνικές για την ανάλυση των δεδομένων σε βάθος, έρχονται από τον τομέα της εξόρυξης γνώσης. Η αναγνώριση συστάδων (clusters), η δημιουργία δέντρων απόφασης (decision trees), η ανάλυση συχνών συνόλων αντικειμένων (frequent itemsets) κ.α. αποτελούν τις κυριότερες τεχνικές στην εξόρυξη γνώσης. Τέτοιου είδους λειτουργικότητα συχνά εμφανίζεται διαθέσιμη σε διάφορα εμπορικά συστήματα διαχείρισης βάσεων δεδομένων (ΣΔΒΔ). Στην πραγματικότητα όμως, η ομαλή ενσωμάτωση των μεθόδων της εξόρυξης γνώσης και άλλων μεθόδων ανάλυσης δεδομένων στα ΣΔΒΔ, απέχει πολύ από το να είναι πραγματικότητα. Οι περισσότερες ερευνητικές προσπάθειες να ομογενοποιηθεί η εξόρυξη γνώσης με τα συστήματα διαχείρισης βάσεων δεδομένων επικεντρώνονται στο αλγοριθμικό μέρος της πρόκλησης, δηλαδή στο πως να γίνει διαφανής η λειτουργία των διαφόρων μεθόδων εξόρυξης γνώσης ώστε να ενσωματωθούν σαν τελεστές στα ΣΔΒΔ. Για να ευοδωθούν όμως αυτές οι προσπάθειες χρειάζεται πρώτα να ομογενοποιηθούν τα αποτελέσματα της εξόρυξης γνώσης και να ενσωματωθεί ο χειρισμός τους στις βάσεις δεδομένων. Δηλαδή να βρεθεί ένας συστηματικός τρόπος μοντελοποίησης των αποτελεσμάτων των συστάδων, των συχνών αντικειμένων συνόλων κτλ. ο οποίος να μην τους αφαιρεί την ιδιαίτερη σημασιολογία τους και να επιτρέπει τον χειρισμό τους από τα ΣΔΒΔ με ένα τυποποιημένο τρόπο. Παραδόξως, αυτή η πρόκληση δεν έχει αντιμετωπιστεί επαρκώς στις περισσότερες ερευνητικές προσπάθειες για την κάλυψη του χάσματος μεταξύ της εξόρυξης γνώσης και των βάσεων δεδομένων. Η παρούσα διδακτορική διατριβή επικεντρώνεται ακριβώς εδώ, στο χειρισμό των προτύπων που δημιουργούν οι μέθοδοι εξόρυξης γνώσης από συστήματα βάσεων δεδομένων. Αυτή είναι και μια σημαντική πρωτοτυπία της διατριβής. Δίνοντας βάρος στα πρότυπα αντί στους αλγορίθμους, μπορεί και προτείνει πιο ρεαλιστικές λύσεις για την εκμετάλλευση τεχνικών της εξόρυξης γνώσεις στις βάσεις δεδομένων καλύπτοντας μεγαλύτερο εύρος προτύπων από τις αλγοριθμικές προσεγγίσεις. Αναλύοντας τους παράγοντες που καθιστούν σημαντική το πρόβλημα που πραγματεύεται, διακρίνουμε τους εξής: • Η αντιμετώπιση του είναι απαραίτητη. Τόσο η έρευνα στις βάσεις δεδομένων όσο και η πρακτική έχουν διαπιστώσει την ανάγκη να ενσωματωθούν οι μέθοδοι εξόρυξης γνώσης στα ΣΔΒΔ. Η διαχείριση προτύπων είναι το πρώτο βήμα σε αυτή την κατεύθυνση. Αν θέλουμε να έχουμε σύνθετες μεθόδους ανάλυσης των δεδομένων στις παραδοσιακές βάσεις δεδομένων, τότε η ανάγκη να χειριζόμαστε τα αποτελέσματα τους προκύπτει σαν φυσικό επακόλουθο. Επιπροσθέτως, η μεγάλη πληθώρα των προτύπων που παράγονται από τις περισσότερες μεθόδους εξόρυξης γνώσης, αποτελεί ένα αυτόνομο παράγοντα που συνηγορεί στο να χρησιμοποιηθούν οι βάσεις δεδομένων για την περεταίρω διερεύνηση τους. • Η αντιμετώπιση του είναι ενδιαφέρουσα. Η δυνατότητα να αποθηκεύουμε και να ρωτάμε πρότυπα σε βάσεις δεδομένων, τα οποία προέρχονται από πιθανώς διαφορετικές μεθόδους ανάλυσης, επιτρέπει στο χρήση να πάρει περισσότερη πληροφορία για τα δεδομένα του από ότι δίνουν αρχικές μέθοδοι. Στο πλαίσιο αναφοράς της διατριβής τα πρότυπα εκφράζουν κάποια ιδιότητα των δεδομένων από τα οποία εξήχθησαν. Η δυνατότητα δημιουργίας νέων προτύπων από υπάρχοντα, η δυνατότητα να ελεγχθεί η ύπαρξη γνωστών προτύπων σε νέα δεδομένα, ακόμα και η απλή σύγκριση μεταξύ προτύπων επιτρέπουν να εξαχθεί πληροφορία για τα δεδομένα που δεν είναι ορατή με την απλή παρατήρηση των δεδομένων ή και των προτύπων. • Η αντιμετώπιση του είναι εφικτή. Οι περισσότερες προσπάθειες να ενσωματωθούν λειτουργικότητες εξόρυξης γνώσης σε παραδοσιακά ΣΔΒΔ, δεν έχουν καταφέρει να επιδείξουν μία σημαντική σε εύρος επιτυχία. Ένας από τους λόγους που εντείνει την δυσκολία του εγχειρήματος είναι ότι οι περισσότερες προσεγγίσεις εστιάζουν το ενδιαφέρον τους στο αλγοριθμικό κομμάτι της εξόρυξης γνώσης και προσπαθούν να εκφράσουν τις διάφορες μεθόδους μέσα από νέους τελεστές ερωτήσεων. Η προσέγγιση που ακολουθείται στην διατριβή είναι αρκετά πιο ρεαλιστική. Εστιάζοντας στα αποτελέσματα-πρότυπα, και όχι στον μηχανισμό των μεθόδων, είναι δυνατόν να υπάρξουν ευκολότερα, απτά αποτελέσματα για τον τελικό χρήστη.• Η αντιμετώπιση του είναι δύσκολη. Το γεγονός ότι η προσέγγιση που ακολουθεί η διατριβή είναι εφικτή, δεν σημαίνει ότι δεν υπάρχουν πολλά δύσκολα και ενδιαφέροντα προβλήματα. Μια σειρά από ερευνητικές προκλήσεις ελλοχεύουν τόσο στην μοντελοποίηση όσο και στην υλοποίηση ενός συστήματος διαχείρισης προτύπων. Ο πυρήνας των δυσκολιών βρίσκεται στην σύνθετη σημασιολογία των προτύπων και ειδικότερα στην σχέση τους με τα δεδομένα. Στόχος της διατριβής είναι να διερευνήσει και να επιλύσει ζητήματα σχετικά με την δημιουργία ενός συστήματος διαχείριση προτύπων και δεδομένων. Σε ένα τέτοιο σύστημα ο χρήστης να μπορεί να θέτει ερωτήσεις σε πρότυπα και δεδομένα προκειμένου να ανακαλύπτει ενδιαφέρουσες ιδιότητες των δεδομένων. Βασική ιδέα της πρότασης είναι η δημιουργία ενός περιβάλλοντος, όπου τα πρότυπα θα αντιμετωπίζονται σαν οντότητες πρώτης κατηγορίας, της Αποθήκης Προτύπων. Η αποθήκη προτύπων δίνει προστιθέμενη αξία στα αποτελέσματα της εξόρυξης γνώσης επιτρέποντας την δημιουργία νέων προτύπων από τα υπάρχοντα, προσφέροντας συμπερασματικούς μηχανισμούς για την διερεύνηση ιδιοτήτων των δεδομένων με βάση τα πρότυπα κτλ. Συνοψίζοντας, στόχοι της αποθήκης δεδομένων είναι οι εξής: • Να μπορεί ο χρήστης να χειρίζεται και να ρωτά δεδομένα και πρότυπα με ένα ενιαίο τρόπο, και ταυτόχρονα τα πρότυπα να διατηρούν την σύνθετη σημασιολογία τους που τα διαχωρίζει από τα απλά δεδομένα. • Να υπάρχει μία διαφανής απεικόνιση της σημασιολογίας των προτύπων που να επιτρέπει την δημιουργία νέων προτύπων από υπάρχοντα και να μπορεί να υποστηρίξει κάποιο συμπερασματικό μηχανισμό.• Να διατηρείται η σχέση μεταξύ προτύπων και δεδομένων και η πληροφορία αυτή να είναι διαθέσιμη στον χρήστη. Ο χρήστης να μπορεί να μετακινείται εύκολα από τον χώρο των προτύπων στο χώρο των δεδομένων. • Να υπάρχει αποδοτική λύση στις προκλήσεις της υλοποίησης και κυρίως να υπάρχει αποδοτικός μηχανισμός για την κίνηση μεταξύ προτύπων και δεδομένων. Συνοψίζοντας, στην παρούσα διατριβή του προσεγγίζεται το πρόβλημα της διαχείρισης των δεδομένων από δύο διαφορετικές πλευρές: από την μία προτείνεται μία αρχιτεκτονική και ένα λογικό μοντέλο για την ενσωμάτωση του χειρισμού των προτύπων στα ΣΔΒΔ και από την άλλη προτείνονται μέθοδοι που επεκτείνουν την τεχνολογία των βάσεων δεδομένων στην αποτίμηση ερωτήσεων εγκλεισμού. Στην πρώτη περίπτωση περιγράφεται το μοντέλο ενός συστήματος που χειρίζεται τόσο πρότυπα όσο και δεδομένα και προσφέρεται μία εικόνα των οφελών που μπορεί να προσδώσει στον χρήστη στην εξερεύνηση πολύ μεγάλων όγκων δεδομένων. Στην δεύτερη περίπτωση αντιμετωπίζεται η πιο πρακτική διάσταση του γενικότερου προβλήματος: προτείνονται αποδοτικές λύσεις για την κίνηση από τον χώρο των προτύπων στο χώρο των δεδομένων. Όπως συνάγεται από την αρχική μοντελοποίηση του προβλήματος, η γρήγορη αποτίμηση της συσχέτισης μεταξύ προτύπων και δεδομένων, ανάγεται στη δυνατότητα να αποφασίζουμε γρήγορα για το αν κάποιο στοιχείο είναι μέλος ενός συνόλου ή όχι. Στην ουσία έχουμε το ίδιο πρόβλημα με αυτό της αποτίμησης των ερωτήσεων εγκλεισμού στα παραδοσιακά ΣΔΒΔ. Η αποδοτική αποτίμηση τέτοιων ερωτήσεων είναι ένα θέμα που δεν έχει μελετηθεί αρκετά στις βάσεις δεδομένων, καθώς η συνηθέστερη μορφή των δεδομένων είναι αυτή των αυστηρά δομημένων πλειάδων (tuples) και όχι τιμές-σύνολα (set-values). Συμπερασματικά, η συνεισφορά των δομών ευρετηρίων που προτείνονται στην διατριβή δεν περιορίζεται στις αποθήκες προτύπων, αλλά αφορά το γενικότερο πρόβλημα της αποδοτικής αποτίμησης ερωτήσεων εγκλεισμού.
περισσότερα