Περίληψη
Σήμερα, οι διαδικτυακές υπηρεσίες και εφαρμογές είναι πανταχού παρούσες και ο όγκος των δεδομένων που παράγονται και συλλέγονται είναι τεράστιος. Τα δεδομένα θεωρούνται ως μια ισχυρή πρώτη ύλη που μπορεί να επηρεάσει τις διεπιστημονικές ερευνητικές προσπάθειες, κυβερνητικές και επιχειρηματικές επιδόσεις. Αναλύοντας τα δεδομένα, κερδίζουμε γνώση και κατανόηση. Ο εντοπισμός ασυνήθιστων μοτίβων στα δεδομένα όχι μόνο βοηθά στην πρόληψη επικίνδυνων καταστάσεων αλλά και παρακολουθεί τις αλλαγές στις τάσεις όσων αναλύονται. Η διαδικασία αναγνώρισης ασυνήθιστης ή ανώμαλης συμπεριφοράς ονομάζεται ανίχνευση ανωμαλιών. Σε αυτή τη διατριβή, προτείνουμε νέους αλγόριθμους και εργαλεία για ανίχνευση ανωμαλιών με εφαρμογές σε διάφορους τομείς: (1) μέσα κοινωνικής δικτύωσης, (2) πηγές ειδήσεων, και (3) υγειονομική περίθαλψη. Οι πλατφόρμες κοινωνικών μέσων είναι μια πολύτιμη πηγή πληροφοριών. Χρειαζόμαστε τεχνικές που είναι πιο εκφραστικές όσον αφορά τα συμπεράσματα της ανάλυσης και που μας επιτρέπουν ν ...
Σήμερα, οι διαδικτυακές υπηρεσίες και εφαρμογές είναι πανταχού παρούσες και ο όγκος των δεδομένων που παράγονται και συλλέγονται είναι τεράστιος. Τα δεδομένα θεωρούνται ως μια ισχυρή πρώτη ύλη που μπορεί να επηρεάσει τις διεπιστημονικές ερευνητικές προσπάθειες, κυβερνητικές και επιχειρηματικές επιδόσεις. Αναλύοντας τα δεδομένα, κερδίζουμε γνώση και κατανόηση. Ο εντοπισμός ασυνήθιστων μοτίβων στα δεδομένα όχι μόνο βοηθά στην πρόληψη επικίνδυνων καταστάσεων αλλά και παρακολουθεί τις αλλαγές στις τάσεις όσων αναλύονται. Η διαδικασία αναγνώρισης ασυνήθιστης ή ανώμαλης συμπεριφοράς ονομάζεται ανίχνευση ανωμαλιών. Σε αυτή τη διατριβή, προτείνουμε νέους αλγόριθμους και εργαλεία για ανίχνευση ανωμαλιών με εφαρμογές σε διάφορους τομείς: (1) μέσα κοινωνικής δικτύωσης, (2) πηγές ειδήσεων, και (3) υγειονομική περίθαλψη. Οι πλατφόρμες κοινωνικών μέσων είναι μια πολύτιμη πηγή πληροφοριών. Χρειαζόμαστε τεχνικές που είναι πιο εκφραστικές όσον αφορά τα συμπεράσματα της ανάλυσης και που μας επιτρέπουν να κατανοήσουμε καλύτερα τα δεδομένα. Ορίζουμε το πρόβλημα της ανίχνευσης γεγονότων και υπο-γεγονότων και παρουσιάζουμε τεχνικές που (i) ανιχνεύουν συμβάντα από το τεράστιες ροές μηνυμάτων που δημοσιεύουν οι χρήστες και (ii) περιγράφουν και συνοψίζουν κάθε γεγονός δημιουργώντας ένα χρονοδιάγραμμα που απαρτίζεται από τα πιο σημαντικά στιγμιότυπα. Οι πύλες ειδήσεων είναι μια άλλη πηγή πληροφοριών, πιο δομημένη από τα μέσα κοινωνικής δικτύωσης, και με ένα πιο αυστηρό και περιορισμένο λεξιλόγιο. Στην εποχή μας, υπάρχει τεράστια αύξηση του αριθμού των ειδησεογραφικών πηγών που υπάρχουν και του αριθμού ημερήσιων ειδήσεων που δημοσιεύονται. Χρειαζόμαστε συστήματα σύστασης ειδήσεων και εξατομίκευσης που θα το διευκολύνουν τον αναγνώστη να λάβει μια επιμελημένη λίστα ειδήσεων. Για αυτόν τον λόγο, εμείς προτείνει μια μέθοδο για την ταξινόμηση όλων των αξιοσημείωτων ειδησεογραφικών άρθρων και τη δημιουργία ενός συστήματος για την παρακολούθηση, ανάλυση και εξαγωγή συμπερασμάτων από πολλές πηγές ειδήσεων. Τα δεδομένα της υγειονομικής περίθαλψης καθίστανται όλο και περισσότερο διαθέσιμα τα τελευταία χρόνια. Περιέχουν πλούσιες πληροφορίες που αν αξιοποιηθούν με τον σωστό τρόπο θα βελτιώσουν την υγεία των ανθρώπων. Ωστόσο, υπάρχει ένα κενό στην έρευνα καθώς οι επαγγελματίες του τομέα της υγείας γνωρίζουν καλά τις ερευνητικές ερωτήσεις και την σημασία των δεδομένων, ενώ οι επιστήμονες πληροφορικής είναι ειδικοί στην ανάλυση δεδομένων και στη δημιουργία προγνωστικών μοντέλων. Θα πρέπει λοιπόν να συνεργαστούν οι ειδικοί από αυτά τα δύο ερευνητικά πεδία για να επιτύχουμε τα καλύτερα δυνατά αποτελέσματα. Στην περίπτωσή μας, μελετάμε το πρόβλημα πρόβλεψης βρεφικής θνησιμότητας χρησιμοποιώντας δεδομένα από αρχεία πιστοποιητικών γέννησης. Εστιάζουμε σε κοινωνικοοικονομικά χαρακτηριστικά και πώς αυτά μπορούν να επηρεάσουν την προγνωστική απόδοση των μοντέλων. Κάνουμε πειράματα με ένα ευρύ φάσμα μοντέλων μηχανικής μάθησης, χρησιμοποιώντας διαφορετικούς συνδυασμούς χαρακτηριστικών. Τέλος, δείχνουμε τρόπους για να βελτιώσουμε τις λύσεις που προτείνονται σε αυτό το πρόβλημα στην βιβλιογραφία και χρησιμοποιούν μόνο δύο χαρακτηριστικά, το βάρος γέννησης και τη βαθμολογία APGAR.
περισσότερα
Περίληψη σε άλλη γλώσσα
Nowadays, online services and applications are omnipresent, and the amount of data that is being produced and collected is enormous. Data is presumed as a powerful raw material that can impact multidisciplinary research endeavors, government and business performance. By analyzing data, we gain knowledge and understanding. Detecting unusual data patterns not only helps in preventing hazardous situations but also tracks the changes in the trends of whatever is being analyzed. The process of identifying unusual or anomalous behavior is called anomaly detection. In this dissertation, we build novel algorithms and tools for anomaly detection with applications in various domains; (1) social media, (2) news sources, and (3) healthcare. Social media platforms are a valuable source of information for those that can analyze it. We need techniques that are more expressive in terms of the returned insights, and that allow us to better understand the data at hand. We define the problem of event det ...
Nowadays, online services and applications are omnipresent, and the amount of data that is being produced and collected is enormous. Data is presumed as a powerful raw material that can impact multidisciplinary research endeavors, government and business performance. By analyzing data, we gain knowledge and understanding. Detecting unusual data patterns not only helps in preventing hazardous situations but also tracks the changes in the trends of whatever is being analyzed. The process of identifying unusual or anomalous behavior is called anomaly detection. In this dissertation, we build novel algorithms and tools for anomaly detection with applications in various domains; (1) social media, (2) news sources, and (3) healthcare. Social media platforms are a valuable source of information for those that can analyze it. We need techniques that are more expressive in terms of the returned insights, and that allow us to better understand the data at hand. We define the problem of event detection and delineation (to sub-events) and we present techniques that (i) detect events from the massive streams of user generated posts, and (ii) describe and summarize each event by creating a timeline of its important highlights. News portals are another source of information, more structured than social media, and with a more strict and limited vocabulary. Nowadays, there is a huge increase in the number of news sources that exist and the number of daily news stories that are being produced. We are in need of news recommendation and personalization systems that will make it easier for the reader to receive a curated list of news. For this reason, we propose a method to rank all notable news stories and build a framework to monitor, analyze and extract insights from multiple news sources. Healthcare data is becoming more and more available in the last few years. They contain rich information that if used in the right way, it can improve people's health. However, there is a gap in research as medical practitioners know the domain and the research questions, while computer scientists are experts in analyzing data and building predictive models. As a result, we need to bring together these two research fields in order to achieve the best possible outcomes. In our case, we study the problem of infant mortality prediction using data from birth certificate records. Our focus on socio-economic factors and how those can affect the predictive performance. We characterize a wide range of machine learning models trained on a variety of features sets extracted from the available input data. We show ways to improve the current state-of-the-art that is only utilizing two features, birth weight and APGAR score.
περισσότερα