Περίληψη
Η παρούσα Διδακτορική διατριβή περιγράφει έρευνα που διεξήχθη στην Ιατρική Σχολή του Πανεπιστημίου Κρήτης υπό την επίβλεψη του Καθηγητή Χαράλαμπου Σαββάκη και σε συνεργασία με τον Λέκτορα Ιωάννη Ηλιόπουλο. Η διατριβή αποτελείται από 2 ξεχωριστά μέρη. Το πρώτο μέρος περιγράφει μια μέθοδο εξόρυξης κειμένου που ομαδοποιεί περιλήψεις (abstracts) της PubMed σε εννοιολογικά σαφείς ομάδες (clusters) και το δεύτερο μέρος περιγράφει την συγκριτική ανάλυση μεταξύ δύο βακτηριακών γονιδιωμάτων.Μέρος 1 : bioTextQuestΤο bioTextQuest είναι ένα διαδικτυακό εργαλείο που επιτρέπει μια εξειδικευμένη αναζήτηση στην PubMed. Οι περιλήψεις (που είναι τοπικά αποθηκευμένες σε βάση δεδομένων του bioTextQuest) συλλέγονται και αναλύονται αυτομάτως. Η ανάλυση πραγματοποιείται στα ακόλουθα στάδια:1. Προκαθορισμένες λέξεις (stoplist) εξαιρούνται από τις περιλήψεις.2. Κάθε λέξη της κάθε περίληψης σταθμίζεται (με βάση ένα λεξικό), χρησιμοποιώντας μια παραλλαγή ενός εξειδικευμένου αλγορίθμου που ονομάζεται TF.IDF. Οι λ ...
Η παρούσα Διδακτορική διατριβή περιγράφει έρευνα που διεξήχθη στην Ιατρική Σχολή του Πανεπιστημίου Κρήτης υπό την επίβλεψη του Καθηγητή Χαράλαμπου Σαββάκη και σε συνεργασία με τον Λέκτορα Ιωάννη Ηλιόπουλο. Η διατριβή αποτελείται από 2 ξεχωριστά μέρη. Το πρώτο μέρος περιγράφει μια μέθοδο εξόρυξης κειμένου που ομαδοποιεί περιλήψεις (abstracts) της PubMed σε εννοιολογικά σαφείς ομάδες (clusters) και το δεύτερο μέρος περιγράφει την συγκριτική ανάλυση μεταξύ δύο βακτηριακών γονιδιωμάτων.Μέρος 1 : bioTextQuestΤο bioTextQuest είναι ένα διαδικτυακό εργαλείο που επιτρέπει μια εξειδικευμένη αναζήτηση στην PubMed. Οι περιλήψεις (που είναι τοπικά αποθηκευμένες σε βάση δεδομένων του bioTextQuest) συλλέγονται και αναλύονται αυτομάτως. Η ανάλυση πραγματοποιείται στα ακόλουθα στάδια:1. Προκαθορισμένες λέξεις (stoplist) εξαιρούνται από τις περιλήψεις.2. Κάθε λέξη της κάθε περίληψης σταθμίζεται (με βάση ένα λεξικό), χρησιμοποιώντας μια παραλλαγή ενός εξειδικευμένου αλγορίθμου που ονομάζεται TF.IDF. Οι λιγότερο “σημαντικοί” όροι αποκλείονται . Όροι με υψηλό TF.IDF και όροι που δεν εμφανίζονται στο λεξικό αποθηκεύονται.3. Οι εναπομένοντες όροι απαρτίζουν τη Li.S.T. (List of Significant Terms - Κατάλογος Σημαντικών Όρων) .4. Με βάση τη Li.S.T., κάθε περίληψη αντιπροσωπεύεται από ένα διάνυσμα.5. Μια ποικιλία αλγόριθμων ομαδοποίησης χρησιμοποιούν τα διανύσματα και τα ομαδοποιούν σε Ομάδες .6. Κάθε Ομάδα εμπλουτίζεται με τη χρήση της Gene Ontology (επισήμανση μοριακής λειτουργείας, κυτταρικού διαμερίσματος και βιολογικής διαδικασίας) και της Reflect (επισήμανση πρωτεϊνών) .7. Κάθε Ομάδα παρουσιάζεται στους χρήστες με τη χρήση των αντίστοιχων Σημαντικών Όρων σε μορφή Tag Cloud το οποίο καταδεικνύει τη συμβολή του κάθε όρου στην Ομάδα.Οι ομάδες μπορούν να ρυθμιστούν με τη χρήση ορισμένων παραμέτρων και να μελετηθούν καλύτερα με τη βοήθεια του λειτουργικού εμπλουτισμού τους. Η ομαδοποίηση μπορεί να βοηθήσει στην ταχεία επόπτευση ενός επιστημονικού πεδίου, την ανακάλυψη νέων εννοιών κ.λπ.Μέρος 2 : Γονιδιακή ΚοινωνικοποίησηΠραγματοποιήσαμε γονιδιωματική σύγκριση μεταξύ δύο βακτηριακών γονιδιωμάτων (Salmonella enterica typhimurium και Escherichia coli), εστιάζοντας στη διατήρηση της γονιδιακής σειράς. Μελετήσαμε τη συνταινία σε συνδυασμό με το περιεχόμενο σε GC, το γονιδιακό διπλασιασμό, τα απαραίτητα γονίδια, τη σίγαση γονιδίων, την οριζόντια μεταφορά γονιδίων και τις συνώνυμες και μη συνώνυμες νουκλεοτιδικές μεταλλαγές.Ανακαλύψαμε ότι τα γονίδια που διατηρούν τη γονιδιακή θέση τους τείνουν να είναι πιο συντηρημένα, έχουν υψηλότερη περιεκτικότητα σε GC και χαμηλότερη αναλογία μη συνώνυμων προς συνώνυμες μεταλλαγές. Γονίδια που χάνουν την αρχική τους θέση τείνουν να σιγάζονται. Επίσης, τα διπλασιασμένα γονίδια ακολουθούν διαφορετικές εξελικτικές πορείες ανάλογα με το κατά πόσο διατηρούν την αρχική τους θέση ή όχι: αντίγραφα που παραμένουν στην αρχική τους θέση τείνουν να είναι περισσότερο συντηρημένα από αυτά που εγκαταλείπουν τη γονιδιωματική γειτονιά τους. Τα τελευταία, τείνουν να συσσωρεύουν περισσότερες AT μεταλλαγές. Επιπλέον, τα απαραίτητα γονίδια τείνουν να παραμένουν στην αρχική τους θέση στο γονιδίωμα.
περισσότερα
Περίληψη σε άλλη γλώσσα
This thesis describes research carried out at the Medical School of the University of Crete under the supervision of Professor Charalambos Savakis and in collaboration with Dr Ioannis Iliopoulos. The thesis comprises of 2 distinct parts. The first part describes a text mining method that groups PubMed abstracts in meaningful clusters and the second part describes a whole genome comparison analysis between two bacterial genomes.Part 1: bioTextQuestbioTextQuest is an online tool that allows the user to perform a specialized keyword search in PubMed. The abstracts (that are locally stored in the bioTextQuest Database) are collected and analyzed. The analysis is performed in the following stages:1. Various predefined words (stoplist) are excluded from the abstracts.2. Each word of each abstract is weighted for its importance (based on a dictionary) using a variation of a specialized weight algorithm called TF.IDF. Less ‘important’ terms are pruned. Terms with high TF.IDF and terms not appe ...
This thesis describes research carried out at the Medical School of the University of Crete under the supervision of Professor Charalambos Savakis and in collaboration with Dr Ioannis Iliopoulos. The thesis comprises of 2 distinct parts. The first part describes a text mining method that groups PubMed abstracts in meaningful clusters and the second part describes a whole genome comparison analysis between two bacterial genomes.Part 1: bioTextQuestbioTextQuest is an online tool that allows the user to perform a specialized keyword search in PubMed. The abstracts (that are locally stored in the bioTextQuest Database) are collected and analyzed. The analysis is performed in the following stages:1. Various predefined words (stoplist) are excluded from the abstracts.2. Each word of each abstract is weighted for its importance (based on a dictionary) using a variation of a specialized weight algorithm called TF.IDF. Less ‘important’ terms are pruned. Terms with high TF.IDF and terms not appearing in the dictionary pass through.3. Remaining terms comprise the Li.S.T. (List of Significant Terms).4. Based on Li.S.T., each abstract is represented by a vector.5. Various clustering algorithms act on the vectors and group them in clusters.6. Each cluster is annotated using Gene Ontology (molecular function, cellular compartment and biological process annotation) and Reflect (protein annotation).7. Each Cluster is presented to users using the respective Significant Terms in a Tag Cloud format that represents the contribution of each term in the corresponding cluster.The clusters can be altered by adjusting several parameters and can be better studied through the aid of their functional enrichment. Clustering can help in quickly assessing a scientific field, concept discovery etc.Part 2: Gene SocializationWe performed a genome-wide comparison of two bacterial genomes (Salmonella enterica typhimurium and Escherichia coli) focusing on gene order conservation. We study synteny in conjunction with GC content, gene duplication, gene essentiality, gene silencing, horizontal gene transfer and synonymous vs. non-synonymous single-point mutations.We found out that genes that conserve their gene order tend to be more conserved, have higher GC content and lower non-synonymous/synonymous ratio. Genes that lose their original position tend to be silenced. Also, duplicated genes follow different evolutionary paths depending on whether they conserve their original position or not: duplicates that remain in their position tend to be more conserved than the ones that leave their genomic neighborhood. The latter tend to accumulate more AT mutations. Additionally, essential genes tend to remain in their original genetic location.
περισσότερα