Περίληψη
Η ανάλυση της πρωτοταγούς δομής του DNA και η επεξεργασία των γενετικών ακολουθιών είναι ένας γρήγορα αναπτυσσόμενος τομέας της σύγχρονης έρευνας με σκοπό την αναγνώριση, πρόβλεψη και κατανόηση της δομής, της εξέλιξης και της λειτουργικότητας του DNA. Στα πλαίσια αυτά κινήθηκε και η παρούσα διατριβή, η οποία επικεντρώθηκε στη στατιστική ανάλυση του DNA σε διάφορες κλίμακες ανάλυσης. Η μελέτη έγινε (α) σε επίπεδο βάσεων, χρησιμοποιώντας ολιγονουκλεοτίδια μικρού μήκους για να υπολογισθεί το στατιστικό βάρος κάθε μίας βάσης στο χρωμόσωμα ξεχωριστά, (β) σε επίπεδο χρωμοσωμάτων, υπολογίζοντας την κατανομή ολιγονουκλεοτιδίων σε ένα χρωμόσωμα και (γ) σε επίπεδο πληθυσμού υπολογίζοντας την κατανομή επαναλαμβανόμενων αλληλουχιών μικρού μήκους.Η ανάλυση σε επίπεδο βάσεων επικεντρώθηκε στη χαρτογράφηση χρωμοσωμάτων ανάλογα με τιςστατιστικές τους ιδιότητες. Κατασκευάστηκε ένας αλγόριθμος (SHMap) υπολογισμού στατιστικάδιαφορετικών περιοχών του DNA, ανάλογα με τις αποστάσεις μεταξύ δύο διαδοχικών εμ ...
Η ανάλυση της πρωτοταγούς δομής του DNA και η επεξεργασία των γενετικών ακολουθιών είναι ένας γρήγορα αναπτυσσόμενος τομέας της σύγχρονης έρευνας με σκοπό την αναγνώριση, πρόβλεψη και κατανόηση της δομής, της εξέλιξης και της λειτουργικότητας του DNA. Στα πλαίσια αυτά κινήθηκε και η παρούσα διατριβή, η οποία επικεντρώθηκε στη στατιστική ανάλυση του DNA σε διάφορες κλίμακες ανάλυσης. Η μελέτη έγινε (α) σε επίπεδο βάσεων, χρησιμοποιώντας ολιγονουκλεοτίδια μικρού μήκους για να υπολογισθεί το στατιστικό βάρος κάθε μίας βάσης στο χρωμόσωμα ξεχωριστά, (β) σε επίπεδο χρωμοσωμάτων, υπολογίζοντας την κατανομή ολιγονουκλεοτιδίων σε ένα χρωμόσωμα και (γ) σε επίπεδο πληθυσμού υπολογίζοντας την κατανομή επαναλαμβανόμενων αλληλουχιών μικρού μήκους.Η ανάλυση σε επίπεδο βάσεων επικεντρώθηκε στη χαρτογράφηση χρωμοσωμάτων ανάλογα με τιςστατιστικές τους ιδιότητες. Κατασκευάστηκε ένας αλγόριθμος (SHMap) υπολογισμού στατιστικάδιαφορετικών περιοχών του DNA, ανάλογα με τις αποστάσεις μεταξύ δύο διαδοχικών εμφανίσεων του ίδιου ολιγονουκλεοτιδίου. Η εφαρμογή (ViewGenD) υλοποιήθηκε ως κατανεμημένη. Προκειμένου να επιτευχθεί επιτάχυνση της εκτέλεσης, χρησιμοποιήθηκαν τεχνολογίες παραλληλοποίησης (GRID/MPI) οι οποίες μείωσαν σημαντικά το χρόνο εκτέλεσης.Η ανάλυση σε επίπεδο χρωμοσωμάτων συνίσταται στην κατασκευή αλγορίθμων (gsearch) για τον έλεγχο συσχετίσεων μακράς ή πεπερασμένης εμβέλειας μεταξύ διαφορετικών βάσεων στο ίδιο χρωμόσωμα. Το ενδιαφέρον επικεντρώθηκε στη στατιστική επεξεργασία ολιγονουκλεοτιδίων σε χρωμοσώματα εξελικτικά νεότερων οργανισμών. Διαπιστώθηκε πως τα ολιγόνουκλεοτίδια που φέρουν την «υπογραφή» κάποιας συντηρητικής ακολουθίας, ακολουθούν κατανομή νόμου δύναμης, σε αντίθεση με τα υπόλοιπα ολιγόνου κλεοτίδια που ακολουθούν κατανομή βραχείας εμβέλειας. Χρησιμοποιώντας ανάλυση δύο μεταβλητών, κατασκευάσθηκε ένας αλγόριθμος (cfit) με τη βοήθεια του οποίου διαπιστώσαμε πως στα ανώτερα χορδωτά τα ολιγονουκλεοτίδια παρουσιάζουν φαινόμενο συσσωμάτωσης (clustering), ενώ στους οργανισμούς που απέχουν εξελικτικά σημαντικά από τα θηλαστικά και τα πτηνά δεν είναι προφανής τέτοια συσσωμάτωση.Τέλος, έγινε ανάλυση σε επίπεδο πληθυσμών, όπου υλοποιήθηκε μία μέθοδος (STRStat) στατιστικήςμελέτης Επαναλαμβανόμενων Ακολουθιών Μικρού Μήκους (STR). Δημιουργήθηκε μία βάση δεδομένων με τις πληροφορίες αυτές. Έγινε υπολογισμός κατανομών των STR, έλεγχος της βάσης αυτής με διάφορους στατιστικούς δείκτες και αντιπαραβολή με αντίστοιχες βάσεις δεδομένων από τη βιβλιογραφία.
περισσότερα
Περίληψη σε άλλη γλώσσα
Analysis of DNA sequences can distinguish areas within the genome according to their characteristics and recognize or forecast the functionality of such areas. Following this approach, the present thesis focuses on the statistical analysis of DNA sequences at different scales: (a) at the DNA base level, by using oligonucleotides to calculate statistical properties, (b) at the chromosomal level, by calculating the oligonucleotide distributions inside a chromosome and characterizing their behavior throughout the chromosome and (c) at the population level, by calculating statistical attributes of DNA areas, and creating a Small Tandem Repeats (STR) database.Base level analysis consists of visualizing DNA areas, and calculating statistical parameters. A new algorithm (SHMap) has been developed, which maps different regions of DNA, depending on the distances between two successive appearances of the same oligonucleotide. To facilitate this analysis, a distributed application has been built ...
Analysis of DNA sequences can distinguish areas within the genome according to their characteristics and recognize or forecast the functionality of such areas. Following this approach, the present thesis focuses on the statistical analysis of DNA sequences at different scales: (a) at the DNA base level, by using oligonucleotides to calculate statistical properties, (b) at the chromosomal level, by calculating the oligonucleotide distributions inside a chromosome and characterizing their behavior throughout the chromosome and (c) at the population level, by calculating statistical attributes of DNA areas, and creating a Small Tandem Repeats (STR) database.Base level analysis consists of visualizing DNA areas, and calculating statistical parameters. A new algorithm (SHMap) has been developed, which maps different regions of DNA, depending on the distances between two successive appearances of the same oligonucleotide. To facilitate this analysis, a distributed application has been built and parallelization technologies (GRID/MPI) have been applied to dramatically decrease its execution time.Analysis at the chromosomal level focused on developing algorithms (gsearch) to calculate short and long range correlations between different base pairs within a chromosome. We have analyzed the statistical properties of distances between successive appearances of oligonucleotides in chromosomes of evolutionary newer organisms. We have calculated, among others, the critical exponent values and observed that all oligonucleotides bearing consensus promoter signatures follow power-law distributions. In contrast, sequences with unknown biological meaning tend to follow short-range distributions. We mapped oligonucleotides according to the parameters that define their distribution curve. We have found that oligonucleotides tend to cluster in higher Chordata. Oligonucleotides that include the binucleotide CG cluster together, away from all the others. In organisms evolutionary remote from mammals and birds this tendency was not obvious.Finally, our analysis focused at the population level. We implemented a method (STRStat) for the statistical manipulation of Short tandem Repeats (STR). The analysis was performed in a human population and a database was constructed to host this information. We evaluated this information using various statistical indexes, calculated the distributions of various STRs and compared our results to the bibliography.
περισσότερα