Περίληψη
Η παρούσα διδακτορική διατριβή ασχολήθηκε με την εμπεριστατωμένη μελέτη και εφαρμογή των μεθόδων και στατιστικών τεχνικών της μετα-ανάλυσης, σε δεδομένα υψηλής απόδοσης, και πιο συγκεκριμένα σε δεδομένα γονιδιακής έκφρασης από πειράματα μικροσυστοιχιών. Η μετα-ανάλυση είναι ένα πολύτιμο εργαλείο για τη σύνθεση των στοιχείων σε ένα ευρύ φάσμα μελετών, συμπεριλαμβανομένων των πειραμάτων υψηλής απόδοσης, όπως μελέτες συσχέτισης ολόκληρου του γονιδιώματος (GWAS) και μελέτες γονιδιακής έκφρασης. Ένα από τα θέματα με τα οποία ασχολήθηκε η παρούσα διατριβή ήταν η διερεύνηση βέλτιστων πρακτικών στη μεθοδολογία μετα-ανάλυσης σε δεδομένα μικροσυστοιχιών. Πραγματοποιήθηκαν διάφοροι έλεγχοι, σε σχετικά μικρά καθώς και σε μεγαλύτερα δοκιμαστικά τυχαία σύνολα δεδομένων (99 και 462 ατόμων αντίστοιχα), χρησιμοποιώντας την παλιά αλλά κλασσική μέθοδο της διόρθωσης του Hedges και διερευνώντας την εμφάνιση καλύτερων ή όχι αποτελεσμάτων με χρήση της μεθόδου αναδειγματοληψίας Bootstrap (είτε με 200 είτε με ...
Η παρούσα διδακτορική διατριβή ασχολήθηκε με την εμπεριστατωμένη μελέτη και εφαρμογή των μεθόδων και στατιστικών τεχνικών της μετα-ανάλυσης, σε δεδομένα υψηλής απόδοσης, και πιο συγκεκριμένα σε δεδομένα γονιδιακής έκφρασης από πειράματα μικροσυστοιχιών. Η μετα-ανάλυση είναι ένα πολύτιμο εργαλείο για τη σύνθεση των στοιχείων σε ένα ευρύ φάσμα μελετών, συμπεριλαμβανομένων των πειραμάτων υψηλής απόδοσης, όπως μελέτες συσχέτισης ολόκληρου του γονιδιώματος (GWAS) και μελέτες γονιδιακής έκφρασης. Ένα από τα θέματα με τα οποία ασχολήθηκε η παρούσα διατριβή ήταν η διερεύνηση βέλτιστων πρακτικών στη μεθοδολογία μετα-ανάλυσης σε δεδομένα μικροσυστοιχιών. Πραγματοποιήθηκαν διάφοροι έλεγχοι, σε σχετικά μικρά καθώς και σε μεγαλύτερα δοκιμαστικά τυχαία σύνολα δεδομένων (99 και 462 ατόμων αντίστοιχα), χρησιμοποιώντας την παλιά αλλά κλασσική μέθοδο της διόρθωσης του Hedges και διερευνώντας την εμφάνιση καλύτερων ή όχι αποτελεσμάτων με χρήση της μεθόδου αναδειγματοληψίας Bootstrap (είτε με 200 είτε με 500 επαναλήψεις). Τα αποτελέσματα των ελέγχων έδειξαν ότι η χρήση της διόρθωσης του Hedges είναι σχεδόν αναγκαία σε μικρά σύνολα δεδομένων. Ακόμη διερευνήθηκε εάν όντως ισχύει ότι η διόρθωση με τη μέθοδο αναδειγματοληψίας Bootstrap (200 επαναλήψεων) δίνει καλύτερα αποτελέσματα σε σχέση μόνο με την διόρθωση του Hedges, κάτι που εξακριβώθηκε και στην παρούσα μελέτη, ωστόσο χρειάζεται πολύ περισσότερο χρόνο. Επιπλέον παρατηρήθηκε ότι η χρήση της μεθόδου αναδειγματοληψίας Bootstrap των 200 επαναλήψεων επιστρέφει σχεδόν ίδιας στατιστικής ισχύος και χρησιμότητας αποτελέσματα με την πολύ πιο χρονοβόρα μεθοδολογία αναδειγματοληψίας Bootstrap των 500 επαναλήψεων (το οποίο θεωρείται στην βιβλιογραφία ότι επιστέφει πολύ αξιόλογα αποτελέσματα). Στα πλαίσια διερεύνησης διαφόρων πολυπαραγοντικών ασθενειών πραγματοποιήθηκε μετα-ανάλυση γονιδιακών δεδομένων από πειράματα μικροσυστοιχιών σχετικά με την ασθένεια της προεκλαμψίας, ώστε να ανακαλυφθούν διαφορικά εκφραζόμενα γονίδια με σκοπό να βρεθούν και να ταυτοποιηθούν μηχανισμοί οι οποίοι θα μπορούσαν να ευθύνονται για την εμφάνιση της νόσου καθώς και για τους διαφορετικούς υποτύπους της. Με βάση αυτή την κατεύθυνση διερευνήθηκαν οι βάσεις δεδομένων Pubmed και GEO για την ύπαρξη δεδομένων γονιδιακής έκφρασης σε δείγματα πλακούντα από μελέτες ασθενών-μαρτύρων. Πραγματοποιήθηκε μετα-ανάλυση με την οποία βρέθηκαν 629 στατιστικώς σημαντικά διαφορικά εκφραζόμενα γονίδια να συσχετίζονται με την προεκλαμψία σε επίπεδο σημαντικότητας 1%, τα οποία αναλύθηκαν περαιτέρω με εργαλεία Βιοπληροφορικής και προέκυψαν τα δίκτυα αλληλεπίδρασης και τα βιοχημικά μονοπάτια στα οποία συμμετέχουν. Η ανάλυση του δικτύου έδειξε λίγα γονίδια, πολύ διασυνδεδεμένα, τα οποία εμπλέκονται στην φυσική ανοσία και σε μονοπάτια μεταγωγής σήματος, ενδεικτικά χαρακτηριστικά μιας πολύπλευρης νόσου με αιτιολογική ετερογένεια. Η ανάλυση των βιοχημικών μονοπατιών αποκάλυψε ότι αυτά τα διαφορικά εκφραζόμενα γονίδια συμμετέχουν κυρίως στον μεταβολισμό υδατανθράκων, αμινοξέων και πυριμιδίνης, στο σύστημα του κιρκαδικού ρολογιού και σε μονοπάτια μεταγωγής σήματος. Όπως αναφέρθηκε η μετα-ανάλυση είναι ισχυρό εργαλείο στη σύνθεση ερευνητικών μελετών. Υπάρχουν ωστόσο καταστάσεις στις οποίες έχουμε είτε πολλαπλά αποτελέσματα είτε πολλαπλές θεραπείες, σε αυτές είναι αναγκαίο ένα πολυπαραγοντικό μοντέλο μετα-ανάλυσης, το οποίο θα εκτελεί κοινή μοντελοποίηση των διαφόρων ποσοτήτων ενδιαφέροντος όπου θα προσφέρει σημαντικά πλεονεκτήματα, όπως την αύξηση της στατιστικής ισχύος και τη δυνατότητα διεξαγωγής συνολικών ελέγχων. Για τους λόγους αυτούς προσαρμόσαμε τη μεθοδολογία της πολυμεταβλητής μετα-ανάλυσης ώστε να εφαρμόζεται και σε δεδομένα γονιδιακής έκφρασης, σε ένα εύκολο και αξιόπιστο λογισμικού, με τη χρήση του στατιστικού πακέτου Stata. Η υλοποίηση της μεθόδου είναι διαθέσιμη στο ευρύ κοινό στην ιστοσελίδα www.compgen.org/tools/multivariate-microarrays. Τέλος χρησιμοποιώντας το προαναφερθέν λογισμικό πραγματοποιήθηκε πολυμεταβλητή μετα-ανάλυση σε δεδομένα γονιδιακών δεδομένων από πειράματα μικροσυστοιχιών σχετικά με την νόσο του Crohn και την ελκώδη κολίτιδα, οι οποίες είναι οι κύριες μορφές της Ιδιοπαθούς Φλεγμονώδους Νόσου του Εντέρου. Οι δύο ασθένειες διαθέτουν κοινά συμπτώματα αλλά διαφέρουν στη θέση και την έκταση της φλεγμονής καθώς και στις επιπλοκές τους. 249 διαφορικά εκφραζόμενα γονίδια βρέθηκαν, από τη μετα-ανάλυση, στατιστικώς σημαντικά σχετιζόμενα με τη νόσο του Crohn και 38 με την ελκώδη κολίτιδα σε επίπεδο σημαντικότητας 1%. 20 από τα διαφορικά εκφραζόμενα γονίδια ήταν κοινά και στις δύο ασθένειες. Ένας συνολικός έλεγχος έδειξε 260 διαφορικά εκφραζόμενα γονίδια σχετιζόμενα με την Ιδιοπαθή Φλεγμονώδη Νόσο του Εντέρου, εκ των οποίων 53 δεν θεωρήθηκαν σημαντικά σε καμία από τις δύο ασθένειες. Ακόμη ανακαλύφθηκαν στατιστικώς σημαντικά βιοχημικά μονοπάτια, με χρήση βιοπληροφορικών εργαλείων, τα οποία ενδεχομένως να εμπλέκονται στην παθογένεση της Ιδιοπαθούς Φλεγμονώδους Νόσου του Εντέρου. Χαρακτηριστικά είναι το μονοπάτι των μεταγραφικών παραγόντων των JAK/STAT και το σηματοδοτικό μονοπάτι της ιντερφερόνης γ. Επιπροσθέτως γονίδια τα οποία συμμετέχουν στην κυτταρική διαίρεση, στην απόπτωση και στην καρκινογέννεση, βρέθηκαν στατιστικώς σημαντικά. Μεταξύ άλλων τα γονίδια BCAT2 και GZMB είναι δύο ενδιαφέροντα νέα διαφορικά εκφραζόμενα γονίδια τα οποία αξίζουν επικείμενη μελέτη σε πειραματικά μοντέλα.
περισσότερα
Περίληψη σε άλλη γλώσσα
This PhD thesis dealt with meta-analysis methodologies and its statistical techniques and applications in high-throughput experiments, and in particular on gene expression data from microarray experiments. Meta-analysis is a valuable tool for the synthesis of evidence across a wide range of study types including high-throughput experiments such as genome-wide association studies (GWAS) and gene expression studies. One of the issues that this thesis dealt with, was the investigation of optimal meta-analysis techniques. Various tests were performed on a relatively small and a larger random testing dataset (99 and 462 individuals respectively) using the old but classic method of Hedges correction and investigating whether better results can be obtained using the resampling method Bootstrap (of 200 or 500 repetitions). The results showed that the use of the Hedges correction is almost always necessary in small datasets. It was also investigated whether Bootstrap (200 repetitions) correctio ...
This PhD thesis dealt with meta-analysis methodologies and its statistical techniques and applications in high-throughput experiments, and in particular on gene expression data from microarray experiments. Meta-analysis is a valuable tool for the synthesis of evidence across a wide range of study types including high-throughput experiments such as genome-wide association studies (GWAS) and gene expression studies. One of the issues that this thesis dealt with, was the investigation of optimal meta-analysis techniques. Various tests were performed on a relatively small and a larger random testing dataset (99 and 462 individuals respectively) using the old but classic method of Hedges correction and investigating whether better results can be obtained using the resampling method Bootstrap (of 200 or 500 repetitions). The results showed that the use of the Hedges correction is almost always necessary in small datasets. It was also investigated whether Bootstrap (200 repetitions) correction is giving better results, as being told, than using the Hedges correction only. Which was confirmed in the present study, however, it takes much longer. Point was also made that using 200 Bootstrap repetitions gives almost the same results in statistical power and utility with the time consuming 500 Bootstrap repetitions (which is considered more reliable in the literature). In the context of investigating various multifactorial diseases meta-analysis of gene expression data from microarray experiments related to preeclampsia was performed; to identify differentially expressed genes, to help elucidate the identification of the disease etiological mechanisms and even help deciphering differentiating mechanisms underlying the different subtypes of preeclampsia. According to this the databases Pubmed and GEO were searched for gene expression data on placental samples from case-control studies. Meta-analysis was performed, and 629 statistically significant differentially expressed genes were identified to be associated with preeclampsia at an FDR 1%. The identified differentially expressed genes were further analyzed with bioinformatics tools and we retrieve interaction networks and overrepresented biochemical pathways, in which they are taking part in. Network analysis showed few, highly interconnected, genes involved in innate immunity and signal transduction pathways which is indicative of a multifaceted disease with etiological heterogeneity. Over-representation analysis revealed that these genes participate mainly in carbohydrates, amino acids and pyrimidine metabolism, circadian clock system and signal transduction pathways. As noted, meta-analysis is a powerful tool for the synthesis of research studies. There are situations though, in which we have multiple outcomes or multiple treatments, in which multivariate meta-analysis framework which performs a joint modeling of the different quantities of interest could offer important advantages, such as increasing statistical power and allowing performing global tests. For these reasons, we adapted the multivariate meta-analysis methodology so that it could be applied in gene expression data, and we create an easy and reliable software, using the statistical package Stata. The implementation of the method is available at www.compgen.org/tools/multivariate-microarrays. Last but not least using the aforementioned software we performed a multivariate meta-analysis of microarray data in Crohn’s disease and ulcerative colitis, which are the main forms of Inflammatory Bowel Disease. They share similar symptoms but differ in the location and extent of inflammation and their complications. 249 differentially expressed genes were identified to be associated with Crohn’s disease and 38 with ulcerative colitis at an FDR of 1%. 20 of the differentially expressed genes were common to both diseases. A global test identified 260 differentially expressed genes associated with inflammatory bowel disease, 53 of which were not found in any of the disorders. With the use of bioinformatics methods important molecular pathways were identified, which could be implicated in the pathogenesis of inflammatory bowel disease, such as the JAK/STAT and interferon-gamma signaling pathways. Additionally genes involved in cell adhesion, apoptosis and carcinogenesis were found to be statistically important. Among others BCAT1 and GZMB are interesting novel differentially expressed genes that deserve further investigation in experimental models.
περισσότερα