Περίληψη
Η συγκεκριμένη διδακτορική διατριβή αφορά στην εφαρμογή βιοπληροφορικών τεχνικών και αλγορίθμων μηχανικής μάθησης με σκοπό την ανεύρεση διαγνωστικών, προγνωστικών και προβλεπτικών – ως προς την απόκριση στη θεραπεία – βιοδεικτών για τον καρκίνο της ουροδόχου κύστης. Ο καρκίνος της ουροδόχου κύστης αποτελεί μία ετερογενή ασθένεια με μεγάλη επίπτωση και επιπολασμό παγκοσμίως, η οποία ευθύνεται για σημαντική νοσηρότητα και θνητότητα. Στο πλαίσιο αυτής της εργασίας, πραγματοποιήθηκε μια συστηματική αναζήτηση η οποία συγκέντρωσε όλα τα δεδομένα γονιδιακής έκφρασης από μικροσυστοιχίες DNA που έχουν καταχωρηθεί στη βάση δεδομένων Gene Expression Omnibus (GEO) του Εθνικoύ Κέντρου Πληροφοριών Βιοτεχνολογίας (NCBI) των Η.Π.Α. και αφορούσαν στη μελέτη και σύγκριση υγιών και καρκινικών ιστών για τη συγκεκριμένη ασθένεια. Από τη συστηματική ανασκόπηση εντοπίστηκαν 18 σύνολα δεδομένων που πληρούσαν τα κριτήρια της αναζήτησης και τα οποία συμπεριλήφθηκαν στην ενοποιητική μετα-ανάλυση. Για τα σύνολα α ...
Η συγκεκριμένη διδακτορική διατριβή αφορά στην εφαρμογή βιοπληροφορικών τεχνικών και αλγορίθμων μηχανικής μάθησης με σκοπό την ανεύρεση διαγνωστικών, προγνωστικών και προβλεπτικών – ως προς την απόκριση στη θεραπεία – βιοδεικτών για τον καρκίνο της ουροδόχου κύστης. Ο καρκίνος της ουροδόχου κύστης αποτελεί μία ετερογενή ασθένεια με μεγάλη επίπτωση και επιπολασμό παγκοσμίως, η οποία ευθύνεται για σημαντική νοσηρότητα και θνητότητα. Στο πλαίσιο αυτής της εργασίας, πραγματοποιήθηκε μια συστηματική αναζήτηση η οποία συγκέντρωσε όλα τα δεδομένα γονιδιακής έκφρασης από μικροσυστοιχίες DNA που έχουν καταχωρηθεί στη βάση δεδομένων Gene Expression Omnibus (GEO) του Εθνικoύ Κέντρου Πληροφοριών Βιοτεχνολογίας (NCBI) των Η.Π.Α. και αφορούσαν στη μελέτη και σύγκριση υγιών και καρκινικών ιστών για τη συγκεκριμένη ασθένεια. Από τη συστηματική ανασκόπηση εντοπίστηκαν 18 σύνολα δεδομένων που πληρούσαν τα κριτήρια της αναζήτησης και τα οποία συμπεριλήφθηκαν στην ενοποιητική μετα-ανάλυση. Για τα σύνολα αυτά, λήφθηκαν τα πρωτογενή δεδομένα, προ-επεξεργάστηκαν ανάλογα με τον τύπο της μικροσυστοιχίας και, αφού ελέγχθηκαν ποιοτικά, ενσωματώθηκαν, έπειτα από κανονικοποίηση, σε ένα ενοποιημένο μετα-σύνολο δεδομένων. Το ενοποιημένο αυτό μετα-σύνολο δεδομένων χρησιμοποιήθηκε για τον προσδιορισμό των διαφορικά εκφραζόμενων γονιδίων μεταξύ των υγιών και των καρκινικών δειγμάτων. Έπειτα, πραγματοποιήθηκε η ανάλυση του δικτύου των πρωτεϊνών που παράγονται από αυτά τα γονίδια και ανιχνεύθηκαν τα σημαντικά γονίδια – κόμβοι του δικτύου. Ακόμη, εφαρμόστηκε η ανάλυση του δικτύου της σταθμισμένης γονιδιακής συνέκφρασης, η οποία αποτελεί μία μη επιβλεπόμενη τεχνική, και ανιχνεύθηκαν τα γονίδια – κόμβοι, τα οποία παρουσίαζαν μεγάλη συσχέτιση με το φαινότυπο των δειγμάτων. Στη συνέχεια, εντοπίστηκαν τα κοινά γονίδια – κόμβοι των δύο παραπάνω μεθόδων, τα οποία και αποτέλεσαν τα γονίδια – κόμβους «κλειδιά» της παρούσας έρευνας. Τα συγκεκριμένα γονίδια μελετήθηκαν αρχικά για τη διαφορική έκφρασή τους σε δείγματα από ούρα και πλάσμα αίματος ασθενών με καρκίνο ουροδόχου κύστης και υγιών μαρτύρων. Ακολούθως, αναλύθηκε η προγνωστική ικανότητα των γονιδίων αυτών με χρήση μονο-μεταβλητής, πολυ-μεταβλητής και LASSO ανάλυσης παλινδρόμησης. Επίσης, υλοποιήθηκε η ανάλυση των καμπυλών επιβίωσης Kaplan – Meier και του λειτουργικού χαρακτηριστικού δέκτη (ROC) για τον προσδιορισμό των γονιδίων με προγνωστική αξία και κατασκευάστηκε ένα μοντέλο πρόγνωσης με βάση την έκφραση τριών γονιδίων. Το μοντέλο αυτό ελέγχθηκε ως προς την απόδοσή του σε δύο ανεξάρτητα σύνολα δεδομένων, παρουσιάζοντας ιδιαίτερα καλή απόδοση. Ακόμη, με την εφαρμογή των ανωτέρω μεθόδων, αναλύθηκε η προβλεπτική ικανότητα των γονιδίων αυτών όσον αφορά την πρόβλεψη της ανταπόκρισης των ασθενών με διηθητικό καρκίνο ουροδόχου κύστης στην προ-εγχειρητική χημειοθεραπεία. Έτσι, δημιουργήθηκε ένα μοντέλο πρόβλεψης με βάση την έκφραση έξι γονιδίων, το οποίο ελέγχθηκε σε δύο ανεξάρτητα σύνολα δεδομένων, παρουσιάζοντας καλή απόδοση. Από τις ανωτέρω αναλύσεις, προσδιορίστηκε ένα σύνολο εννέα γονιδίων – βιοδεικτών τα οποία βρέθηκε να εκφράζονται διαφορικά στα ούρα ή στο πλάσμα αίματος μεταξύ των ασθενών με καρκίνο ουροδόχου κύστης και των υγιών μαρτύρων, και, παράλληλα, φάνηκε να κατέχουν κάποια προγνωστική ή προβλεπτική ικανότητα. Η έκφραση των συγκεκριμένων βιοδεικτών στον ιστό της ουροδόχου κύστης ασθενών αλλά και υγιών μαρτύρων επιβεβαιώθηκε με χρήση εικόνων ανοσοϊστοχημείας και με την αξιοποίηση δημόσιων πλατφορμών βιοπληροφορικής. Τέλος, οι συγκεκριμένοι εννέα βιοδείκτες χρησιμοποιήθηκαν ως χαρακτηριστικά για την υλοποίηση μοντέλων ταξινόμησης, τα οποία φάνηκε να παρουσιάζουν ιδιαίτερα υψηλή απόδοση ως προς την διακριτοποίηση των δειγμάτων σε καρκινικά και υγιή, αναδεικνύοντας τη διαγνωστική αξία των συγκεκριμένων βιοδεικτών.
περισσότερα
Περίληψη σε άλλη γλώσσα
This PhD thesis concerns the application of bioinformatics techniques and machine learning algorithms towards the identification of diagnostic, prognostic and predictive - in terms of patients’ response to treatment - biomarkers for bladder cancer. Bladder cancer (BCa) is a heterogeneous disease accounting for high incidence and prevalence worldwide, and is responsible for significant morbidity and mortality. In the context of this study, a systematic search was performed and all the gene expression data from DNA microarrays registered in the Gene Expression Omnibus (GEO) database of the National Center for Biotechnology Information (NCBI), were collected in order to study and compare healthy and cancerous tissues for this disease. The systematic search identified 18 datasets that fulfilled the inclusion criteria and were included in the integrated meta-analysis. For these datasets, the raw data were obtained, pre-processed according to the microarray platform and, after the quality co ...
This PhD thesis concerns the application of bioinformatics techniques and machine learning algorithms towards the identification of diagnostic, prognostic and predictive - in terms of patients’ response to treatment - biomarkers for bladder cancer. Bladder cancer (BCa) is a heterogeneous disease accounting for high incidence and prevalence worldwide, and is responsible for significant morbidity and mortality. In the context of this study, a systematic search was performed and all the gene expression data from DNA microarrays registered in the Gene Expression Omnibus (GEO) database of the National Center for Biotechnology Information (NCBI), were collected in order to study and compare healthy and cancerous tissues for this disease. The systematic search identified 18 datasets that fulfilled the inclusion criteria and were included in the integrated meta-analysis. For these datasets, the raw data were obtained, pre-processed according to the microarray platform and, after the quality control and normalization, were integrated into a merged meta-dataset. This merged meta-dataset was utilized to determine the differentially expressed genes between control and cancer samples. Then, the protein – protein interaction network analysis was performed and the hub genes were detected. Furthermore, the weighted gene co-expression network analysis, which is an unsupervised technique, was conducted and the hub genes, which showed a high correlation with the phenotype of the samples, were detected. Subsequently, the common hub genes of the above two methods were identified, which were determined as the key hub genes of the present study. These genes were first studied for their differential expression in urine and blood plasma samples from bladder cancer patients and healthy controls. Subsequently, the predictive value of these genes was analyzed using univariate Cox, multivariate Cox and LASSO regression analyses. Kaplan-Meier survival curve and functional receiver operating characteristic (ROC) analyses were also implemented to identify genes with prognostic value and a prognostic model was constructed based on the expression of three genes. This model was tested for its performance on two independent datasets, showing high performance. Furthermore, by applying the above methods, the predictive ability of the key hub genes – in terms of predicting the response of patients with invasive bladder cancer to pre-operative chemotherapy – was analyzed. Thus, a prediction model based on the expression of six genes was created and tested on two independent datasets, showing good performance. From the above analyses, a set of nine biomarker genes were identified, which were found to be differentially expressed in urine or blood plasma between bladder cancer patients and healthy controls, and, at the same time, appeared to possess some predictive or prognostic ability. The expression of these biomarkers in bladder tissue of patients and healthy controls was confirmed using immunohistochemistry images and utilizing public bioinformatics platforms. Finally, these nine biomarkers were used as features to implement classification models, which showed a particularly high performance, in terms of discriminating samples into cancerous and healthy ones, highlighting the diagnostic value of these biomarkers.
περισσότερα