Περίληψη
Τα τελευταία δεκαπέντε χρόνια, οι εξελίξεις στην τεχνολογία, ιδιαίτερα η Αλληλούχιση Επόμενης Γενιάς (NGS), έφεραν επανάσταση στη βιολογική και ιατρική έρευνα, επιτρέποντας οικονομικά αποδοτική και μεγάλης κλίμακας παραγωγή βιολογικών δεδομένων. Η ενοποίηση των συνόλων δεδομένων NGS προσφέρει τεράστιες δυνατότητες στην κατανόηση της βιογένεσης και των λειτουργιών του RNA, ενισχύοντας έτσι την έρευνα σε τομείς όπως ο εντοπισμός θεραπευτικών στόχων και διαγνωστικών βιοδεικτών. Η διαθεσιμότητα τεράστιων ποσοτήτων δημόσια προσβάσιμων δεδομένων έχει ενισχύσει την έρευνα που βασίζεται σε δεδομένα, με την βιοπληροφορική ανάλυση να παίζει κρίσιμο ρόλο στον χαρακτηρισμό και τη σύγκριση της αφθονίας και των αλληλεπιδράσεων τόσο του κωδικοποιού όσο και του μη-κωδικοποιού RNA σε διάφορες φυσιολογικές και παθολογικές καταστάσεις.Τα MicroRNA (miRNAs), τα οποία είναι μικρά μη-κωδικοποιά RNA μήκους περίπου 22 νουκλεοτιδίων, θεωρούνται βασικοί ρυθμιστές της γονιδιακής έκφρασης στο μετα-μεταγραφικό επίπ ...
Τα τελευταία δεκαπέντε χρόνια, οι εξελίξεις στην τεχνολογία, ιδιαίτερα η Αλληλούχιση Επόμενης Γενιάς (NGS), έφεραν επανάσταση στη βιολογική και ιατρική έρευνα, επιτρέποντας οικονομικά αποδοτική και μεγάλης κλίμακας παραγωγή βιολογικών δεδομένων. Η ενοποίηση των συνόλων δεδομένων NGS προσφέρει τεράστιες δυνατότητες στην κατανόηση της βιογένεσης και των λειτουργιών του RNA, ενισχύοντας έτσι την έρευνα σε τομείς όπως ο εντοπισμός θεραπευτικών στόχων και διαγνωστικών βιοδεικτών. Η διαθεσιμότητα τεράστιων ποσοτήτων δημόσια προσβάσιμων δεδομένων έχει ενισχύσει την έρευνα που βασίζεται σε δεδομένα, με την βιοπληροφορική ανάλυση να παίζει κρίσιμο ρόλο στον χαρακτηρισμό και τη σύγκριση της αφθονίας και των αλληλεπιδράσεων τόσο του κωδικοποιού όσο και του μη-κωδικοποιού RNA σε διάφορες φυσιολογικές και παθολογικές καταστάσεις.Τα MicroRNA (miRNAs), τα οποία είναι μικρά μη-κωδικοποιά RNA μήκους περίπου 22 νουκλεοτιδίων, θεωρούνται βασικοί ρυθμιστές της γονιδιακής έκφρασης στο μετα-μεταγραφικό επίπεδο. Είναι άφθονα σε πολλούς οργανισμούς και παίζουν κρίσιμους ρόλους σε ένα ευρύ φάσμα βιολογικών διεργασιών, τόσο φυσιολογικών όσο και σχετικών με ασθένειες. Την τελευταία δεκαετία, εκτεταμένη έρευνα επικεντρώθηκε στη διερεύνηση του ρόλου των miRNAs σε περίπλοκες ασθένειες όπως ο καρκίνος, με μελέτες να εντοπίζουν συγκεκριμένα miRNA που δρουν είτε ως ογκογονίδια είτε ως ογκοκατασταλτικά. Η αλληλουχία μικρών RNA (sRNA-Seq) έχει αναδειχθεί ως μια ισχυρή τεχνική για τον ποσοτικό προσδιορισμό αυτών των μικρών μη-κωδικοποιών RNA σε μεγάλη κλίμακα, παρέχοντας πολύτιμες πληροφορίες για τη λειτουργία αυτών των σημαντικών ρυθμιστών. Αυτή η διδακτορική διατριβή επικεντρώνεται στην ανάπτυξη εργαλείων και πόρων που επιτρέπουν τον εντοπισμό και τη μελέτη μη-κωδικοποιών βιοδεικτών σε διάφορες ασθένειες. Πιο συγκεκριμένα, το DIANA-microRNA-Analysis-Pipeline (DIANA-mAP), ένας πλήρως αυτοματοποιημένος υπολογιστικός αγωγός αναπτύχθηκε για τη διευκόλυνση της ανάλυσης των δεδομένων miRNA Next-Generation Sequencing (NGS). Το DIANA-mAP επεξεργάζεται ακατέργαστες βιβλιοθήκες sRNA-Seq με στόχο την εκτέλεση ποσοτικοποίησης και ανάλυσης διαφορικής έκφρασης. Ο αγωγός δίνει ιδιαίτερη έμφαση στο κρίσιμο βήμα της προεπεξεργασίας δεδομένων, το οποίο επηρεάζει σε μεγάλο βαθμό την αξιοπιστία των τελικών αποτελεσμάτων και επιτρέπει ακόμη και την αυτόματη εξεύρεση αλληλουχιών αντάπτορα (adapter). Σε μια εποχή με πάρα πολλά δημόσια διαθέσιμα δεδομένα χωρίς τις απαραίτητες πληροφορίες μεταδεδομένων που απαιτούνται για σωστή ανάλυση, η τελευταία λειτουργία αυξάνει σημαντικά τις ευκαιρίες για ενσωμάτωση δημόσιων δεδομένων σε μελέτες. Μέσω ολοκληρωμένης αξιολόγησης, επιδεικνύει ισχυρά αποτελέσματα και ακόμη και ανώτερη απόδοση σε σύγκριση με παρόμοια εργαλεία σε σενάρια ανάλυσης δεδομένων χωρίς πληροφορίες για τον αντάπτορα αλληλούχισης. Ομοίως, το DIANA-RSeq είναι ένας αυτοματοποιημένος αγωγός για τον ποσοτικό προσδιορισμό των δεδομένων αλληλούχισης RNA (RNA-Seq). Αποτελείται από πολλές αυτόνομες μονάδες πολλαπλών επιλογών που παρέχουν μια σειρά από πιθανές ροές εργασιών ανάλυσης χρησιμοποιώντας τα τελευταίας τεχνολογίας βιοπληροφορικά εργαλεία. Επιπρόσθετα, οι πόροι που δημιουργήθηκαν σε αυτή τη διατριβή αποσκοπούσαν στη συστηματική συλλογή και επιμέλεια τεράστιων ποσοτήτων πληροφοριών από πολυάριθμες μελέτες με ακριβή και συνεπή τρόπο. Αυτοί οι πόροι παρέχουν διάφορες πτυχές στο πλαίσιο των μη-κωδικοποιών βιοδεικτών, συμπεριλαμβανομένων δεδομένων έκφρασης miRNA ανθρώπινου ιστού, πειραματικά επιβεβαιωμένης λειτουργικότητας βιοδεικτών, υπολογιστικής πρόβλεψης αλληλεπιδράσεων miRNA-RNA, ακόμη και συσχετισμών μεταξύ μικροβίων και ασθενειών. Προσφέροντας μια φιλική προς τον χρήστη διεπαφή για την αναζήτηση των περιεκτικών αποτελεσμάτων πολυάριθμων μελετών, αυτοί οι πόροι επιτρέπουν στους ερευνητές να αποκτούν δομημένες και διασυνδεδεμένες πληροφορίες. Αυτή η ικανότητα αναμένεται να βοηθήσει σημαντικά στην αντιμετώπιση περίπλοκων βιολογικών ερωτημάτων, στη διατύπωση ερευνητικών υποθέσεων και στην προώθηση επιστημονικών ερευνών.
περισσότερα
Περίληψη σε άλλη γλώσσα
In the past fifteen years, advancements in technology, particularly Next-Generation Sequencing (NGS), have revolutionized biological and medical research by enabling cost-effective and large-scale biological data production. The integration of NGS datasets offers immense potential in understanding RNA bio-genesis and functions, thereby enhancing research in areas such as identifying therapeutic targets and diagnostic biomarkers. The availability of vast amounts of publicly accessible data has bolstered data-driven research, with bioinformatics analysis playing a crucial role in characterizing and comparing the abundance and interactions of both coding and non-coding RNA in various physiological and pathological states. MicroRNAs (miRNAs), which are small non-coding RNAs approximately 22 nucleotides long, are considered key regulators of gene expression at the post-transcriptional level. They are abundant in many organisms and play critical roles in a wide range of biological processes, ...
In the past fifteen years, advancements in technology, particularly Next-Generation Sequencing (NGS), have revolutionized biological and medical research by enabling cost-effective and large-scale biological data production. The integration of NGS datasets offers immense potential in understanding RNA bio-genesis and functions, thereby enhancing research in areas such as identifying therapeutic targets and diagnostic biomarkers. The availability of vast amounts of publicly accessible data has bolstered data-driven research, with bioinformatics analysis playing a crucial role in characterizing and comparing the abundance and interactions of both coding and non-coding RNA in various physiological and pathological states. MicroRNAs (miRNAs), which are small non-coding RNAs approximately 22 nucleotides long, are considered key regulators of gene expression at the post-transcriptional level. They are abundant in many organisms and play critical roles in a wide range of biological processes, both normal and disease-related. Over the past decade, extensive research has focused on investigating the role of miRNAs in complex diseases like cancer, with studies identifying specific miRNAs acting as either oncogenes or tumor suppressors. Small RNA sequencing (sRNA-Seq) has emerged as a powerful technique for quantifying these small non-coding RNAs on a large scale, providing valuable insights into the function of these important regulators. This PhD dissertation is focused on the development of tools and resources allowing for the identification and study of non-coding biomarkers in various disease states. More specifically, the DIANA-microRNA-Analysis-Pipeline (DIANA-mAP), a fully automated computational pipeline was developed to facilitate the analysis of miRNA Next-Generation Sequencing (NGS) data. DIANA-mAP processes raw sRNA-Seq libraries aiming to perform quantification and Differential Expression Analysis. The pipeline places particular emphasis on the crucial step of data pre-processing, which greatly impacts the reliability of the final results, and even allows for automatic adapter inference. In an era with vast publicly available data without the necessary metadata information required for proper analysis, the latter highly increases opportunities for public data integration in studies. Through comprehensive evaluation, it demonstrates robust results and even superior performance compared to similar tools under adapter-agnostic analysis scenarios. Similarly, the DIANA-RSeq is an automated pipeline for the quantification of RNA sequencing data. It is composed of multiple standalone multi-option modules that provide a number of possible analysis workflows utilizing the state-of-the-art bioinformatic tools. The resources created in this dissertation aimed to systematically collect and curate vast amounts of information from numerous studies in a precise and consistent manner. These resources provide various aspects in the context of non-coding biomarkers, including human tissue specific miRNA expression data, experimentally validated biomarker functionality, computationally predicted miRNA-RNA interactions, and even associations between microbes and diseases. By offering a user-friendly interface for querying the comprehensive results of numerous studies, these resources enable researchers to obtain structured and interconnected information. This valuable capability is expected to greatly assist in addressing intricate biological inquiries, formulating research hypotheses, and advancing scientific investigations.
περισσότερα