Περίληψη
Οι πρωτεϊνικές αλληλεπιδράσεις αποτελούν κεντρικό σημείο έρευνας για την κατανόηση των πολύπλοκων βιολογικών συστημάτων. Οι πειραματικές διαδικασίες μεγάλης κλίμακας που έχουν αναπτυχθεί τα τελευταία χρόνια για τον εντοπισμό πρωτεϊνικών αλληλεπιδράσεων παρέχουν τη δυνατότητα διερεύνησης πολλών πρωτεϊνών ταυτόχρονα, ωστόσο παρουσιάζουν σημαντικούς περιορισμούς που σχετίζονται αφενός με την ακρίβεια των αποτελεσμάτων και αφετέρου με τοκόστος σε χρόνο ή και χρήμα. Συμπληρωματικά με την πειραματική προσέγγιση υπολογιστικές μέθοδοι υπάρχουν τόσο για την πρόβλεψη και την αναγνώριση, όσο και για την αξιολόγηση των πρωτεϊνικών αλληλεπιδράσεων, άμεσων ή έμμεσων. Η υπολογιστική προσέγγιση χρησιμοποιεί δεδομένα για τη δομή των πρωτεϊνών (γενομικά και πρωτεϊνικά), στοιχεία που προκύπτουν από τη φυλογενετική ανάλυση , τη γειτνίαση των γονιδίων αλλά και από τη συγχώνευση γονιδίων, ώστε να προβλεφθεί η αλληλεπίδραση των υπό διερεύνηση πρωτεϊνών. Μια άλλη υπολογιστική τεχνική είναι η εξόρυξη γνώσης απ ...
Οι πρωτεϊνικές αλληλεπιδράσεις αποτελούν κεντρικό σημείο έρευνας για την κατανόηση των πολύπλοκων βιολογικών συστημάτων. Οι πειραματικές διαδικασίες μεγάλης κλίμακας που έχουν αναπτυχθεί τα τελευταία χρόνια για τον εντοπισμό πρωτεϊνικών αλληλεπιδράσεων παρέχουν τη δυνατότητα διερεύνησης πολλών πρωτεϊνών ταυτόχρονα, ωστόσο παρουσιάζουν σημαντικούς περιορισμούς που σχετίζονται αφενός με την ακρίβεια των αποτελεσμάτων και αφετέρου με τοκόστος σε χρόνο ή και χρήμα. Συμπληρωματικά με την πειραματική προσέγγιση υπολογιστικές μέθοδοι υπάρχουν τόσο για την πρόβλεψη και την αναγνώριση, όσο και για την αξιολόγηση των πρωτεϊνικών αλληλεπιδράσεων, άμεσων ή έμμεσων. Η υπολογιστική προσέγγιση χρησιμοποιεί δεδομένα για τη δομή των πρωτεϊνών (γενομικά και πρωτεϊνικά), στοιχεία που προκύπτουν από τη φυλογενετική ανάλυση , τη γειτνίαση των γονιδίων αλλά και από τη συγχώνευση γονιδίων, ώστε να προβλεφθεί η αλληλεπίδραση των υπό διερεύνηση πρωτεϊνών. Μια άλλη υπολογιστική τεχνική είναι η εξόρυξη γνώσης από τη βιβλιογραφία,χρησιμοποιώντας κυρίως περιλήψεις δημοσιευμένων άρθρων, προτείνοντας πιθανές αλληλεπιδράσεις πρωτεϊνών βάσει μετρικών υπολογιζόμενων από τη “συνύπαρξη” αυτών των πρωτεϊνών μέσα στο κείμενο. Έχουν αναπτυχθεί πολλά εργαλεία που εξάγουν πληροφορία από την ανάλυση άρθρων της PubMedγια τον εντοπισμό και την πρόβλεψη πρωτεϊνικών αλληλεπιδράσεων. Ακόμη, βάσεις δεδομένων καταγράφουν, πολλές με τυποποιημένα συστήματα επιμέλειας εγγραφών, αλληλεπιδράσεις από δημοσιευμένα πειράματα μεγάλης κλίμακας. Υπολογιστικά εργαλεία που συνδυάζουν όλες τις διαθέσιμες πηγές έχουν αναπτυχθεί στοχεύοντας στην ενοποίηση της διαθέσιμης πληροφορίας. Ένα υπολογιστικό εργαλείο πρόβλεψης πρωτεϊνικών αλληλεπιδράσεων είναι το UniReD.Ξεκινώντας από όλα τα άρθρα που περιγράφουν και υποστηρίζουν τη λειτουργία κάθε πρωτεΐνης στη βάση δεδομένων UniProt, συλλέγει για κάθε ένα άρθρο τα σχετικά άρθρα από την PubMed. Το σύνολο αυτών των άρθρων στη συνέχεια ομαδοποιείται με έναν αλγόριθμο μηχανικής μάθησης. Τα άρθρα αντικαθίστανται με τις πρωτεΐνες με τις οποίες αρχικά συνδέονταν, για να δημιουργηθούν με αυτόν τον τρόπο ομάδες πρωτεϊνών που έχουν μεγάλη πιθανότητα να σχετίζονται. Στην παρούσα Διδακτορική Διατριβή πραγματοποιήθηκε έρευνα για την επέκταση των λειτουργιών του UniRed και τη χρήση του για τη διερεύνηση συννοσηρότητας μεταξύ ασθενειών, με εφαρμογή στην καρωτιδική νόσο και την κατάθλιψη. Οι βελτιώσεις προσανατολίστηκαν σε τρεις κατευθύνσεις. Αφενός τη συμπερίληψη διαθέσιμης πληροφορίας, πέραν της βιβλιογραφίας, για τη βαθμονόμηση των αλληλεπιδράσεων που προβλέπονται, την ενσωμάτωση πειραματικών δεδομένων για την ενίσχυση της βαθμονόμησης και τέλος, τη σύγκριση των αλληλεπιδράσεων πρωτεϊνών για τον εντοπισμό ενός κοινού βιολογικού υπόβαθρου σε δύο ασθένειες. Σε εναρμόνιση με άλλα υπολογιστικά εργαλεία που χρησιμοποιούν διαφορετικές πηγές πληροφορίας, αναπτύχθηκαν μέθοδοι και αλγόριθμοι ώστε να βαθμονομηθούν οι αλληλεπιδράσεις που προβλέπονται με την υπάρχουσα μεθοδολογία του UniReD. Έγινε αναζήτηση της διαθέσιμης πληροφορίας για τις πρωτεΐνες που προβλέπει το UniReD κάποια αλληλεπίδραση. Για αυτό το λόγο, συγκεντρώθηκε πληροφορία για τις πρωτεΐνες των Homo sapiens και Mus musculus και την οντολογία που τις χαρακτηρίζει. Σε γενετικό επίπεδο καταγράφηκαν τα παράλογα κάθε γονιδίου από την Ensembl καθώς και τα ορθόλογα γονίδια μεταξύ των H. sapiens και M. musculus. Επίσης, τα σύμπλοκα πρωτεϊνών και ποιες συμμετέχουν σε κάθε ένα από αυτά μέσω ComplexPortal. Ακόμη, συγκεντρώθηκε πληροφορία για τις λειτουργικές περιοχές (protein domains) που εμπεριέχονται σε κάθε πρωτεΐνη μέσω της InterPro (EMBL-EBI). Για το αν κάποιες πρωτεϊνες του H. sapiens εμφανίζονται ως συντηγμένες στο M. musculus και αντιστρόφως, έγινε αναζήτηση σε όλες τις πρωτεϊνες των δύο οργανισμών χρησιμοποιώντας τον αλγόριθμο DifFuse και CompositeSearch. Ανακτήθηκαν οι αλληλουχίες όλων των πρωτεΐνών για τους H. sapiens και M. musculus από την UniProt. Έγινε αναζήτηση ομοιότητας πρωτεϊνικής αλληλουχίας με τη χρήση του αλγόριθμου BLAST (blastp) μεταξύ όλων των1πρωτεϊνών του H. sapiens και όλων του M. musculus, και μεταξύ των H. sapiens και M. musculus, και αντίστροφα, έχοντας εξαντλήσει τις περιπτώσεις ομοιότητας της πρωτεϊνικής αλληλουχίας τόσο μεταξύ πρωτεϊνών του ίδιου οργανισμού καθώς και μεταξύ των δύο οργανισμών. Βάσει τωνπρωτεϊνικών αλληλουχιών και της ομοιότητας αυτών έγινε αναζήτηση για σύντηξη πρωτεϊνών στους δύο οργανισμούς. Τα αποτελέσματα αναλύθηκαν και καταγράφηκαν τα ζευγάρια πρωτεϊνών του ενός οργανισμού που παρατηρούνται συντηγμένες στον άλλο οργανισμό. Τα δεδομένα για κάθεπρωτεΐνη καταγράφηκαν αρχικά υπό τη μορφή λεξικού. Κάθε εγγραφή αντιπροσωπεύεται από το Uniprot/SwissProt accession number της πρωτεΐνης. Ακόμη, έχουν καταγραφεί αναγνωριστικά από την Ensembl (Ensembl gene id), την NCBI (NCBI gene id, former Entrez gene id) και το όνομα του γονιδίου που προτείνεται, για όσες πρωτεΐνες υπάρχουν τέτοιες αντιστοιχίσεις διαθέσιμες από την Ensembl και την UniProt. Αυτή η αντιστοίχιση σε αναγνωριστικά για κάθε μια πρωτεΐνη θα δώσει τη δυνατότητα να μπορεί να γίνεται αναζήτηση για αλληλεπιδράσεις εισάγοντας και άλλα αναγνωριστικά πέραν των UniProt ids, κάτι που μέχρι στιγμής δεν ήταν δυνατό. Ακόμη, καταγράφονται παράλογα γονίδια αν υπάρχουν, οι υπόλοιπες πρωτεΐνες που συμμετέχουν στο σύμπλοκο (αν η πρωτεΐνη συμμετέχει σε κάποιο), τα InterPro ids για τις λειτουργικές περιοχές που υπάρχουν στην πρωτεΐνη, τα ορθόλογα γονίδια μεταξύ των δύο οργανισμών και η έτερη πρωτεΐνη που εντοπίζεται συντηγμένη με την πρωτεΐνη αναφοράς. Το ίδιο λεξικό δημιουργήθηκε και για τους δύο οργανισμούς H. sapiens και M. musculus. Αυτά τα δύο λεξικά καταχωρήθηκαν σε μια σχεσιακή βάση δεδομένων. Κάνοντας χρήση των εγγραφών της σχεσιακής βάσης δεδομένων είναι δυνατό να βαθμονομηθούν οι πρωτεΐνικές αλληλεπιδράσεις που προβλέπει το UniReD συνδυάζοντας με αυτό τον τρόπο τόσο δεδομένα από τη βιβλιογραφία, καθώς και από άλλες πηγές που μπορούν να ενισχύουν την ύπαρξη μιας τέτοιας αλληλεπίδρασης. Με αυτό τον τρόπο μια λειτουργική συσχέτιση δύο πρωτεϊνών που προβλέπεται παραδείγματος χάριν στο H. sapiens, μπορεί να βαθμονομηθεί ανάλογα γνωρίζοντας αν αυτές οι δύο εμφανίζονται ως συντηγμένες στοM. musculus ή/και αλληλοεπιδρούν τα ορθόλογα αυτών στο M. musculus, ή αν το προϊόν ενός παράλογου γονιδίου της μία πρωτεϊνης αλληλοεπιδρά με την άλλη πρωτεΐνη και αν ακόμη κάποια πρωτεΐνη του συμπλέγματος που συμμετέχει μια πρωτεΐνη αλληλοεπιδρά με την άλλη πρωτεΐνη που εντοπίζεται η αλληλεπίδραση. Χρησιμοποιώντας τα δεδομένα αυτά δημιουργήθηκε ένα σχήμα βαθμονόμησης και αναπτύχθηκε ένα γραφικό περιβάλλον, όπου μπορεί να δεχθεί δύο λίστες πρωτεϊνών και να τις βαθμονομήσει σύμφωνα με αυτό το σχήμα. Το περιβάλλον ονομάστηκε multiple UniReD και χρησιμοποιήθηκε γιανα βαθμονομήσει βιοδείκτες μεθυλίωσης σε σύγκριση με πρωτεΐνες γνωστές για τη δράση τους στον καρκίνο του μαστού, την οστεοαρθρίτιδα και τον σακχαρώδη διαβήτη. Ένας άλλος στόχος ήταν να συμπεριληφθούν δεδομένα από πειράματα μεγάλης κλίμακας ώστε να ενισχυθούν επιπλέον οι αλληλεπιδράσεις που εντοπίζει το UniReD. Πραγματοποιήθηκε αναζήτηση μέσω των GEO Profiles, όπου μπορούν να εξαχθούν δεδομένα για τη συνέκφραση γονιδίων. Ένα πρόβλημα που προκύπτει με αυτή την προσέγγιση είναι ότι τα αποτελέσματα στηρίζονται σε κάθε ένα πείραμα που καταγράφεται στο Gene Expression Omnibus (GEO) καταθετήριο, με αποτέλεσμα αφενός τα δεδομένα της συνέκφρασης να πρέπει να ενοποιηθούν μεταξύ των διαφορετικώνπειραμάτων, αφετέρου το δείγμα στα περισσότερα από αυτά τα πειράματα να είναι περιορισμένο (λιγότερα από 10) ενέχοντας κινδύνους στην εξαγωγή ασφαλών στατιστικών συμπερασμάτων. Λαμβάνοντας υπόψη την έξαρση δεδομένων αλληλούχισης scRNA αποφασίστηκε η ανάπτυξη ενός εργαλείου που θα μπορεί να αναλύει τέτοια δεδομένα και να εντοπίζει συσχετίσεις γονιδίων. Αναπτύχθηκε ένα γραφικό περιβάλλον για την αξιολόγηση της αλληλούχισης και κατόπιν τον αποκλεισμό των μη ικανοποιητικά αλληλουχημένων κυττάρων σύμφωνα με παραμέτρους που καθορίζει ο χρήστης. Αυτό το βήμα είναι καθοριστικής σημασίας για την περαιτέρω ανάλυση τέτοιων δεδομένων, καθώς μπορεί να εξαχθούν λανθασμένα συμπεράσματα σε μεταγενέστερα βήματα της ανάλυσης. Σε δεύτερο χρόνο γίνεται ομαδοποίηση κυττάρων και εξετάζεται η έκφραση των κυριότερων βιοδεικτών κάθε τύπου κυττάρων. Στη συνέχεια πραγματοποιείται ανάλυση συσχέτισης, χρησιμοποιώντας ένα γονίδιο υπό εξέταση κάθε φορά, δίνοντας την επιλογή 2 διαφορετικών μεθόδων και κατωφλιών που καθορίζονται από το χρήστη. Η επιλογή του συνόλου των κυττάρων στο οποίο πραγματοποιείται η ανάλυση, πάλι καθορίζεται από το χρήστη. Μπορεί να αναζητήσει συσχετιζόμενα γονίδια στο υπό εξέταση γονίδιο, είτε στο σύνολο των κυττάρων, είτε σε έναν τύπο κυττάρων, στα φιλτραρισμένα δεδομένα ή μη. Τα γονίδια που εμφανίζονται να συσχετίζονται χρησιμοποιούνται για να αναζητηθούν βιολογικές διεργασίες και μεταβολικά μονοπάτια για να εξαχθούν συμπεράσματα για τη λειτουργία τους και την πιθανή λειτουργία του γονιδίου υπό εξέταση. Αυτές οι λίστες συσχετιζόμενων γονιδίων μπορούν να συμπεριληφθούν στη βαθμονόμηση των πρωτεϊνικών αλληλεπιδράσεων που προβλέπει το UniReD. Στην κατεύθυνση της αναζήτησης συννοσηροτήτων έγινε αρχικά αναζήτηση τρόπων για τηδιασύνδεση γονιδίων/πρωτεϊνών με ασθένειες από τη βιβλιογραφία. Ελέγχθηκαν δύο φόρμουλες που συσχετίζουν όρους από τη βιβλιογραφία και τους βαθμονομούν. Βασική προϋπόθεση αυτής της προσέγγισης ήταν η δημιουργία μιας βάσης με δεδομένα από τη βιβλιογραφία. Χρησιμοποιώντας έναν αλγόριθμο που εντοπίζει όρους σε κείμενα, συγκεντρώθηκαν αποτελέσματα από το σύνολο των άρθρων της PubMed. Αποθηκεύτηκαν σε μια σχεσιακή βάση δεδομένων και με κατάλληλες αναζητήσεις συλλέχθηκαν τα απαραίτητα στοιχεία για να ελεγχθεί η αποτελεσματικότητα των δύο αλγόριθμων βαθμονόμησης σε ένα σύνολο πρωτεϊνών που είναι γνωστό ότι συμμετέχουν στον καρκίνο του μαστού. Με αυτό τον τρόπο ήταν εφικτό να ανακτηθούν πρωτεΐνες που συν-αναφέρονται με τις δύο ασθένειες υπό εξέταση. Στη συνέχεια ελέγχθηκε πως σχετίζονται μεταξύ τους εφαρμόζοντας το σχήμα βαθμονόμησης που είχε αναπτυχθεί στο multiple UniReD, και ταυτόχρονα αποκλείστηκαν πρωτεΐνες που δεν αλληλοεπιδρούν με κανένα τρόπο (παράλογα γονίδια, ορθόλογα, πρωτεϊνικά σύμπλοκα, συντηγμένες πρωτεΐνες και ομάδες πρωτεϊνών UniReD). Από αυτές επιλέχθηκαν οι 97 κοινές για να ελεγχθεί σε ποια μεταβολικά μονοπάτια συμμετέχουν. Τα πέντε κορυφαία μονοπάτια που επέστρεψε η ανάλυση εμπλουτισμού με μεταβολικά μονοπάτια της Reactome συνδέονται με διεργασίες της φλεγμονής μέσω της δράσης των κυτοκινών και των ιντερλευκινών. Πράγματι, σύγχρονα ευρήματα υποστηρίζουν ότι η φλεγμονή είναι ένας μηχανισμός που συνδέει τις καρδιαγγειακές νόσους με την ψυχική υγεία. Αυτό αποδεικνύει ότι η μεθοδολογία που προτείνεται έχει τη δυνατότητα να εντοπίσει ορθά πρωτεϊνικές αλληλεπιδράσεις. Οι σχετιζόμενες πρωτεΐνες σε αυτές που συμμετέχουν σε αυτά τα μονοπάτια μπορούν να χρησιμοποιηθούν ως πιθανοί υποψήφιοι για περαιτέρω ανάλυση και πειραματική επαλήθευση. Εν κατακλείδι, το UniReD, με τις νέες δυνατότητες που έχουν αναπτυχθεί, μπορεί να αποτελέσει έναεργαλείο στον πειραματικό σχεδιασμό και την ιεράρχηση πιθανών βιοδεικτών για πειραματικό έλεγχο.
περισσότερα
Περίληψη σε άλλη γλώσσα
Protein-protein interactions are a central research focus for understanding complex biological systems. Large-scale experimental methods developed in recent years for identifying protein-protein interactions enable the simultaneous investigation of numerous proteins. However, these methods face significant limitations related to the accuracy of results and the cost in resources. Complementary to experimental approaches, computational methods exist for predicting, recognizing, and evaluating both direct and indirect protein-protein interactions. The computational approach uses data on protein structures (genomic and proteomic), information derived from phylogenetic analysis, gene neighborhood, and gene fusion events to predict interactions among proteins under investigation. Another computational technique involves knowledge extraction from the literature, primarily using abstracts from published articles, proposing potential protein interactions based on metrics computed from their “co ...
Protein-protein interactions are a central research focus for understanding complex biological systems. Large-scale experimental methods developed in recent years for identifying protein-protein interactions enable the simultaneous investigation of numerous proteins. However, these methods face significant limitations related to the accuracy of results and the cost in resources. Complementary to experimental approaches, computational methods exist for predicting, recognizing, and evaluating both direct and indirect protein-protein interactions. The computational approach uses data on protein structures (genomic and proteomic), information derived from phylogenetic analysis, gene neighborhood, and gene fusion events to predict interactions among proteins under investigation. Another computational technique involves knowledge extraction from the literature, primarily using abstracts from published articles, proposing potential protein interactions based on metrics computed from their “co-occurrence” in documents. Numerous tools have been developed to extract information from PubMed articles for identifying and predicting protein-protein interactions. Additionally, databases record interactions from large- scale published experiments, many of them using standardized record curation systems. Computational tools combining all available sources aim to consolidate this information. A computational tool for predicting protein-protein interactions is UniReD. Starting with all articles describing and supporting each protein's function in the UniProt database, it collects all related articles from PubMed to them. These articles are then clustered using a machine-learning algorithm. The articles are then replaced by their associated proteins to create clusters of proteins likely to be related. This doctoral dissertation explored an expansion of UniReD's functionalities and applying it to investigate comorbidities of diseases, focusing on carotid artery disease and depression. The improvements targeted three main directions: including available information beyond the literature to rank predicted interactions, incorporating experimental data to enhance ranking, and comparing protein interactions to identify shared biological mechanisms in two diseases. In line with other computational tools that integrate information from diverse sources, methods and algorithms were developed to rank interactions predicted using UniReD's methodology. Information on proteins predicted by UniReD was collected. This included data on Homo sapiens and Mus musculus proteins and their ontology. At the genetic level, paralogs of each gene from Ensembl and orthologous genes between H. sapiens and M. musculus were recorded. Protein complex information and participants in each complex were gathered from ComplexPortal, while functional domains for each protein were obtained from InterPro. To determine whether any H. sapiens proteins appear as fused in M. musculus and vice versa, searches were conducted using the DifFuse and CompositeSearch algorithms on all proteins from both organisms. Protein sequences for H. sapiens and M. musculus were retrieved from UniProt, and sequence similarity searches using BLAST (blastp) were conducted within and between the organisms. The data were structured into relational databases to enable protein-protein interaction ranking predicted by UniReD. For instance, a functional relationship for a pair of proteins predicted in H. sapiens could be determined if these proteins are fused in M. musculus or if their orthologs interactin M. musculus. Similarly, the interaction could be supported by whether paralog genes, protein complexes, or protein clusters predicted by UniReD confirm the relationship. Using this data, a scoring scheme was developed, and a graphical interface called multiple UniReD was created, enabling users to input two protein lists and rank them according to this scheme. The tool was used to rank methylation biomarkers against proteins known for their roles in breast cancer, osteoarthritis, and diabetes melitus. 4Another goal was to include large-scale experimental data to further support UniReD's predicted interactions. Given the rise of single-cell RNA sequencing (scRNA-seq), a tool was developed to analyze such data and identify gene correlations, named scRNA-Explorer. The tool allowed for quality assessment of sequencing data and cell exclusion based on user-defined parameters. After grouping cells, the expression of key biomarkers for each cell type was examined. Correlation analysis could then identify correlated genes to a “bait” gene and subsequently look for enriched biological processes and pathways of the correlated genes. Results could further refine the ranking of UniReD’s predictions. In the search for comorbidities, methods were developed to link genes/proteins to diseases using the literature. Two scoring formulas were tested, relying on a database of PubMed articles. Using these, proteins co-referenced with the two diseases under investigation were retrieved. Relationships among these proteins were examined using the scoring scheme developed in multiple UniReD. Proteins unrelated through any mechanism (paralogs, orthologs, complexes, fused proteins, UniReD clusters) were excluded. Ninety-seven shared proteins were identified, and Reactome pathway enrichment analysis revealed their involvement in inflammation-related processes through cytokine and interleukin activity. This finding aligns with modern evidence linking inflammation to cardiovascular disease and mental health. Further analysis with proteins involved to these pathways could highlight other candidate proteins and biological processes. In conclusion, UniReD, with its enhanced capabilities, provides a robust tool with the potential to assist experimental design and prioritization of potential biomarkers for experimental validation.
περισσότερα