Περίληψη
Στην παρούσα διατριβή προτείνονται και αναπτύσσονται αλγόριθμοι βασισμένοι σε δίκτυα για την επεξεργασία και ανάλυση βιολογικών/περιβαλλοντικών δεδομένων με κύριο σκοπό τη διερεύνηση συσχετίσεων σε αυτά. Συγκεκριμένα, οι αλγόριθμοι που αναπτύσσονται χρησιμοποιούνται για την ανάλυση και επεξεργασία (i) πρωτεϊνικών δεδομένων με στόχο την ανάλυση του χώρου των δομών και ακολουθιών και τη συνεισφορά στην αναγνώριση διπλώματος των πρωτεϊνών, (ii) δεδομένων που προκύπτουν από τη γενετική ταυτότητα ατόμων και περιβαλλοντικές παραμέτρους με σκοπό την αιτιολογική ανάλυση πολυπαραγοντικών φαινοτύπων που σχετίζονται με τις καρδιαγγειακές νόσους. Στο πρώτο μέρος της διατριβής χρησιμοποιούνται βασικές αρχές δικτύων για τη μελέτη της τοπολογίας δικτύων ομοιότητας πρωτεϊνών σε επίπεδο δομής και ακολουθίας. Σε επίπεδο ακολουθίας τα δίκτυα ομοιότητας κατασκευάζονται με χρήση της απόστασης διανυσμάτων χαρακτηριστικών εξαγόμενων από την ακολουθία, ενώ σε επίπεδο δομής με χρήση του βαθμού ομοιότητας που π ...
Στην παρούσα διατριβή προτείνονται και αναπτύσσονται αλγόριθμοι βασισμένοι σε δίκτυα για την επεξεργασία και ανάλυση βιολογικών/περιβαλλοντικών δεδομένων με κύριο σκοπό τη διερεύνηση συσχετίσεων σε αυτά. Συγκεκριμένα, οι αλγόριθμοι που αναπτύσσονται χρησιμοποιούνται για την ανάλυση και επεξεργασία (i) πρωτεϊνικών δεδομένων με στόχο την ανάλυση του χώρου των δομών και ακολουθιών και τη συνεισφορά στην αναγνώριση διπλώματος των πρωτεϊνών, (ii) δεδομένων που προκύπτουν από τη γενετική ταυτότητα ατόμων και περιβαλλοντικές παραμέτρους με σκοπό την αιτιολογική ανάλυση πολυπαραγοντικών φαινοτύπων που σχετίζονται με τις καρδιαγγειακές νόσους. Στο πρώτο μέρος της διατριβής χρησιμοποιούνται βασικές αρχές δικτύων για τη μελέτη της τοπολογίας δικτύων ομοιότητας πρωτεϊνών σε επίπεδο δομής και ακολουθίας. Σε επίπεδο ακολουθίας τα δίκτυα ομοιότητας κατασκευάζονται με χρήση της απόστασης διανυσμάτων χαρακτηριστικών εξαγόμενων από την ακολουθία, ενώ σε επίπεδο δομής με χρήση του βαθμού ομοιότητας που προκύπτει από τη δομική τους στοίχιση. Τα αποτελέσματα της ανάλυσης των δικτύων συνδέονται με εξελικτική πληροφορία των πρωτεϊνών, ενώ αξιολογείται η πληροφορία που περιέχουν τα εξαγόμενα από την ακολουθία χαρακτηριστικά σε σχέση με την πρωτεϊνική δομή. Με βάση το δίκτυο ομοιότητας σε επίπεδο ακολουθίας, κατασκευάζεται ταξινομητής που υπολογίζει τη συγγένεια πρωτεϊνικής ακολουθίας με ακολουθίες γνωστού διπλώματος και χρησιμοποιείται για την αναγνώριση διπλώματος. Το δεύτερο μέρος της εργασίας αφορά στον προσδιορισμό παραγόντων (φύλου, ηλικίας, γενετικών πολυμορφισμών, κλινικών μετρήσεων και διατροφικών συνηθειών) που αλληλεπιδρούν και συνδυαστικά επηρεάζουν την επικινδυνότητα ανάπτυξης καρδιαγγειακών νόσων. Αναλύονται δυο διαφορετικά διαθέσιμα σύνολα δεδομένων στα οποία η ποσοτικοποίηση της επικινδυνότητας βασίζεται στους φαινοτύπους της μεταγευματικής λιπαιμίας και της παχυσαρκίας, αντίστοιχα. Η μεθοδολογία που αναπτύσσεται βασίζεται στη χρήση τεχνητών νευρωνικών δικτύων σε συνδυασμό με τη μέθοδο της όπισθεν επιλογής χαρακτηριστικών και γενετικό αλγόριθμο για την επιλογή των σημαντικών παραγόντων και συνδυασμών τους. Η εφαρμογή των υβριδικών μεθόδων οδήγησε στο προσδιορισμό των βέλτιστων υποσυνόλων παραγόντων που επηρεάζουν τους υπό μελέτη φαινοτύπους, καθώς και σε αντίστοιχους ταξινομητές τεχνητού νευρωνικού δικτύου με ικανοποιητική ικανότητα γενίκευσης σε άγνωστα δεδομένα.
περισσότερα
Περίληψη σε άλλη γλώσσα
In the present PhD Thesis, network-based algorithms aiming at analyzing and revealing interrelations within biological/environmental data are proposed. The algorithms are applied here within two different contexts: i) analysis of protein sequence and structural space, and fold recognition using networks as simple graphs (first part) and ii) analysis of multifactorial disease-related traits using hybrid artificial neural network methods (second part). In the first part, protein similarity networks are constructed separately for two similarity criteria based on sequence derived features and structural alignment. Measurements, like network degree, clustering coefficient, characteristic path length and vertex centrality are utilized to characterize their overall and local topology. Protein similarity networks are classified as small world networks, an architecture that can host the similarity transition among proteins during evolution. Furthermore, the task of fold recognition on a protein ...
In the present PhD Thesis, network-based algorithms aiming at analyzing and revealing interrelations within biological/environmental data are proposed. The algorithms are applied here within two different contexts: i) analysis of protein sequence and structural space, and fold recognition using networks as simple graphs (first part) and ii) analysis of multifactorial disease-related traits using hybrid artificial neural network methods (second part). In the first part, protein similarity networks are constructed separately for two similarity criteria based on sequence derived features and structural alignment. Measurements, like network degree, clustering coefficient, characteristic path length and vertex centrality are utilized to characterize their overall and local topology. Protein similarity networks are classified as small world networks, an architecture that can host the similarity transition among proteins during evolution. Furthermore, the task of fold recognition on a protein similarity network basis is addressed. A classifier that recognizes the fold of a query protein sequence by calculating its affinities to sequences-vertices of the protein sequence network is, thus, constructed and compared with popular classifiers. The classifier is then optimized by employing a genetic algorithm which selects the subset of sequence-derived features yielding a protein sequence network that is most similar to the corresponding protein structure network. In the second part, two artificial neural network based methods have been designed and developed towards the analysis of multifactorial traits that have been related to cardiovascular diseases. The proposed methods combine an artificial neural network with either a parameter decreasing algorithm or a genetic algorithm that optimizes the training process and the input features set fed to the network. Both methods were used to determine the most important factors (among sex, age, genetic polymorphisms, clinical measurements and measurements that describe average nutrition habits) that affect postprandial lipemia and human weight. The artificial neural network based methods were successful in classifying subjects into output classes derived from the multifactorial traits.
περισσότερα