Περίληψη
Η στατιστική είναι άρρηκτα συνδεδεμένη με τις βιολογικές επιστήμες, όπου χρησιμοποιείται σαν εργαλείο για να βοηθήσει στην εξαγωγή συμπερασμάτων αλλά και στην κατανόηση ασθενειών και γενικά βιολογικών λειτουργιών. Ως μέθοδοι βιοστατιστικής χαρακτηρίζονται συνήθως οι κλινικές δοκιμές και τα μοντέλα επιβίωσης. Εδώ και πολλά χρόνια όμως, μια πληθώρα στατιστικών μεθόδων εφαρμόζεται σε ιατρικά και βιολογικά δεδομένα.Το γενικό πεδίο έρευνας της παρούσας διατριβής είναι η εφαρμογή στατιστικών μεθόδων σε βιολογικά δεδομένα. Πιο συγκεκριμένα, προσπαθήσαμε να αξιοποιήσουμε μεθόδους που δεν είχαν χρησιμοποιηθεί ευρέως σε παρόμοια δεδομένα με σκοπό την ανακάλυψη ομοιογενών ομάδων δεδομένων, την μελέτη δομών συσχέτισης διαφορετικών ομάδων αλλά και την πρόβλεψη. Τα δεδομένα που χρησιμοποιήθηκαν μπορούν να ομαδοποιηθούν σε τρεις κατηγορίες: α) εκφράσεις γονιδίων που αφορούν γονίδια που εμπλέκονται σε κάποια ασθένεια, β) ηλεκτροεγκεφαλικά σήματα που αφορούν την απόκριση του ανθρώπινου εγκεφάλου σε ερέ ...
Η στατιστική είναι άρρηκτα συνδεδεμένη με τις βιολογικές επιστήμες, όπου χρησιμοποιείται σαν εργαλείο για να βοηθήσει στην εξαγωγή συμπερασμάτων αλλά και στην κατανόηση ασθενειών και γενικά βιολογικών λειτουργιών. Ως μέθοδοι βιοστατιστικής χαρακτηρίζονται συνήθως οι κλινικές δοκιμές και τα μοντέλα επιβίωσης. Εδώ και πολλά χρόνια όμως, μια πληθώρα στατιστικών μεθόδων εφαρμόζεται σε ιατρικά και βιολογικά δεδομένα.Το γενικό πεδίο έρευνας της παρούσας διατριβής είναι η εφαρμογή στατιστικών μεθόδων σε βιολογικά δεδομένα. Πιο συγκεκριμένα, προσπαθήσαμε να αξιοποιήσουμε μεθόδους που δεν είχαν χρησιμοποιηθεί ευρέως σε παρόμοια δεδομένα με σκοπό την ανακάλυψη ομοιογενών ομάδων δεδομένων, την μελέτη δομών συσχέτισης διαφορετικών ομάδων αλλά και την πρόβλεψη. Τα δεδομένα που χρησιμοποιήθηκαν μπορούν να ομαδοποιηθούν σε τρεις κατηγορίες: α) εκφράσεις γονιδίων που αφορούν γονίδια που εμπλέκονται σε κάποια ασθένεια, β) ηλεκτροεγκεφαλικά σήματα που αφορούν την απόκριση του ανθρώπινου εγκεφάλου σε ερέθισμα και γ) μετρήσεις αισθητήρων, οι οποίοι καταγράφουν τις κινήσεις ανθρώπων με σκοπό την αναγνώριση δραστηριότητας. Οι στατιστικές μέθοδοι που αποτέλεσαν το βασικό αντικείμενο μελέτης αυτής της διατριβής είναι η Αρχετυπική Ανάλυση, τα Μοντέλα Δομικών Εξισώσεων και οι συγκρίσεις συσχετίσεων. Η Αρχετυπική Ανάλυση είναι μια μέθοδος που δεν έχει λάβει την πρέπουσα προσοχή και ομαδοποιεί παρατηρήσεις με βάση τη σχέση τους με τα αρχέτυπα. Τα αρχέτυπα είναι κάποιες ακραίες περιπτώσεις που μπορεί να είναι και πραγματικές παρατηρήσεις. Τα Μοντέλα Δομικών Εξισώσεων και η σύγκριση συντελεστών συσχέτισης μελετούν δομές συσχέτισης ή συνδιακύμανσης. Τα Μοντέλα Δομικών Εξισώσεων ανήκουν στον κλάδο της πολυμεταβλητής ανάλυσης και έχουν τη δυνατότητα να επεξεργάζονται ταυτόχρονα πολλές εξισώσεις. Με αυτό τον τρόπο μπορούν να αντιμετωπίζουν μια μεταβλητή σαν ανεξάρτητη σε μια εξίσωση και σαν εξαρτημένη σε άλλη εξίσωση. Η σύγκριση συσχετίσεων αφορά κάποιους ελέγχους που εξετάζουν τη στατιστικά σημαντική διαφορά ανάμεσα σε δύο συντελεστές συσχέτισης. Είναι μια μέθοδος που δεν χρησιμοποιείται συχνά, χρησιμεύει όμως πολύ στη μελέτη ετερογενών δομών συσχέτισης.Η Αρχετυπική Ανάλυση εφαρμόστηκε σε νευρολογικές αποκρίσεις που περιγράφουν την εγκεφαλική διέγερση ατόμων που εκτίθενται σε κάποιο ερέθισμα, με σκοπό την ομαδοποίηση τους σε ομογενείς ομάδες και σε κλινικά και βιολογικά δεδομένα ασθενών που υποβλήθηκαν σε υποβοηθούμενη αναπαραγωγή, για να εντοπίσει ποιες ορμόνες συνέβαλλαν στην επιτυχία της θεραπείας. Τα Μοντέλα Δομικών Εξισώσεων χρησιμοποιήθηκαν για να ανακαλυφθούν μονοπάτια γονιδιακής σηματοδότησης ασθενών με Χρόνια Λεμφοκυτταρική Λευχαιμία. Το συγκεκριμένο σύνολο ασθενών αποτελούνταν από δύο ομάδες ασθενών με διαφορετική κλινική εικόνα. Με τη χρήση των Μοντέλων Δομικών Εξισώσεων μοντελοποιήθηκαν οι περισσότερες σχέσεις ανάμεσα στα γονίδια και εντοπίστηκαν διαφορές στα μοντέλα σηματοδότησης των δύο ομάδων ασθενών. Η μελέτη των δομών συσχετίσεων χρησιμοποιήθηκε και σε εκφράσεις γονιδίων αλλά και σε μετρήσεις φορετών αισθητήρων με σκοπό την αναγνώριση δραστηριότητας. Με βάση τη σύγκριση συσχετίσεων προτείναμε μια καινούργια μέθοδο επιλογής μεταβλητών για αλγορίθμους ταξινόμησης.Η διατριβή χωρίζεται νοητά σε δύο μέρη. Το πρώτο μέρος αφορά την ομαδοποίηση δεδομένων και περιλαμβάνει τα Κεφάλαια 1 ως 3. Σε αυτά αναπτύσσεται η μέθοδος της Αρχετυπικής Ανάλυσης και περιγράφονται οι δύο εφαρμογές της. Το δεύτερο μέρος αφορά τη μελέτη δομών συσχέτισης και συνδιακύμανσης, που αποτέλεσε και το κύριο μέρος της έρευνας και αποτελείται από τα Κεφάλαια 4 ως 9. Δύο κεφάλαια περιγράφουν τη θεωρία για τα Μοντέλα Δομικών Εξισώσεων και τις μεθόδους σύγκρισης συντελεστών συσχέτισης και τα υπόλοιπα αφορούν εφαρμογές αυτών των μεθόδων.Θα μπορούσαμε να συνοψίσουμε τα κύρια σημεία της συνεισφοράς της διατριβής στα παρακάτω: α) την ανακάλυψη σχέσεων ανάμεσα σε γονίδια ετερογενών ομάδων ασθενών με Χρόνια Λεμφοκυτταρική Λευχαιμία, με τη χρήση των Μοντέλων Δομικών Εξισώσεων β) προτάθηκε ένας εναλλακτικός τρόπος ομαδοποίησης εγκεφαλικών αποκρίσεων με χρήση της Αρχετυπικής Ανάλυσης, γ) προτάθηκε μια καινούργια μέθοδος επιλογής μεταβλητών που βασίζεται στη σύγκριση συσχετίσεων διαφορετικών ομάδων παρατηρήσεων.
περισσότερα
Περίληψη σε άλλη γλώσσα
Statistical science is inextricably linked to the biological sciences, where it is used as a tool to help draw conclusions but also to understand diseases and biological functions in general. Clinical trials and survival models are commonly described as biostatistical methods. For many years, however, a plethora of other statistical methods have been applied to medical and biological data.The general area of research of this dissertation is the application of statistical methods to biological data. More specifically, we tried to use methods that were not widely used in similar data in order to discover homogeneous data groups, to study the correlation structures of different groups, and for prediction. The data used can be grouped into three categories: a) gene expression for genes involved in a disease, b) EEG signals for the human brain's response to a stimulus, and c) sensor measurements, which record the movements of people in order to recognize activities. The statistical methods ...
Statistical science is inextricably linked to the biological sciences, where it is used as a tool to help draw conclusions but also to understand diseases and biological functions in general. Clinical trials and survival models are commonly described as biostatistical methods. For many years, however, a plethora of other statistical methods have been applied to medical and biological data.The general area of research of this dissertation is the application of statistical methods to biological data. More specifically, we tried to use methods that were not widely used in similar data in order to discover homogeneous data groups, to study the correlation structures of different groups, and for prediction. The data used can be grouped into three categories: a) gene expression for genes involved in a disease, b) EEG signals for the human brain's response to a stimulus, and c) sensor measurements, which record the movements of people in order to recognize activities. The statistical methods that were the main object of study of this dissertation are the Archetypal analysis, Structural Equation Models and comparisons of correlations. Archetypal Analysis is a method that has not received the proper attention and groups observations based on their relationship to archetypes. Archetypes are some extreme cases that can be real observations. Structural Equation Models and the comparison of correlation coefficients, study correlation or covariance structures. Structural Equations Models belong to the field of multivariate analysis and have the ability to process many equations simultaneously. In this way they can treat a variable as independent in an equation and as dependent in another equation. Comparison of correlations involves some statistical tests that examine the statistically significant difference between two correlation coefficients. It is a method that is not often used, but it is very useful in the study of heterogeneous correlation structures.Archetypal Analysis has been applied to neurological responses describing the brain activity of individuals exposed to a stimulus, for grouping them into homogeneous groups, and to clinical and biological data of patients who have undergone assisted reproduction therapy to identify which hormones contribute to the success of therapy. Structural Equation Models have been used to detect gene signaling pathways in patients with Chronic Lymphocytic Leukemia. This patient cohort consisted of two groups of patients with different clinical picture. Using Structural Equation Models, most relationships between genes were modeled and differences were identified in the signaling pathways of the two patient groups. The study of correlation structures was used in both gene expression and measurement of wearable sensors to identify activity. Based on the comparison of correlations, we proposed a new method of selecting variables for classification algorithms.The dissertation is conceptually divided into two parts. The first part concerns data grouping and includes Chapters 1 to 3. In these chapters the method of Archetypal Analysis is revised and its two applications are described. The second part deals with the study of correlation and covariance structures, which was the main part of the research and consists of Chapters 4 to 9. Two chapters describe the theory of Structural Equation Models and methods of comparing correlation coefficients and the rest concern the applications of these methods.We could summarize the main points of the dissertation's contribution to the following: a) the discovery of relationships between genes of heterogeneous groups of patients with Chronic Lymphocytic Leukemia, using Structural Equation Models b) the suggestion of an alternative way of grouping brain responses using Archetypal Analysis, c) the proposal of a new method of selecting variables based on the comparison of correlations of different observation groups.
περισσότερα