Περίληψη
Η μειωμένη ποιότητα και η αυξημένη δομική και εννοιολογική ετερογένεια των κλινικών βάσεων δεδομένων παγκοσμίως σε συνδυασμό με την παρουσία silo δεδομένων δυσκολεύουν τον διαμοιρασμό, την διασύνδεση και την επικείμενη ανάλυση των ιατρικών δεδομένων. Αυτά τα ανοιχτά ζητήματα στον τομέα της υγείας αναδεικνύουν την ανάγκη τον σχεδιασμό και την ανάπτυξη ασφαλών και αμερόληπτων ροών εργασίας AI (Τεχνητή Νοημοσύνη) για την αντιμετώπιση κλινικών ανεκπλήρωτων αναγκών, όπως: (i) η ανάπτυξη ισχυρών μοντέλων ταξινόμησης ασθενειών και διαστρωμάτωσης κινδύνου, (ii) η ανίχνευση νέων βιοδεικτών, και (iii) η ανακάλυψη στοχευμένων θεραπειών, μεταξύ άλλων. Σε αυτή τη διατριβή, στοχεύουμε να αντιμετωπίσουμε τα ανοιχτά ζητήματα και τις ανεκπλήρωτες ανάγκες στον τομέα της υγείας μέσω της ανάπτυξης καινοτόμων μεθόδων και ροών εργασίας, οι οποίες δομήθηκαν γύρω από τέσσερις κύριους τομείς καινοτομίας: (i) Περιοχή Καινοτομίας 1 - Εξυγίανση δεδομένων (data curation), όπου προτείνουμε μια πλήρως αυτοματοποιημέ ...
Η μειωμένη ποιότητα και η αυξημένη δομική και εννοιολογική ετερογένεια των κλινικών βάσεων δεδομένων παγκοσμίως σε συνδυασμό με την παρουσία silo δεδομένων δυσκολεύουν τον διαμοιρασμό, την διασύνδεση και την επικείμενη ανάλυση των ιατρικών δεδομένων. Αυτά τα ανοιχτά ζητήματα στον τομέα της υγείας αναδεικνύουν την ανάγκη τον σχεδιασμό και την ανάπτυξη ασφαλών και αμερόληπτων ροών εργασίας AI (Τεχνητή Νοημοσύνη) για την αντιμετώπιση κλινικών ανεκπλήρωτων αναγκών, όπως: (i) η ανάπτυξη ισχυρών μοντέλων ταξινόμησης ασθενειών και διαστρωμάτωσης κινδύνου, (ii) η ανίχνευση νέων βιοδεικτών, και (iii) η ανακάλυψη στοχευμένων θεραπειών, μεταξύ άλλων. Σε αυτή τη διατριβή, στοχεύουμε να αντιμετωπίσουμε τα ανοιχτά ζητήματα και τις ανεκπλήρωτες ανάγκες στον τομέα της υγείας μέσω της ανάπτυξης καινοτόμων μεθόδων και ροών εργασίας, οι οποίες δομήθηκαν γύρω από τέσσερις κύριους τομείς καινοτομίας: (i) Περιοχή Καινοτομίας 1 - Εξυγίανση δεδομένων (data curation), όπου προτείνουμε μια πλήρως αυτοματοποιημένη, αποτελεσματική και επεκτάσιμη ροή εργασιών εξυγίανσης των ιατρικών δεδομένων για τη βελτίωση της ποιότητας των ιατρικών δεδομένων, συμπεριλαμβανομένων των κλινικών και γενετικών δεδομένων σε πολλαπλά χρονικά σημεία, (ii) Τομέας Καινοτομίας 2 - εναρμόνιση δεδομένων (data harmonization), όπου προτείνουμε μια υβριδική και πλήρως αυτοματοποιημένη μέθοδο εναρμόνισης δεδομένων που συνδυάζει την λεκτική και την σημασιολογική ανάλυση βασισμένη σε ενσωματώσεις λέξεων, η οποία δομήθηκε γύρω από εξωτερικές βάσεις γνώσεων για να ξεπεραστούν οι δομικές και εννοιολογικές ετερογένειες σε κλινικές βάσεις δεδομένων, (iii) Τομέας Καινοτομίας 3 - παραγωγή συνθετικών δεδομένων (synthetic data generation), όπου προτείνουμε μια γεννήτρια μεγάλης κλίμακας συνθετικών δεδομένων με στόχο να ενισχύσει σημαντικά τη στατιστική ισχύ των κλινικών βάσεων δεδομένων με ανεπαρκές μέγεθος πληθυσμού, προκειμένου να καταστεί δυνατή η προσομοίωση κλινικών δοκιμών, καθώς και για τη βελτίωση της απόδοσης της ταξινόμησης των υφιστάμενων μοντέλων τεχνητής νοημοσύνης μέσω της επαύξησης δεδομένων και (iv) Τομέας Καινοτομίας 4 – κατανεμημένη μάθηση εντός και εκτός του νέφους (Federated/distributed learning), όπου προτείνουμε ένα πλαίσιο ανάπτυξης κατανεμημένων μοντέλων τεχνητής νοημοσύνης που καταργεί την ανάγκη εγκατάστασης τοπικών διακομιστών και την εγκατάσταση οποιουδήποτε είδους λογισμικού σε κάθε silo δεδομένων μέσω της υιοθέτησης μιας κατανεμημένης μηχανής μοντελοποίησης AI που υποστηρίζει μια μεγάλη οικογένεια κατανεμημένων αλγορίθμων τεχνητής νοημοσύνης που παράγουν ερμηνεύσιμα και επεξηγήσιμα μοντέλα τεχνητής νοημοσύνης. Η προτεινόμενη μεθοδολογία τεσσάρων σταδίων αξιολογήθηκε σε έξι διαφορετικούς κλινικούς τομείς, συμπεριλαμβανομένων των αυτοάνοσων νοσημάτων (AD) και συγκεκριμένα στο πρωτοπαθές σύνδρομο Sjögren (pSS), την υπερτροφική μυοκαρδιοπάθεια (HCM), τις καρδιαγγειακές παθήσεις (CVD), τις ψυχικές διαταραχές (MD), τις συστημικές αυτοφλεγμονώδεις νόσους (SAIDs) και συγκεκριμένα της νόσου Kawasaki (KD) και τέλος του COVID-19. Η κλινική και τεχνική απήχηση της προτεινόμενης μεθοδολογίας αποδείχθηκε επιτυχής δεδομένου ότι οδήγησε: (i) στην βελτίωση της ποιότητας των κλινικών και εργαστηριακών δεδομένων στις ασθένειες pSS, HCM, COVID-19, CVD, MD, KD, (ii) στην μείωση των επιπέδων δομικής και εννοιολογικής ετερογένειας μεταξύ κλινικών και εργαστηριακών δεδομένα στις ασθένειες pSS, CVD, MD και ταυτόχρονα επιτρέποντας την αξιολόγηση της εναρμόνισης δεδομένων μεταξύ τομέων, (iii) στην παραγωγή συνθετικών δεδομένων υψηλής ποιότητας και μεγάλης κλίμακας για κλινικές δοκιμές πυριτίου στην HCM, (iv) στην βελτίωση της απόδοσης των υπαρχόντων μοντέλων ταξινόμησης λεμφώματος και διαστρωμάτωσης κινδύνου στις ασθένειες pSS και HCM μέσω της τεχνικής επαύξησης των δεδομένων, και (v) στην παραγωγή ισχυρών μοντέλων AI για ταξινόμηση λεμφώματος σε ασθενείς με pSS, ανίχνευση βιοδεικτών για λεμφογένεση σε ασθενείς με pSS, στην ανίχνευση βιοδεικτών για τη νόσο Kawasaki, στην διαστρωμάτωση κινδύνου σε ασθενείς με HCM, στην πρόβλεψη εισαγωγής ασθενών με COVID-19 στη ΜΕΘ και στην πρόβλεψη της θνησιμότητας αυτών.
περισσότερα
Περίληψη σε άλλη γλώσσα
The reduced quality and the increased structural and conceptual heterogeneity of the clinical databases combined with the presence of data silos obscure the sharing and analysis of medical data. These open issues in healthcare leverage the development and secure deployment of robust and unbiased AI (Artificial Intelligence) workflows to address clinical unmet needs, including: (i) the development of robust disease classification and risk stratification models, (ii) the detection of new biomarkers, and (iii) the discovery of targeted therapies, among others. In this thesis, we aim to address the open issues and unmet needs in healthcare through the development of beyond the state of the art methods which are built on top of four main innovation areas: (i) Innovation Area 1 - data curation, where we propose a fully automated, efficient and scalable medical data curation workflow to enhance the quality of the diverse medical data including clinical and genetic data across multiple time-po ...
The reduced quality and the increased structural and conceptual heterogeneity of the clinical databases combined with the presence of data silos obscure the sharing and analysis of medical data. These open issues in healthcare leverage the development and secure deployment of robust and unbiased AI (Artificial Intelligence) workflows to address clinical unmet needs, including: (i) the development of robust disease classification and risk stratification models, (ii) the detection of new biomarkers, and (iii) the discovery of targeted therapies, among others. In this thesis, we aim to address the open issues and unmet needs in healthcare through the development of beyond the state of the art methods which are built on top of four main innovation areas: (i) Innovation Area 1 - data curation, where we propose a fully automated, efficient and scalable medical data curation workflow to enhance the quality of the diverse medical data including clinical and genetic data across multiple time-points, (ii) Innovation Area 2 - data harmonization, where we propose a hybrid, fully automated data harmonization workflow combining lexical and semantic analysis based on word embeddings which is built on top of external knowledge bases to overcome structural heterogeneities across clinical databases, (iii) Innovation Area 3 - synthetic data generation, where we propose a large-scale synthetic data generator to significantly enhance the statistical power of clinical databases with insufficient population size in order to enable the simulation of clinical trials, as well as, to enhance the classification performance of the existing AI models through data augmentation, and (iv) Innovation Area 4 – federated/distributed learning, where we propose a federated AI deployment framework which removes the need for the installation of local servers or any type of software in each site through the adoption of a federated AI modeling engine supporting a large family of federated AI algorithms yielding interpretable and explainable AI models. The proposed four stage workflow was evaluated across six different clinical domains, including autoimmune diseases (AD) and particularly in primary Sjogren’s Syndrome (pSS), hypertrophic cardiomyopathy (HCM), cardiovascular diseases (CVD), mental disorders (MD), systemic autoinflammatory diseases (SAIDs), and particularly Kawasaki disease (KD), and Coronavirus disease (COVID-19). The applicability of the proposed workflow was successfully demonstrated by: (i) enhancing the quality of the clinical and laboratory data in pSS, HCM, COVID-19, CVD, MD, KD, (ii) reducing the levels of structural and conceptual heterogeneity among the clinical and laboratory data in pSS, CVD, MD and at the same time enabling the evaluation of cross-domain data harmonization, (iii) producing high quality and large scale synthetic data for in silico clinical trials in HCM, (iv) augmenting the existing lymphoma classification models in pSS and HCM risk stratification models, and (v) producing robust AI models for lymphoma classification in pSS, the detection of biomarkers for lymphomagenesis, the detection of biomarkers for Kawasaki disease, HCM risk stratification, ICU admission and mortality classification in COVID-19.
περισσότερα