Ανάπτυξη υπολογιστικών μεθόδων για την πρόβλεψη ιδιοτήτων υλικών
Περίληψη
Οι δομές υλικών σε διαστάσεις 1-100 nm, γνωστές και ως νανοϋλικά (ΝΥ), χάρη ακριβώς στις διαστάσεις αυτές μεταξύ ατόμων και μορίων, αποκτούν νέες και ρυθμίσιμες ιδιότητες σε σύγκριση με αυτές του ίδιου υλικού σε μακροκλίμακα. Ήδη οι μοναδικές ιδιότητες των νανοϋλικών έχουν αξιοποιηθεί σε εφαρμογές στους καταλύτες, στα δομικά υλικά, στις ηλεκτρονικές συσκευές, στους αισθητήρες και στον τομέα των καλλυντικών. Ωστόσο οι ίδιες αυτές ιδιότητες είναι ζωτικής σημασίας για τη συμπεριφορά των ΝΥ κατά τη διάρκεια των διαφόρων σταδίων παραγωγής, επεξεργασίας και τελικής εφαρμογής, καθώς και για τις πιθανές αλληλεπιδράσεις με το περιβάλλον και τον άνθρωπο.Τα ΝΥ έχουν τη δυνατότητα να εισέρχονται στην κυκλοφορία του αίματος, να φτάνουν στους ιστούς, στα κύτταρα και στα οργανίδια, δηλαδή σε λειτουργικές βιολογικές δομές στις οποίες μεγαλύτερα σωματίδια δε θα είχαν πρόσβαση. Τοξικολογικές μελέτες καταδεικνύουν πως τα ΝΥ είναι δυνητικά επιβλαβή για τους οργανισμούς: μπορούν να διαπερνούν τα κύτταρα μέ ...
Οι δομές υλικών σε διαστάσεις 1-100 nm, γνωστές και ως νανοϋλικά (ΝΥ), χάρη ακριβώς στις διαστάσεις αυτές μεταξύ ατόμων και μορίων, αποκτούν νέες και ρυθμίσιμες ιδιότητες σε σύγκριση με αυτές του ίδιου υλικού σε μακροκλίμακα. Ήδη οι μοναδικές ιδιότητες των νανοϋλικών έχουν αξιοποιηθεί σε εφαρμογές στους καταλύτες, στα δομικά υλικά, στις ηλεκτρονικές συσκευές, στους αισθητήρες και στον τομέα των καλλυντικών. Ωστόσο οι ίδιες αυτές ιδιότητες είναι ζωτικής σημασίας για τη συμπεριφορά των ΝΥ κατά τη διάρκεια των διαφόρων σταδίων παραγωγής, επεξεργασίας και τελικής εφαρμογής, καθώς και για τις πιθανές αλληλεπιδράσεις με το περιβάλλον και τον άνθρωπο.Τα ΝΥ έχουν τη δυνατότητα να εισέρχονται στην κυκλοφορία του αίματος, να φτάνουν στους ιστούς, στα κύτταρα και στα οργανίδια, δηλαδή σε λειτουργικές βιολογικές δομές στις οποίες μεγαλύτερα σωματίδια δε θα είχαν πρόσβαση. Τοξικολογικές μελέτες καταδεικνύουν πως τα ΝΥ είναι δυνητικά επιβλαβή για τους οργανισμούς: μπορούν να διαπερνούν τα κύτταρα μέσω της κυτταρικής μεμβράνης, να συσσωρεύονται σε αυτά ή ακόμα και στον πυρήνα τους. Επίσης τα ΝΥ είναι ικανά να προκαλούν φλεγμονώδεις αποκρίσεις, να αναστέλλουν την κυτταρική ανάπτυξη και να προκαλούν κυτταρικό θάνατο (κυτοτοξικότητα). Επίσης ενδέχεται να οδηγήσουν στην παραγωγή δραστικών μορφών οξυγόνου (Reactive Oxygen Species, ROS), όπως οι ελεύθερες ρίζες, οι οποίες προκαλούν οξειδωτικό στρες, το οποίο είναι υπεύθυνο για βλάβες στο DNA, στις πρωτεΐνες και στα λιπίδια. Τέλος αναφέρονται συχνά περιπτώσεις νευροτοξικότητας και καρκινογενέσεων, λόγω της αλληλεπίδρασης κυττάρων με ΝΥ. Ως εκ τούτου, τα ίδια φυσικοχημικά χαρακτηριστικά που τους προσδίδουν μοναδικές ιδιότητες που αξιοποιούνται σε εμπορικές και ερευνητικές εφαρμογές, μπορούν να τους προσδώσουν και τοξικές ιδιότητες στα βιολογικά συστήματα, που μάλιστα διαφέρουν ανάλογα με τον τύπο της εκάστοτε νανοδομής.Η πειραματική μελέτη όλων των παραμέτρων της τοξικότητας ενός μόνο τύπου ΝΥ αποτελεί μια χρονοβόρα και πολυέξοδη διαδικασία, γεγονός που την καθιστά ασύμφορη λαμβάνοντας υπόψιν τους διαφορετικούς τύπους των ΝΥ που παράγονται καθημερινά και χρησιμοποιούνται σε διαφορετικές εφαρμογές. Ακόμη η χρήση πειραματόζωων στις πειραματικές μελέτες εγείρει προβληματισμούς σχετικά με τις ψυχοφθόρες επιπτώσεις της χρήσης και θανάτωσής τους στους ίδιους τους ερευνητές. Τέλος, η σύγχρονη ευρωπαϊκή νομοθεσία και οι τάσεις στο πεδίο έρευνας της τοξικότητας των χημικών ουσιών επιτάσσουν την ελαχιστοποίηση των πειραμάτων σε πειραματόζωα (in vivo) και την αντικατάστασή τους με πειράματα σε κυτταρικές καλλιέργειες (in vitro) αλλά και με μη πειραματικές τεχνικές (in silico) με τις οποίες θα γίνεται πρόβλεψη της τοξικότητάς τους. Κατά συνέπεια δίδεται πρόσφορο έδαφος στο πεδίο της πληροφορικής να αναπτύξει υπολογιστικές τεχνικές για την πρόβλεψη ιδιοτήτων των ΝΥ, συμπεριλαμβανομένων της βιολογικής συμπεριφοράς και της τοξικότητάς τους. Η νανοπληροφορική εστιάζει στην ανάπτυξη υπολογιστικών μοντέλων που θα προβλέπουν με ακρίβεια τις επιβλαβείς ιδιότητες των ΝΥ και ταυτόχρονα επιδιώκει την ανάπτυξη εργαλείων φιλικών-προς-το-χρήστη, ώστε οι πειραματικοί ερευνητές και οι ενδιαφερόμενοι στους ρυθμιστικούς φορείς να μπορούν να χρησιμοποιούν τα δεδομένα τους στα μοντέλα χωρίς να απαιτείται να έχουν προηγούμενο υπολογιστικό υπόβαθρο.Υπολογιστικά εργαλεία για την πρόβλεψη ιδιοτήτων υλικών και της τοξικότητάς τους Για την πρόβλεψη της τοξικότητας των ΝΥ έχει ήδη συζητηθεί η εφαρμογή μοντέλων Ποιοτικής ή Ποσοτικής Συσχέτισης Δομής-Ιδιοτήτων (Qualitative or Quantitative Structure-Activity Relationship models, QSAR), και σε περιπτώσεις εφαρμογής τους σε διάφορους τύπους ΝΥ η πρόβλεψη ήταν επιτυχής. Τα μοντέλα αυτά περισσότερο πλέον γνωστά ως nanoQSAR ή QNAR (Qualitative or Quantitative Nanostructure-Activity Relationship models) βασίζονται κυρίως στην προηγούμενη γνώση που προσφέρει το πεδίο της χημειοπληροφορικής, όπου μοντέλα είχαν αναπτυχθεί και συνεχίζουν να αναπτύσσονται για την πρόβλεψη ιδιοτήτων μικρών οργανικών μορίων.Τα μοντέλα nanoQSAR έχουν ωστόσο αδυναμίες: αφενός απαιτούν μεγάλο σύνολο δεδομένων για να εκπαιδευτούν, αλλιώς ελλοχεύει ο κίνδυνος της υπερπροσαρμογής του μοντέλου στα δεδομένα, δηλαδή είναι πιθανό να μοντελοποιηθεί ακόμη και το σφάλμα των δεδομένων εκπαίδευσης. Αφετέρου βασίζονται στην ύπαρξη ενός μοναδικού μηχανισμού τοξικότητας για να γίνει η μοντελοποίηση, γεγονός που δεν ανταποκρίνεται στην πραγματικότητα. Τα ΝΥ δεν είναι δομικά ομοιογενή και ως εκ τούτου δεν αναμένεται να υπάρχει ένας κοινός μηχανισμός τοξικότητας. Ενδεικτικά στη βιβλιογραφία αναφέρονται τέσσερις κυρίαρχοι μηχανισμοί τοξικότητας:∘ H απελευθέρωση τοξικών χημικών συστατικών λόγω της διάλυσης των ΝΥ,∘ Οι άμεσες επιπτώσεις από τη φυσική επαφή με τα ΝΥ, οι οποίες συσχετίζονται με το μέγεθος, το σχήμα και τις επιφανειακές τους ιδιότητες, και οι οποίες μπορεί να προκληθούν, για παράδειγμα, από την αλλαγή στη δομή των βιομορίων που έρχονται σε επαφή με αυτά,∘ Οι οξειδοαναγωγικές επιπτώσεις που ενδεχομένως προκύπτουν από την κρυσταλλική δομή των ΝΥ και,∘ Η ικανότητα των ΝΥ να ενεργούν ως φορείς για τη μεταφορά άλλων τοξικών χημικών ουσιών σε ευαίσθητους ιστούς (φαινόμενο του Δούρειου Ίππου).Η στρατηγική read-acrossΔεδομένου ότι τα μοντέλα nanoQSAR αφήνουν περιθώρια αμφισβήτησης ως προς την αξιοπιστία των προβλέψεών τους όταν τα πειραματικά δεδομένα σπανίζουν, η επιστημονική κοινότητα στρέφεται προς εναλλακτικές τεχνικές που βασίζονται στην πρόβλεψη ιδιοτήτων στα πλαίσια συγκεκριμένων ομάδων επαρκώς παρόμοιων ΝΥ που αναμένεται να έχουν παρόμοιες ιδιότητες (μεθοδολογία read-across). Η μεθοδολογία read-across για την πρόβλεψη ιδιοτήτων ενός υλικού βασίζεται στη χρήση δεδομένων συγγενών υλικών με γνωστές ιδιότητες. Κατ’ αυτό τον τρόπο είναι δυνατόν να περιοριστεί η πρόβλεψη σε μια μικρή περιοχή του χώρου δεδομένων και κατ’ επέκταση να μην αποτελεί πλέον ανάγκη η ύπαρξη μεγάλων συνόλων δεδομένων. Στη συνέχεια η πρόβλεψη μπορεί να επιτευχθεί εφαρμόζοντας «τοπικά» μια μεθοδολογία συσχέτισης εισόδου-εξόδου.Η μεθοδολογία read-across έχει εφαρμοστεί επιτυχώς σε προβλέψεις ιδιοτήτων και τοξικότητας καρβονυλικών ενώσεων, φωσφο-οργανικών παρασιτοκτόνων, πολικών οργανικών και άλλων χημικών ενώσεων, ωστόσο δεν έχει προχωρήσει σε ισοδύναμο βαθμό στην πρόβλεψη τοξικότητας ΝΥ. Καθώς οι πρώτες μεθοδολογίες read-across βρίσκονται σε πολύ αρχικά στάδια, το συγκεκριμένο πεδίο έρευνας είναι γόνιμο για την ανάπτυξη και δοκιμή νέων και πρωτότυπων ιδεών στα πλαίσια του read-across. Άλλωστε o Ευρωπαϊκός Οργανισμός Χημικών Προϊόντων (ΕΟΧΠ) εξέδωσε τον αντίστοιχο κανονισμό Read-Across Assessment Framework όπου περιγράφονται με σαφήνεια και συνέπεια οι αρχές που διέπουν την εν λόγω μεθοδολογία, ώστε όλο και περισσότεροι ερευνητές να ενθαρρύνονται και να διευκολύνονται στην ένταξη του read-across στην πρόβλεψη των ανεπιθύμητων ιδιοτήτων νανοδομών. Επίσης μεθοδολογίες read-across προτείνονται εκτός από την πρόβλεψη της τοξικότητας καθαυτής, και για την πρόβλεψη άλλων ιδιοτήτων όταν υπάρχουν «κενά» στις βάσεις δεδομένων.Δεδομένου ότι δεν υπάρχει ένας μοναδικός μηχανισμός τοξικότητας και κατά συνέπεια δεν ενδείκνυται η ξεχωριστή μελέτη κάθε ΝY, οι ερευνητές προτείνουν την ομαδοποίησή τους (grouping) σε κατηγορίες ανάλογα με τη σύσταση, τα δομικά, τα επιφανειακά και άλλα χαρακτηριστικά και την πρόβλεψη της τοξικότητας στα πλαίσια των ομάδων αυτών. Τα ΝΥ μπορούν να ομαδοποιηθούν αρχικά με βάση τις χημικές τους ιδιότητες (σύνθεση, επιφανειακές ιδιότητες), τις φυσικοχημικές τους ιδιότητες (μέγεθος, σχήμα, ενεργή επιφάνεια), τα χαρακτηριστικά της συμπεριφοράς τους (υδροφοβικότητα, διαλυτότητα, ικανότητα διασποράς, δυναμικό-ζ) και τον τρόπο δράσης τους (βιολογική επίδραση, φωτοχημική επίδραση, τοξική επίδραση). Προκειμένου να εναρμονιστούν οι διάφορες τεχνικές read-across που προτείνονται από τις διάφορες ερευνητικές ομάδες, ο ΕΟΧΠ πρότεινε μια σειρά επτά βημάτων που πρέπει να ακολουθηθούν ώστε να συγκροτούνται ομάδες παρόμοιων ΝΥ μέσα στις οποίες θα μπορεί να γίνει η πρόβλεψη της ιδιότητας ενδιαφέροντος . Ο ακρογωνιαίος λίθος μιας αποδεκτής διαδικασίας ομαδοποίησης είναι η διαμόρφωση μιας «υπόθεσης»-σεναρίου σύμφωνα με την οποία ταξινομούνται τα διάφορα δείγματα ΝΥ σε κλάσεις και συσχετίζονται οι γνωστές ιδιότητες εισόδου του μοντέλου (π.χ. πειραματικά δεδομένα) με την ιδιότητα εξόδου (π.χ. τοξικότητα).Η υπόθεση ομαδοποίησης περιλαμβάνει δύο σκέλη: αφενός την επιλογή εκείνων των ιδιοτήτων οι οποίες καταδεικνύουν τις ομοιότητες μεταξύ των δειγμάτων ΝΥ, και αφετέρου τον σαφή καθορισμό των ορίων μεταξύ των ομάδων. Η διαμόρφωση της υπόθεσης αυτής απαιτεί μια χρονοβόρα διαδικασία δοκιμής και σφάλματος, συμπεριλαμβανομένης της πειραματικής συλλογής δεδομένων, έως ότου επιτευχθεί σύγκλιση σε μια επιτυχημένη αλλά ακόμα μη βέλτιστη υπόθεση ομαδοποίησης. Προτεινόμενες μεθοδολογίεςΟι μέθοδοι read-across που αναπτύχθηκαν στη Διατριβή, στοχεύουν στην εξεύρεση γειτόνων (ΝΥ με παρόμοιες ιδιότητες) μεταξύ ενός συνόλου ΝΥ, λαμβάνοντας ταυτόχρονα υπόψιν μόνο τις χρήσιμες από τις διαθέσιμες πειραματικές ιδιότητές τους, προκειμένου να μην προκύπτουν υπερπροσαρμοσμένα μοντέλα. Η διαδικασία του σχηματισμού των ομάδων, της επιλογής μεταβλητών αλλά και της βελτιστοποίησης των παραμέτρων του τελικού προβλεπτικού μοντέλου, σχεδιάζονται και εκτελούνται με μια αυτοματοποιημένη διαδικασία, ώστε να παράγονται αξιόπιστα μοντέλα με τη λιγότερη αλληλεπίδραση με τον τελικό χρήστη. Η αυτοματοποίηση των διαδικασιών καταργεί την ανάγκη για τη διαδοχική εξέταση διαφόρων σεναρίων ομαδοποίησης, αφού τα όρια των βέλτιστων ομάδων προκύπτουν ως αποτέλεσμα της εφαρμογής των μεθοδολογιών. Στη Διατριβή παρουσιάστηκαν δύο κυρίαρχες ιδέες ομαδοποίησης στις οποίες βασίστηκαν οι προτεινόμενες μεθοδολογίες: η ομαδοποίηση χρησιμοποιώντας ένα ή περισσότερα κατώφλια ομοιότητας και η ομαδοποίηση με βάση τους k πλησιέστερους γείτονες.Ομαδοποίηση μέσω κατωφλιώνΣτην μεθοδολογία αυτή τα δείγματα ΝΥ τοποθετούνται στον πολυδιάστατο χώρο, με βάση τις συντεταγμένες που ορίζουν οι τιμές των μεταβλητών/ιδιοτήτων τους. Για κάθε νέα παρατήρηση που εισέρχεται στον πολυδιάστατο χώρο, υπολογίζονται οι αποστάσεις από όλα τα ΝΥ που ήδη βρίσκονται εκεί. Στη συνέχεια με βάση την τιμή ενός κατωφλιού, γείτονες θεωρούνται όσα ΝΥ απέχουν μικρότερη απόσταση από την τιμή του κατωφλιού. Η πρόβλεψη της κλάσης ή της τιμής της ιδιότητας-εξόδου υπολογίζεται με βάση την πλειοψηφία των κλάσεων των γειτόνων (ταξινόμηση) ή τον μέσο όρο της ιδιότητας-εξόδου αντίστοιχα (παλινδρόμηση). Συχνά οι γείτονες συμμετέχουν στην πρόβλεψη με κάποιο συντελεστή βαρύτητας ανάλογα με την απόστασή τους από την υπό εξέταση παρατήρηση.Υπάρχει δυνατότητα να τεθούν περισσότερα από ένα κατώφλια για την επιλογή των γειτόνων, στην περίπτωση που οι διαθέσιμες μεταβλητές μπορούν να ομαδοποιηθούν σε διάφορες κατηγορίες (για παράδειγμα στην περίπτωση των ΝΥ οι μεταβλητές μπορούν να κατηγοριοποιηθούν ανάλογα με το είδος των ιδιοτήτων που περιγράφουν: βιολογικές, φυσικοχημικές, θεωρητικά-υπολογισμένες κ.λ.π.). Κατά συνέπεια μπορούν να υπολογιστούν και και διαφορετικά είδη αποστάσεων και να τεθούν τα αντίστοιχα κατώφλια. Δύο δείγματα ΝΥ θεωρούνται γείτονες, μόνο εάν οι υπολογισμένες αποστάσεις για κάθε ομάδα μεταβλητών ικανοποιούν όλες τις τιμές των αντίστοιχων κατωφλιών. Η επιλογή της τιμής ενός ή περισσοτέρων κατωφλιών μπορεί να προκύψει είτε «αυθαίρετα» στην αρχή της ανάλυσης, είτε αυτόματα μέσα από μια διαδικασία αριστοποίησης. Αλγόριθμος των k-πλησιέστερων γειτόνωνΣτην προσπάθεια εξεύρεσης μεθοδολογιών που θα παράγουν γρήγορες και αξιόπιστες προβλέψεις, ενσωματώθηκε και η μεθοδολογία μηχανικής μάθησης που βασίζεται στον αλγόριθμο των k-πλησιέστερων γειτόνων (k-Nearest Neighbours, kNN). Σε αυτή την περίπτωση τα ΝΥ τοποθετούνται στο χώρο των ιδιοτήτων και για κάθε άγνωστο δείγμα ΝΥ υπολογίζονται οι αποστάσεις από τα υπόλοιπα δείγματα ΝΥ (όπως και στην προηγούμενη περίπτωση) και επιλέγονται οι k-πλησιέστεροί του γείτονες, όπου k ακέραιος αριθμός.Η πρόβλεψη για το άγνωστο δείγμα προκύπτει από την πλειοψηφική κλάση μεταξύ των γειτόνων στην περίπτωση της ταξινόμησης, ή λαμβάνει τιμή ίση με τον μέσο όρο των τιμών της εξαρτημένης μεταβλητής των γειτόνων στην περίπτωση της παλινδρόμησης. Για να παραχθούν πιο ευαίσθητες προβλέψεις, είναι σύνηθες οι γείτονες να συμμετέχουν με μεγαλύτερο ή μικρότερο συντελεστή βαρύτητας στην παραγωγή των προβλέψεων με βάση την απόστασή τους από την υπό εξέταση παρατήρηση. Αν και οι δύο τρόποι ομαδοποίησης έχουν κάποια κοινά χαρακτηριστικά, εμφανίζουν και κάποιες ουσιώδεις διαφορές. Σε αντίθεση με τον αλγόριθμο των kΝΝ, στην ομαδοποίηση με χρήση κατωφλιών δεν είναι συγκεκριμένος ο αριθμός των γειτόνων που θα επιλεχθούν για κάθε νέα παρατήρηση. Επίσης αν το κατώφλι είναι αρκετά αυστηρό (σχετικά μικρή τιμή) υπάρχει πιθανότητα να επιλεγούν λίγοι ή και κανένας γείτονας για μια νέα παρατήρηση, και κατά συνέπεια να είναι αδύνατη η παραγωγή προβλέψεων. Με τη μέθοδο kΝΝ πάντα θα υπάρχει δυνατότητα πρόβλεψης για κάθε δείγμα ΝΥ, ακόμα και αν κάποιοι γείτονες που επιλεγούν έχουν μικρές μόνο ομοιότητες με το υπό εξέταση ΝΥ.Τεχνικές επικύρωσης προβλεπτικών μεθοδολογιώνΣτην προσπάθεια εξεύρεσης μιας συσχέτισης μεταξύ ενός συνόλου ιδιοτήτων και μιας ιδιότητας-εξόδου (εξαρτημένη μεταβλητή), εξετάζονται διάφορες μεθοδολογίες μοντελοποίησης ή γνωστοί αλγόριθμοι. Από αυτές τις μεθοδολογίες και τους αλγορίθμους, λίγοι είναι κατάλληλοι να συσχετίσουν τα δεδομένα εισόδου με την έξοδο του μοντέλου και κατ' επέκταση να παράγουν αξιόπιστες προβλέψεις. Εξάλλου, ο σκοπός της ανάπτυξης ενός μοντέλου είναι να χρησιμοποιηθεί για την παραγωγή προβλέψεων σε νέα δεδομένα τα οποία δεν έχουν ελεγχθεί ως προς την εξαρτημένη μεταβλητή. Για το λόγο αυτό, δεν ενδείκνυται να γίνεται επικύρωση του μοντέλου με κριτήριο την επιτυχία πρόβλεψης της τιμής της εξαρτημένης μεταβλητής στα ήδη γνωστά δεδομένα που χρησιμοποιήθηκαν για την εκπαίδευσή του (ούτως ή άλλως η έξοδός τους είναι γνωστή πριν αναπτυχθεί το μοντέλο), διότι αυτό δεν δίνει καμία πληροφορία ως προς το πώς θα συμπεριφερθεί το μοντέλο σε νέα, άγνωστα δεδομένα και ως προς τη δυνατότητά του να γενικευτεί.Για να ποσοτικοποιηθεί η επίδοση ενός μοντέλου σε νέα δεδομένα, χρειάζεται να μετρηθεί το ποσοστό των λανθασμένων προβλέψεων ή η απόκλιση από την πραγματική τιμή (ανάλογα με το είδος της εξόδου) με χρήση δεδομένων που επ' ουδενί δεν χρησιμοποιήθηκαν στην ανάπτυξη του μοντέλου. Χρειάζονται λοιπόν δύο ανεξάρτητα σύνολα δεδομένων (εξωτερική αξιολόγηση), ένα που θα χρησιμοποιηθεί για την εκπαίδευση του μοντέλου (training set) και ένα για την αξιολόγηση του μοντέλου (test set). Η επιλογή των δύο συνόλων γίνεται από ένα αρχικό σύνολο δεδομένων είτε με τυχαίο τρόπο είτε χρησιμοποιώντας μια μεθοδολογία αντιπροσωπευτικής δειγματοληψίας. Στη Διατριβή χρησιμοποιήθηκε σε μεγάλο βαθμό η επιλογή υποσυνόλων με τη μέθοδο Kennard-Stone: η συγκεκριμένη μεθοδολογία είναι αρκετά διαδεδομένη και εξασφαλίζει μια ομοιόμορφη επιλογή δειγμάτων ξεκινώντας από τα «περιφερειακά» δείγματα του πολυδιάστατου χώρου που ορίζεται από τις μεταβλητές του συνόλου. Η παραπάνω διαδικασία συχνά εμφανίζεται παραλλαγμένη με τη χρήση τριών αντί δύο συνόλων δεδομένων: το σύνολο βαθμονόμησης (calibration), το σύνολο ελέγχου (validation) και το «τυφλό» σύνολο επαλήθευσης (test). Το σύνολο βαθμονόμησης χρησιμοποιείται όπως και στην περίπτωση του συνόλου εκπαίδευσης, για να βρεθούν οι παράμετροι του μοντέλου. Το σύνολο ελέγχου χρησιμοποιείται για να ελεγχθεί αν οι παράμετροι αυτές οδηγούν πράγματι σε αξιόπιστες προβλέψεις σε νέα δεδομένα. Στην περίπτωση που οι προβλέψεις είναι ικανοποιητικές, ολοκληρώνεται και η φάση της εκπαίδευσης και το μοντέλο είναι έτοιμο για χρήση. Σε αντίθετη περίπτωση, η διαδικασία της εκπαίδευσης επαναλαμβάνεται με νέες παραμέτρους έως ότου οι προβλέψεις στο σύνολο ελέγχου είναι ικανοποιητικές. Το σύνολο ελέγχου δηλαδή εποπτεύει τη διαδικασία της εκπαίδευσης και οδηγεί στη σταδιακή βελτίωση των παραμέτρων. Τέλος, οι προβλέψεις του μοντέλου ελέγχονται ως προς το «τυφλό» σύνολο επαλήθευσης, το οποίο δίνει και το σφάλμα πρόβλεψης υπό κανονικές συνθήκες. Στην περίπτωση που υπάρχει έλλειψη σχετικά μεγάλων συνόλων δεδομένων ή που επιδιώκεται η εξασφάλιση της ομοιομορφίας κατά την επιλογή των δεδομένων εκπαίδευσης και ελέγχου, προτείνεται η εφαρμογή της μεθόδου της διασταυρούμενης επικύρωσης (εσωτερική αξιολόγηση, cross validation). Με τη μέθοδο αυτή, το αρχικό σύνολο δεδομένων χωρίζεται σε δύο ισοπληθή υποσύνολα με τυχαίο τρόπο. Στη συνέχεια, το ένα υποσύνολο χρησιμοποιείται ως σύνολο εκπαίδευσης και το άλλο ως σύνολο ελέγχου αποθηκεύοντας τις προβλέψεις για τα δείγματα ελέγχου, ενώ η διαδικασία επαναλαμβάνεται αντιστρέφοντας τους «ρόλους» των δύο υποσυνόλων και αποθηκεύοντας τις προβλέψεις για τα υπόλοιπα δείγματα. Η μέθοδος γενικεύεται με διάσπαση του αρχικού συνόλου σε k υποσύνολα (k-fold cross-validation). Σε αυτή την περίπτωση οι διαδικασίες εκπαίδευσης και αξιολόγησης επαναλαμβάνονται k φορές. Σε κάθε επανάληψη, παράγονται διαδοχικά προβλέψεις για ένα από τα υποσύνολα χρησιμοποιώντας ως δεδομένα εκπαίδευσης τα υπόλοιπα k−1, λαμβάνοντας κατ' αυτό τον τρόπο σταδιακά τα συγκεντρωτικά αποτελέσματα με τις προβλέψεις για κάθε δείγμα από το αρχικό σύνολο δεδομένων. Στην περίπτωση όπου η παράμετρος k ισούται με το πλήθος των διαθέσιμων δεδομένων, κάθε σημείο ελέγχεται διαδοχικά σε ένα μοντέλο που έχει αναπτυχθεί χρησιμοποιώντας σχεδόν όλα τα διαθέσιμα δεδομένα (leave-one-out cross validation).Τέλος προκειμένου να εξασφαλιστεί ότι δεν έχουν μοντελοποιηθεί τυχαίες συσχετίσεις μεταξύ των δεδομένων εισόδου και εξόδου, εφαρμόζεται ο έλεγχος της τυχαίας επιλογής (y-randomisation ή y-scrambling). Κατά τον έλεγχο αυτό, οι τιμές της εξαρτημένης μεταβλητής ανακατεύονται και μοιράζονται τυχαία ανάμεσα στα δείγματα και στη συνέχεια αναπτύσσεται ένα μοντέλο που συσχετίζει τις ανεξάρτητες μεταβλητές εισόδου με την τυχαία έξοδο. Η διαδικασία επαναλαμβάνεται αρκετές φορές. Αν τα παραγόμενα μοντέλα έχουν καλή απόδοση στην εξωτερική αξιολόγηση, συγκρίσιμη με την απόδοση του μοντέλου που αναπτύσσεται χρησιμοποιώντας το πρωτότυπο σύνολο δεδομένων, τότε το μοντέλο δεν θεωρείται αξιόπιστο τόσο λόγω των δεδομένων όσο και της μεθοδολογίας μοντελοποίησης. Επισημαίνεται ότι οι τεχνικές αξιολόγησης δεν εξαντλούνται σε αυτές που αναφέρονται εδώ.Αφού παραχθούν προβλέψεις για τα δεδομένα ελέγχου, ανάλογα με το είδος της εξαρτημένης μεταβλητής (αριθμός/κλάση), υπολογίζονται και τα κατάλληλα μέτρα αξιολόγησης όπως προτείνεται από τον Οργανισμό Οικονομικής Συνεργασίας και Ανάπτυξης (ΟΟΣΑ). Στην περίπτωση αριθμητικής εξόδου συνηθίζεται να υπολογίζονται το μέσο τετραγωνικό σφάλμα (mean-squared error), η ρίζα του μέσου τετραγωνικού σφάλματος (root mean-squared error), ο συντελεστής συσχέτισης των δεδομένων εκπαίδευσης (correlation coefficient, R2) και ο δείκτης εξωτερικής ερμηνεύσιμης διακύμανσης (external explained variance, Q2ext). Στόχος κάθε προβλεπτικής μεθόδου είναι η ελάττωση των σφαλμάτων μεταξύ των προβλεπόμενων τιμών εξόδου ή ισοδύναμα η όσο το δυνατόν επιτυχής τους ταύτιση. Για το λόγο αυτό, οι «επιθυμητές» τιμές των σφαλμάτων που αναφέρθηκαν τείνουν στο μηδέν (0), ενώ οι «επιθυμητές» των R2 και Q2ext τείνουν στη μονάδα (1).Στην περίπτωση κατηγορικής εξόδου, τα μέτρα αξιολόγησης προκύπτουν από συνδυασμούς των συχνοτήτων σωστής ή λανθασμένης κατανομής των δειγμάτων ανάμεσα στις κλάσεις (true positives, true negatives -δείγματα που έχουν κατανεμηθεί σωστά στις δύο κλάσεις, false positives και false negatives -δείγματα που έχουν κατανεμηθεί λανθασμένα στις κλάσεις positive και negative, ενώ ανήκουν στην αντίθετη κλάση). Οι συχνότητες αυτές συχνά εμφανίζονται στις μήτρες σύγχυσης (confusion matrices) και από αυτές υπολογίζεται μια πληθώρα μέτρων όπως η ακρίβεια (accuracy), η ευαισθησία (sensitivity), η εξειδίκευση (specificity), και ο συντελεστής συσχέτισης Matthews (Matthews correlation coefficient). Οι «επιθυμητές» τιμές των στατιστικών αυτών τείνουν προς τη μονάδα (1), δηλαδή επιδιώκεται όσο το δυνατόν η απόλυτη επιτυχία στην πρόβλεψη των κλάσεων.Εργαλεία λογισμικούΓια την ανάλυση, την επεξεργασία των δεδομένων στα πλαίσια της παρούσας Διατριβής, αλλά και για την υλοποίηση των μεθοδολογιών read-across που σχεδιάστηκαν για την πρόβλεψη ιδιοτήτων υλικών, αναπτύχθηκε κώδικας σε γλώσσες προγραμματισμού R, Python και MATLAB, ενώ χρησιμοποιήθηκε και η πλατφόρμα ΚΝΙΜΕ.Μελέτες περιπτώσεωνΟι μεθοδολογίες read-across που αναπτύχθηκαν στην παρούσα Διατριβή, εφαρμόστηκαν σε μια σειρά από δεδομένα που αντλήθηκαν από τη βιβλιογραφία και έχουν χρησιμοποιηθεί κατά κόρον σε μεθόδους και εφαρμογές νανοπληροφορικής, ώστε να διαπιστωθεί και να ποσοτικοποιηθεί η ικανότητά τους να παράγουν αξιόπιστες προβλέψεις. Τα σύνολα δεδομένων αποτελούνται από ΝΥ χρυσού και αργύρου, ΝΥ με πυρήνα μεταλλικών οξειδίων και νανοσωλήνες άνθρακα πολλαπλών τοιχωμάτων. Τα σύνολα περιλαμβάνουν διάφορες ιδιότητες (περιγραφείς ή descriptors) όπως πειραματικά μετρούμενες ιδιότητες (π.χ. φυσικοχημικοί δείκτες, ανάλυση δεδομένων βιοπληροφορικής), και υπολογισμένοι περιγραφείς (π.χ. κβαντομηχανικοί και θεωρητικοί δείκτες, χαρακτηριστικά από ανάλυση εικόνων). Οι ιδιότητες αυτές αποτελούν τα δεδομένα εισόδου/ανεξάρτητες μεταβλητές στα μοντέλα που αναπτύχθηκαν προκειμένου να προβλεφθεί η εξαρτημένη μεταβλητή (endpoint). Η εξαρτημένη μεταβλητή μπορεί να είναι συνεχής (αριθμητική τιμή) ή κατηγορική (κλάση) και μπορεί να είναι η τοξικότητα των δειγμάτων ή οποιαδήποτε άλλη ιδιότητα ενδιαφέροντος. Συνοπτικά, πρόκειται για σχετικά μικρά σύνολα δεδομένων και συνεπώς κατάλληλα για την εφαρμογή των μεθόδων read-across που χρησιμοποιούνται στις περιπτώσεις ελλείψεως δεδομένων. Μεθοδολογία 1 - Ανάπτυξη και επίλυση μοντέλου μαθηματικής βελτιστοποίησης για την πρόβλεψη ιδιοτήτων υλικώνΌπως αναφέρθηκε, για την ανάπτυξη μιας αξιόπιστης μεθοδολογίας read-across το ενδιαφέρον μας εστιάστηκε αφενός στην επιλογή μεταβλητών που περιέχουν σημαντική πληροφορία για την πρόβλεψη της εκάστοτε απόκρισης και αφετέρου στη βέλτιστη επιλογή των ορίων που θα διαμορφώνουν τις «γειτονιές» συγγενών ΝΥ οδηγώντας σε πιο αξιόπιστες προβλέψεις. Και οι δύο αυτοί στόχοι, θα μπορούσαν να επιτευχθούν μέσω της ανάπτυξης ενός μοντέλου μεικτού-ακέραιου μη-γραμμικού μαθηματικού προγραμματισμού όπου στόχος είναι να ελαχιστοποιηθεί το μέσο τετραγωνικό σφάλμα (mean squared error, MSE) μεταξύ των πραγματικών τιμών εξόδου (εν προκειμένω της τοξικότητας) και των τιμών που προκύπτουν από την προβλεπτική διαδικασία για κάθε ΝΥ εντός του συνόλου με τουλάχιστον ένα γείτονα. Η ελαχιστοποίηση του μέσου τετραγωνικού σφάλματος αποτέλεσε και τον κύριο όρο της αντικειμενικής συνάρτησης (ΑΣ). Ιδιαίτερη μνεία δόθηκε στον έλεγχο της επιλογής μεταβλητών, οπότε προστέθηκε στην ΑΣ και ένας όρος ομαλοποίησης (regularisation) ο οποίος ρυθμίζει και περιορίζει τον αριθμό των μεταβλητών για να εξασφαλιστεί η ανάπτυξη απλών μοντέλων και να αποφευχθεί η υπερπροσαρμογή τους στα δεδομένα εκπαίδευσης.Το εν λόγω πρόβλημα μαθηματικού προγραμματισμού, μπορεί να επεκταθεί ενσωματώνοντας ένα ή περισσότερα κριτήρια ομοιότητας ανάλογα με τις διαφορετικές κατηγορίες ιδιοτήτων χαρακτηρισμού των ΝΥ που είναι διαθέσιμες (π.χ. βιολογικούς περιγραφείς, φυσικοχημικές ιδιότητες, μεταβλητές που προκύπτουν από προσομοιώσεις μοριακής δυναμικής κ.α.). Τα κριτήρια αυτά μπορούν να επηρεάσουν την επιλογή των γειτόνων θέτοντας περισσότερα κατώφλια για την επιλογή των γειτόνων και εισάγοντας περιορισμό για την ικανοποίηση όλων των κατωφλιών προκειμένου να επιλεγεί ένας γείτονας. H επέκταση για ένα ή περισσότερα κριτήρια θεωρείται τετριμμένη. Ωστόσο, το πρόβλημα μαθηματικής αριστοποίησης δεν δύναται να επιλυθεί αποτελεσματικά μέσω συμβατικών μεθόδων αριστοποίησης, λόγω της ύπαρξης μη-γραμμικοτήτων. Έτσι, αναπτύχθηκε ένας καινοτόμος εξελικτικός αλγόριθμος βασιζόμενος στις αρχές των γενετικών αλγορίθμων που έχουν ήδη εφαρμοστεί σε διαδικασίες βέλτιστης επιλογής μεταβλητών. Κατά τη διαδικασία αυτή κάθε πιθανή λύση (επιλεγμένες μεταβλητές και κατώφλια) απεικονίζεται ως ένα «χρωμόσωμα» που αποτελείται από τόσα «γονίδια» όσο και ο αριθμός των διαθέσιμων μεταβλητών, προσθέτοντας -σε καθορισμένες θέσεις- τον αριθμό των κατωφλιών ανάλογα με τον αριθμό των κριτηρίων ομοιότητας που εφαρμόζονται. Τα γονίδια που εκφράζουν την επιλογή ή μη μιας ιδιότητας είναι δυαδικές μεταβλητές, ενώ τα γονίδια που εκφράζουν την τιμή των κατωφλιών είναι συνεχείς. Τα δεδομένα αρχικά κανονικοποιούνται προκειμένου όλες οι μεταβλητές να αποκτήσουν το ίδιο εύρος τιμών και να συμμετέχουν ισοδύναμα στην ανάλυση. Στη συνέχεια δημιουργείται ένας τυχαίος πληθυσμός από χρωμοσώματα και καθένα αξιολογείται ως προς την προβλεπτική του ικανότητα: υπολογίζονται οι ευκλείδειες αποστάσεις μεταξύ όλων των δειγμάτων του συνόλου δεδομένων, με βάση τις επιλεγμένες μεταβλητές, και στη συνέχεια επιλέγονται για κάθε δείγμα οι γείτονες μεταξύ των δειγμάτων: εάν η ευκλείδεια απόσταση μεταξύ δύο ΝΥ είναι μικρότερη από την τιμή του κατωφλιού, τότε τα δύο ΝΥ θεωρούνται γείτονες. Για κάθε δείγμα αναφοράς, υπολογίζεται η πρόβλεψη read-across ως ο σταθμισμένος μέσος όρος των τοξικών αποκρίσεων όλων των γειτόνων του και για όλες τις προβλέψεις υπολογίζεται το μέσο τετραγωνικό σφάλμα. Στο τέλος κάθε χρωμόσωμα βαθμολογείται με την τιμή του αντιστρόφου μέσου τετραγωνικού σφάλματος. Στις επόμενες επαναλήψεις, μέχρι να ολοκληρωθεί ένα καθορισμένο πλήθος «γενεών», επιλέγονται ζεύγη χρωμοσωμάτων, με βάση τη βαθμολογία τους, και εφαρμόζονται σε αυτά οι γενετικοί τελεστές της αναπαραγωγής και της μετάλλαξης: τα χρωμοσώματα αρχικά διασταυρώνονται σε τυχαίες θέσεις και στη συνέχεια με βάση μια προκαθορισμένη τιμή πιθανότητας, οι τιμές των γονιδίων που αντιστοιχούν σε μεταβλητές μεταβάλλονται από 0 σε 1 και αντίστροφα, ενώ οι τιμές των γονιδίων που αντιστοιχούν σε κατώφλια μεταβάλλονται με βάση μια συνάρτηση. Ο νέος πληθυσμός χρωμοσωμάτων αξιολογείται ξανά, και η παραπάνω διαδικασία επαναλαμβάνεται. Το χρωμόσωμα με την υψηλότερη βαθμολογία κατά την εξελικτική διαδικασία, δίδεται αυτόματα ως έξοδος του αλγορίθμου. Ο παραπάνω εξελικτικός αλγόριθμος χρησιμοποιήθηκε και για την ανάπτυξη μοντέλων κατηγοριοποίησης με ανάλογο τρόπο. Οι διαφορές εντοπίζονται στον υπολογισμό της πρόβλεψης (σταθμισμένη ψήφος των γειτόνων ανά κλάση, και στον τρόπο υπολογισμού της επίδοσης των πιθανών λύσεων μέσω της χρήσης του συντελεστή Matthews. Προκειμένου να αξιολογηθεί, η προτεινόμενη μεθοδολογία εφαρμόστηκε σε πέντε μελέτες περιπτώσεων και ελέγχθηκαν τα αποτελέσματα με και χωρίς τη χρήση παράγοντα ομαλοποίησης αλλά και με τη χρήση περισσοτέρων του ενός κριτηρίων ομαδοποίησης (περισσότερα κατώφλια ομοιότητας). Η μεθοδολογία εφαρμόστηκε σε ένα σύνολο 84 ΝΥ χρυσού, αρχικά λαμβάνοντας υπόψιν όλες τις διαθέσιμες μεταβλητές και ένα κατώφλι ομοιότητας και στη συνέχεια θεωρώντας δύο είδη μεταβλητών και δύο κατώφλια ομοιότητας (ένα φυσικοχημικό και ένα βιολογικό). Τα μοντέλα αξιολογήθηκαν για την ποιότητα των προβλέψεών τους στο σύνολο επαλήθευσης (test set) και η αξιοπιστία τους έφτασε στο Q2ext =0.78 με χρήση ενός κατωφλιού και στο Q2ext =0.83 με χρήση δύο κατωφλιών ομοιότητας. Η μεθοδολογία εφαρμόστηκε και σε ένα σύνολο 28 νανοσωλήνων άνθρακα πολλαπλών τοιχωμάτων με χρήση ενός κατωφλιού ομοιότητας και η αξιοπιστία των μοντέλων έφτασε στο Q2ext=0.81.Όσον αφορά την ανάπτυξη μοντέλων κατηγοριοποίησης, η μεθοδολογία εφαρμόστηκε στα δεδομένα 25 ΝΥ με πυρήνα μεταλλικών οξειδίων και η ακρίβεια της πρόβλεψης έφτασε στο 100% χρησιμοποιώντας είτε ένα είτε δύο κατώφλια ομοιότητας. Η εφαρμογή της μεθοδολογίας σε δύο ακόμη σύνολα δεδομένων απέδωσε ικανοποιητικά αποτελέσματα στην εξωτερική αξιολόγηση με ακρίβεια προβλέψεων στο σύνολο επαλήθευσης ίση ή μεγαλύτερη του 80%. H διάθεση της παραπάνω αυτοματοποιημένης μεθοδολογίας ανάπτυξης μοντέλων read-across πραγματοποιήθηκε με την ανάπτυξη μιας εφαρμογής με το όνομα Apellis που υλοποιεί την μεθοδολογία και διευκολύνει το ευρύ επιστημονικό κοινό να την χρησιμοποιήσει μέσα από ένα εύχρηστο περιβάλλον. Το γραφικό περιβάλλον από μενού και κουμπιά επιτρέπει την πρόσβαση στη μεθοδολογία ακόμα και από άτομα που δε διαθέτουν βαθιές υπολογιστικές γνώσεις. Οι ενδιαφερόμενοι χρήστες δύνανται να χρησιμοποιήσουν τα δικά τους δεδομένα (που δεν περιορίζονται μόνο σε δεδομένα νανοτοξικότητας) ώστε να αναπτύξουν είτε μοντέλα παλινδρόμησης είτε μοντέλα κατηγοριοποίησης με τη χρήση ενός ή δύο κατωφλιών ομοιότητας. Η εφαρμογή είναι ελεύθερα διαθέσιμη από τον ακόλουθο σύνδεσμο: https://apellis.jaqpot.org/, ενώ διατίθεται πλούσιο εκπαιδευτικό υλικό για τη χρήση της. Για την υλοποίηση της μεθοδολογίας αυτής, αναπτύχθηκε κώδικας σε γλώσσα προγραμματισμού MATLAB ενώ η εφαρμογή Apellis αναπτύχθηκε σε γλώσσα R με χρήση του πακέτου shiny.Μεθοδολογία 2 - Ανάπτυξη μεθοδολογίας ομαδοποίησης βάσει βελτιστοποιημένου αλγορίθμου τμηματικής γραμμικής παλινδρόμησηςΗ μεθοδολογία που περιγράφηκε στην προηγούμενη παράγραφο, λόγω του στοχαστικού της χαρακτήρα, παράγει λύσεις κοντά στη βέλτιστη. Επίσης ο χρόνος εκπαίδευσης -ειδικά στην περίπτωση μεγάλων συνόλων δεδομένων- είναι αρκετά μεγάλος. Προκειμένου να βελτιωθούν τα αναφερόμενα χαρακτηριστικά της προηγούμενης μεθοδολογίας, αναπτύχθηκε μια ακόμα αυτοματοποιημένη μέθοδος ομαδοποίησης και πρόβλεψης στα πλαίσια του read-across. H μεθοδολογία αυτή βασίζεται στην ανάπτυξη και επίλυση ενός προβλήματος μεικτού-ακέραιου γραμμικού προγραμματισμού το οποίο πραγματοποιεί επιλογή μεταβλητών, δημιουργία ομάδων ΝΥ βάσει μιας ή περισσοτέρων γνωστών ιδιοτήτων τους (ανεξάρτητες μεταβλητές) και ανάπτυξη τοπικών γραμμικών μοντέλων πρόβλεψης της τοξικότητας των ΝΥ ανά ομάδα (τμηματική γραμμική παλινδρόμηση).Ο στόχος αυτής της μεθοδολογίας είναι και πάλι η ελαχιστοποίηση των διαφορών μεταξύ των προβλεπόμενων και των πραγματικών τιμών της ιδιότητας εξόδου και επιτυγχάνεται με την ελαχιστοποίηση της τιμής του μέσου τετραγωνικού σφάλματος (mean absolute error, MAE). Όπως και στην προηγούμενη μεθοδολογία εισάχθηκε στην ΑΣ ένας όρος ομαλοποίησης, ο οποίος ρυθμίζεται από έναν παράγοντα ομαλοποίησης λ. Η ελαχιστοποίηση της ΑΣ του προβλήματος εξασφαλίζει δηλαδή τόσο την ακριβή πρόβλεψη της εξόδου όσο και τη χρήση μόνο των απαραίτητων ιδιοτήτων για την πρόβλεψη της εξόδου, κάνοντας μια έμμεση επιλογή μεταβλητών. Στη συνέχεια, οι περιορισμοί του προβλήματος εξασφαλίζουν ότι τα σημεία διαμέρισης -με βάση την μεταβλητή διαμέρισης- είναι διαδοχικά, ότι κάθε δείγμα ανήκει αποκλειστικά και μόνο σε μια περιοχή και τοποθετείται σε αυτή με βάση την τιμή της ιδιότητας διαμέρισης, ενώ η πρόβλεψη γίνεται εφαρμόζοντας ένα γραμμικό μοντέλο ανά περιοχή. Σε περίπτωση που είναι διαθέσιμα δεδομένα για δύο ή περισσότερες κατηγορίες ιδιοτήτων των ΝΥ, είναι δυνατόν να χρησιμοποιηθούν περισσότερες ιδιότητες (μία από κάθε κατηγορία) που διαχωρίζουν το πεδίο ορισμού σε περιοχές, σε καθεμιά από τις οποίες -κατ' αντιστοιχία- εφαρμόζονται μοντέλα γραμμικής παλινδρόμησης. Το παραπάνω πρόβλημα αριστοποίησης εφαρμόζεται στο πλαίσιο μιας συνολικής μεθοδολογίας, η οποία, ως πρώτο βήμα, αναζητά, από τις διαθέσιμες ιδιότητες εκείνη που μπορεί να χωρίσει το πεδίο ορισμού (τα διαθέσιμα δείγματα) σε περιοχές στον πολυδιάστατο χώρο. Αυτό επιτυγχάνεται επιλύοντας το πρόβλημα αριστοποίησης χρησιμοποιώντας κάθε φορά μια από τις διαθέσιμες μεταβλητές ως μεταβλητή διαμέρισης και δημιουργώντας δύο περιοχές. Στη συνέχεια σε κάθε περιοχή εφαρμόζεται ένα γραμμικό μοντέλο που προβλέπει την έξοδο και καταγράφονται τα σφάλματα πρόβλεψης. Από τις διαθέσιμες μεταβλητές εισόδου, αυτή που οδηγεί στα μικρότερα σφάλματα επιλέγεται και ως μεταβλητή διαμέρισης. Στη συνέχεια, εξετάζεται η προσθήκη περισσότερων περιοχών, επιλύοντας και πάλι το πρόβλημα μαθηματικής αριστοποίησης έως ότου να μην υπάρχει ικανοποιητική βελτίωση των σφαλμάτων μεταξύ δύο διαδοχικών προσθηκών επιπλέον περιοχής. Μετά το πέρας της διαδικασίας προσθήκης επιπλέον περιοχών, προκύπτει αυτόματα και η υπόθεση ομαδοποίησης που αποτελείται από τη μεταβλητή διαμέρισης, τα σημεία (συντεταγμένες) διαμέρισης, το πλήθος των περιοχών και τους συντελεστές των γραμμικών μοντέλων σε κάθε περιοχή. Λόγω του αιτιοκρατικού χαρακτήρα της μεθοδολογίας, η λύση του προβλήματος μαθηματικού προγραμματισμού είναι η βέλτιστη (και όχι μια λύση κοντά στη βέλτιστη) οπότε και η προκύπτουσα υπόθεση συνιστά και τη βέλτιστη υπόθεση ομαδοποίησης. Η μεθοδολογία εφαρμόστηκε με επιτυχία σε δύο σύνολα δεδομένων. Στην πρώτη περίπτωση χρησιμοποιήθηκε όπως και προηγουμένως το σύνολο των 84 ΝΥ χρυσού, αρχικά επιλέγοντας μία μόνο μεταβλητή διαμέρισης και στη συνέχεια επιλέγοντας δύο μεταβλητές μια φυσικοχημική ιδιότητα και μια βιολογική. Τα μοντέλα αξιολογήθηκαν για την ποιότητα των προβλέψεών τους στο σύνολο επαλήθευσης (test set) και η αξιοπιστία τους -σε όρους εξωτερικής ερμηνεύσιμης διακύμανσης- ήταν ίση με Q2ext=0.88 με χρήση μίας μεταβλητής και ίση με Q2ext=0.86 με χρήση δύο μεταβλητών. Η μεθοδολογία εφαρμόστηκε και στο σύνολο 28 νανοσωλήνων άνθρακα πολλαπλών τοιχωμάτων με χρήση μιας μεταβλητής διαμέρισης και η αξιοπιστία του μοντέλου ήταν ίση με Q2ext=0.86. Τα μοντέλα που παράχθηκαν από τη μεθοδολογία αυτή, βρίσκονται διαθέσιμα μέσω της διαδικτυακής εφαρμογής vythos (https://vythos.jaqpot.org/), η οποία δημιουργήθηκε με στόχο την «φιλοξενία» των μοντέλων που προκύπτουν από την προαναφερθείσα μεθοδολογία. Οι ενδιαφερόμενοι χρήστες, μέσω ενός φιλικού περιβάλλοντος και εφαρμόζοντας μια σειρά απλών βημάτων, μπορούν εντός δευτερολέπτων να λάβουν προβλέψεις για άγνωστα δείγματα και πληροφορίες για την αξιοπιστία των προβλέψεων αυτών. Επίσης, παρέχεται η πληροφορία σχετικά με την ομάδα/περιοχή στην οποία ανήκουν τα άγνωστα δείγματα και η θέση τους ως προς τη θέση των δειγμάτων του συνόλου εκπαίδευσης, όπως αυτή ορίζεται από τις τιμές των μεταβλητών διαμέρισης και της ιδιότητας εξόδου. Για την υλοποίηση της μεθοδολογίας αυτής, αναπτύχθηκε κώδικας σε γλώσσα προγραμματισμού MATLAB ενώ η εφαρμογή vythos αναπτύχθηκε σε γλώσσα R με χρήση του πακέτου shiny.Μεθοδολογία 3 - Ανάπτυξη μεθοδολογίας ομαδοποίησης με βάση τη βέλτιστη διαίρεση της μεταβλητής απόκρισηςΠροκειμένου να εντοπίζονται μοτίβα στην ιδιότητα ενδιαφέροντος/εξαρτημένη μεταβλητή (π.χ. τοξικότητα) η προηγούμενη μεθοδολογία επεκτάθηκε με την ανάπτυξη ενός προβλήματος μεικτού-ακέραιου γραμμικού προγραμματισμού που δημιουργεί ομάδες παρόμοιων ΝΥ, χωρίζοντας το πεδίο ορισμού με βάση την ιδιότητα εξόδου.Ο στόχος και αυτής της μεθοδολογίας είναι η ελαχιστοποίηση των διαφορών μεταξύ των προβλεπόμενων και των πραγματικών τιμών της ιδιότητας εξόδου και επιτυγχάνεται με την ελαχιστοποίηση της τιμής του μέσου τετραγωνικού σφάλματος (MAE). Όπως και στις προηγούμενες μεθοδολογίες εισάχθηκε στην ΑΣ ένας όρος ομαλοποίησης. Ωστόσο, σε αυτή την περίπτωση το πεδίο των δεδομένων δεν χωρίζεται με βάση μία ή περισσότερες μεταβλητές εισόδου αλλά με βάση τη μεταβλητή απόκρισης (έξοδος). Οι περιορισμοί του προβλήματος εξασφαλίζουν ότι τα σημεία διαμέρισης -με βάση την μεταβλητή εξόδου- θα είναι διαδοχικά, ότι κάθε περιοχή θα περιέχει τουλάχιστον ένα δείγμα, ότι κάθε δείγμα θα ανήκει αποκλειστικά και μόνο σε μία περιοχή και θα τοποθετείται σε αυτή με βάση την τιμή της ιδιότητας εξόδου, ενώ η πρόβλεψη θα γίνεται εφαρμόζοντας ένα γραμμικό μοντέλο ανά περιοχή. Στη συνέχεια, για την κατανομή άγνωστων δειγμάτων στις διάφορες περιοχές, για καθεμιά από αυτές ορίζεται το «χαρακτηριστικό» της κέντρο, με βάση τις επιλεγμένες μεταβλητές και τα δείγματα που ανήκουν σε αυτή. Για την καταχώριση των αγνώστων δειγμάτων υπολογίζεται η Ευκλείδεια απόστασή τους από όλα τα χαρακτηριστικά κέντρα και το δείγμα τοποθετείται στην περιοχή από την οποία το δείγμα έχει την ελάχιστη απόσταση. Η μεθοδολογία grouping/read-across με βάση τη μεταβλητή απόκρισης αποτελεί μέρος μιας ευρύτερης ροής βημάτων (μεθοδολογία demos), η οποία καταλήγει στο βέλτιστο μοντέλο μεταξύ ενός μοντέλου πολλαπλής γραμμικής παλινδρόμησης, ενός μοντέλου τύπου LASSO και της μεθοδολογίας grouping/read-across. Αρχικά εφαρμόζονται στα δεδομένα οι μεθοδολογίες γραμμικής παλινδρόμησης και LASSO και καταγράφονται κάποια αρχικά σφάλματα. Στη συνέχεια για ένα εύρος τιμών του παράγοντα ομαλοποίησης λ, εφαρμόζεται η μεθοδολογία grouping. Σε κάθε επανάληψη επιλύεται το πρόβλημα μαθηματικού προγραμματισμού για δύο περιοχές και διαδοχικά ελέγχεται η περαιτέρω αύξηση του αριθμού των περιοχών. Αφού επιλυθεί και η μεθοδολογία grouping/read-across για διάφορες τιμές του λ, επιλέγεται το βέλτιστο μοντέλο, σε όρους ελάχιστου σφάλματος κατά την εξωτερική αξιολόγηση, μεταξύ των τριών μεθόδων που εφαρμόζονται.Η μεθοδολογία εφαρμόστηκε στο σύνολο των 84 ΝΥ χρυσού το οποίο χωρίστηκε σε δύο περιοχές και η αξιοπιστία των προβλέψεων -σε όρους εξωτερικής ερμηνεύσιμης διακύμανσης- ήταν ίση με Q2ext=0.83. Χάρη στη διαίρεση του χώρου των δεδομένων με βάση την ιδιότητα εξόδου, υπήρξε η δυνατότητα να παρατηρηθούν μοτίβα στις σχηματιζόμενες περιοχές. Όπως διαπιστώθηκε στη δεύτερη περιοχή τα δείγματα που συγκεντρώθηκαν είχαν κατιονική επίστρωση στην επιφάνειά τους, γεγονός που βρίσκεται σε συμφωνία με τη βιβλιογραφία, καθώς τα κατιονικά ΝΥ χρυσού έχουν πιο τοξικό χαρακτήρα από τα ανιονικά.Για την υλοποίηση της μεθοδολογίας αυτής, αναπτύχθηκε κώδικας σε γλώσσα προγραμματισμού Python και αξιοποιήθηκαν τα εργαλεία μαθηματικής αριστοποίησης (πακέτο mip) και παράλληλης εκτέλεσης (πακέτο multiprocessing) που παρέχονται, εκτός από τα διαθέσιμα πακέτα ανάλυσης δεδομένων (πακέτα numpy, pandas, scikit-learn).Μεθοδολογία 4 - Ανάπτυξη μοντέλων read-across βάσει της μεθοδολογίας των k-πλησιέστερων γειτόνωνΣτην τελευταία ενότητα της Διατριβής παρουσιάζεται η χρήση της μεθοδολογίας μηχανικής μάθησης των k-πλησιέστερων γειτόνων (kNN), ως μια εναλλακτική μεθοδολογία τύπου read-across. Δεδομένου ότι για την πρόβλεψη της απόκρισης ενός δείγματος χρησιμοποιούνται δεδομένα «συγγενών» δειγμάτων (υπό την έννοια της ομοιότητας των μεταξύ τους ιδιοτήτων) και η πρόβλεψη περιορίζεται σε ένα μικρό μέρος του χώρου των δειγμάτων, ο αλγόριθμος αυτός μπορεί να χρησιμοποιηθεί για τη δημιουργία ομάδων παρόμοιων δειγμάτων υλικών. Η μεθοδολογία kNN εφαρμόστηκε σε δύο σύνολα δεδομένων. Στην πρώτη εφαρμογή, πραγματοποιήθηκε μοντελοποίηση των τοξικών και βιολογικών επιδράσεων επικαλυμμένων νανοσωλήνων άνθρακα (decorated multi-walled carbon nanotubes, MWCNTs). Συγκεκριμένα, αναπτύχθηκαν μέσω της πλατφόρμας ΚΝΙΜΕ δύο μοντέλα κατηγοριοποίησης της μορφής kNN/read-across, ένα για την πρόβλεψη της κυτοτοξικότητας («τοξικά»/»μη τοξικά» δείγματα) και ένα για την ιδιότητα της πρωτεϊνικής πρόσδεσης («πρωτεϊνικοί προσδέτες»/»μη πρωτεϊνικοί προσδέτες»). Η πρωτεϊνική πρόσδεση (protein binding) συσχετίζεται άμεσα με την τοξικότητα καθώς υψηλές τιμές συνδέονται με μια αυξημένη τάση ενός νανοσωλήνα άνθρακα να καθιστά τα κύτταρα πιο ευαίσθητα στη φαγοκυττάρωση. Για την ανάπτυξη των μοντέλων υπολογίστηκαν, μέσω του λογισμικού Mold2, 777 θεωρητικοί περιγραφείς-ιδιότητες που κωδικοποιούν γεωμετρικά και τοπολογικά χαρακτηριστικά των επιφανειακών μορίων επικάλυψης των νανοσωλήνων. Δεδομένου ότι οι νανοσωλήνες έχουν ακριβώς τις ίδιες διαστάσεις και διαφέρουν μόνο ως προς το είδος των μορίων της επιφάνειάς τους, έγινε η παραδοχή ότι οι διαφορές στην τοξική και στη βιολογική τους συμπεριφορά εξαρτώνται μόνο από την επιφανειακή τους επικάλυψη. Τα δεδομένα κανονικοποιήθηκαν με χρήση της γκαουσιάνης κανονικοποίησης και ο όγκος τους μειώθηκε απομακρύνοντας τις ιδιότητες που περιείχαν τιμές με μικρή διακύμανση. Για κάθε μεταβλητή απόκρισης (τοξικότητα και πρωτεϊνική πρόσδεση) αναπτύχθηκε ένα μοντέλο. To αρχικό σύνολο δεδομένων χωρίστηκε τυχαία σε σύνολο εκπαίδευσης και σύνολο επαλήθευσης με αναλογία 75:25. Στη συνέχεια, το σύνολο εκπαίδευσης χωρίστηκε τυχαία σε δύο επιμέρους υποσύνολα βαθμονόμησης και ελέγχου, με αναλογία 50:25 του αρχικού συνόλου. Το σύνολο βαθμονόμησης χρησιμοποιήθηκε για την επιλογή μεταβλητών και την εύρεση του βέλτιστου αριθμού γειτόνων, k. Για την επιλογή μεταβλητών χρησιμοποιήθηκε η μεθοδολογία InfoGain σε συνδυασμό με τον αξιολογητή Ranker. Για την εύρεση του βέλτιστου αριθμού γειτόνων αξιολογήθηκε η ικανότητα παραγωγής αξιόπιστων προβλέψεων στα δεδομένα του συνόλου ελέγχου, υπολογίζοντας τα στατιστικά της αξιοπιστίας, ευαισθησίας, ειδικότητας, αλλά και πραγματοποιώντας έλεγχο τυχαίας επιλογής. Τέλος η ακρίβεια των μοντέλων αξιολογήθηκε στο «τυφλό» σύνολο επικύρωσης, το οποίο δε συμμετείχε στη διαδικασία της εκπαίδευσης και παρομοιάζει τη χρήση του μοντέλου υπό πραγματικές συνθήκες. Για το μοντέλο της τοξικότητας επιλέχθηκαν 6 περιγραφείς και ο βέλτιστος αριθμός γειτόνων βρέθηκε ίσος με 7. Η ακρίβεια πρόβλεψης για τα σύνολα ελέγχου και επικύρωσης υπολογίστηκε ίση με 0.78 και 0.84 αντίστοιχα. Ομοίως για το μοντέλο της πρωτεϊνικής πρόσδεσης επιλέχθηκαν 6 περιγραφείς και ο βέλτιστος αριθμός γειτόνων βρέθηκε ίσος με 3. Η ακρίβεια πρόβλεψης για τα σύνολα ελέγχου και επικύρωσης υπολογίστηκε ίση με 0.75 και 0.86 αντίστοιχα. Τέλος ορίστηκε και το πεδίο εφαρμογής των μοντέλων.Tα δύο μοντέλα αποτέλεσαν μέρος μιας διαδικτυακής εφαρμογής για την πρόβλεψη ανεπιθύμητων ιδιοτήτων των νανοϋλικών η οποία είναι διαθέσιμη από τον σύνδεσμο: http://enaloscloud.novamechanics.com/EnalosWebApps/CNT/. Η εφαρμογή είναι εύκολη στη χρήση ακόμα και από χρήστες χωρίς υπολογιστική εμπειρία, καθώς μέσα από το γραφικό περιβάλλον μπορούν να εισάγουν τα δεδομένα τους και να λάβουν τις αντίστοιχες προβλέψεις με το πάτημα μερικών κουμπιών.Στη δεύτερη εφαρμογή μοντελοποίησης με χρήση της μεθοδολογίας kΝΝ, αναπτύχθηκε ένα μοντέλο πρόβλεψης του δυναμικού-ζ (zeta-potential index) ενός συνόλου δεδομένων νανοσωματιδίων με γνωστές γεωμετρικές ιδιότητες. Συγκεκριμένα, έγινε ανάλυση μιας σειράς 68 εικόνων μικροσκοπίας ΤΕΜ νανοσωματιδίων μέσω της διαδικτυακής εφαρμογής NanoXtract και εξήχθησαν 18 χρήσιμοι περιγραφείς των γεωμετρικών τους χαρακτηριστικών. Οι δείκτες αυτοί στη συνέχεια χρησιμοποιήθηκαν ως μεταβλητές εισόδου για την ανάπτυξη ενός υπολογιστικού μοντέλου τύπου kNN/read-across για την πρόβλεψη της ιδιότητας του δυναμικού-ζ. Στις ανεξάρτητες μεταβλητές προστέθηκαν το pH του διαλύματος που έγινε η μέτρηση του δυναμικού-ζ και το είδος του πυρήνα των νανοσωματιδίων (καθαρό μέταλλο/μεταλλικό οξείδιο). Οι αριθμητικές τιμές των εξαρτημένων μεταβλητών και της μεταβλητής απόκρισης κανονικοποιήθηκαν. To σύνολο δεδομένων χωρίστηκε τυχαία σε σύνολο εκπαίδευσης και σύνολο επαλήθευσης με αναλογία 75:25 και στο σύνολο εκπαίδευσης πραγματοποιήθηκε επιλογή μεταβλητών με τη μεθοδολογία BestFirst σε συνδυασμό με τον αξιολογητή CfsSubsetEval. Οι μεταβλητές που χρησιμοποιήθηκαν για τη μοντελοποίηση είναι το είδος του πυρήνα των νανοσωματιδίων και ο γεωμετρικός δείκτης της κύριας επιμήκυνσης (main elongation). Το pH του διαλύματος (6.5 ή 7) είναι επίσης απαραίτητο για την πρόβλεψη. Επιλέχθηκε ο βέλτιστος αριθμός γειτόνων ίσος με 7 για την πρόβλεψη του δυναμικού-ζ. Το μοντέλο αξιολογήθηκε για την ποιότητα των προβλέψεών του στο σύνολο επαλήθευσης με Q2ext=0.91, ενώ πέρασε και από άλλα τεστ αξιολόγησης που προτείνονται στη βιβλιογραφία όπως ο έλεγχος τυχαίας επιλογής. Ορίστηκε επίσης και το πεδίο εφαρμογής του μοντέλου. Η μοντελοποίηση πραγματοποιήθηκε με το ελεύθερο λογισμικό ΚΝΙΜΕ. Βαρύτητα δόθηκε στη μελέτη της φυσικής διάστασης του προβλήματος, μέσω προσεκτικής μελέτης της βιβλιογραφίας, ώστε να ερμηνευτεί η επιρροή των γεωμετρικών χαρακτηριστικών των νανοσωματιδίων στον δείκτη του δυναμικού-ζ. Το μοντέλο που αναπτύχθηκε αποτέλεσε τη βάση για την ανάπτυξη μιας διαδικτυακής εφαρμογής, η οποία είναι διαθέσιμη στο σύνδεσμο http://enaloscloud.novamechanics.com/EnalosWebApps/ZetaPotential/. Οι ενδιαφερόμενοι χρήστες με μια σειρά απλών βημάτων δύνανται να εισάγουν τα δεδομένα τους και να λάβουν και τις αντίστοιχες προβλέψεις. Επίλογος-ΣυμπεράσματαΗ νανοπληροφορική είναι ένα ανερχόμενο πεδίο το οποίο –λαμβάνοντας υπόψιν το πλήθος των εφαρμογών της νανοτεχνολογίας, την ανάγκη για άμεση διερεύνηση των ανεπιθύμητων επιδράσεων των NY στους ζωντανούς οργανισμούς και την ανάγκη για μείωση των πειραμάτων σε πειραματόζωα- λαμβάνει υποστήριξη από την ερευνητική κοινότητα και τους φορείς όπως η Ευρωπαϊκή Ένωση. Η συμβολή της παρούσας Διατριβής στο πεδίο αυτό είναι σημαντική για τη γρήγορη και αξιόπιστη πρόβλεψη τοξικών και άλλων ιδιοτήτων ΝΥ. Όλες οι μεθοδολογίες που αναπτύχθηκαν, εφαρμόστηκαν σε βιβλιογραφικά δεδομένα και ελέγχθηκαν βάσει των οδηγιών του ΟΟΣΑ. Ο έλεγχος απέδειξε ότι πρόκειται για καινοτόμες και αξιόπιστες μεθοδολογίες που βελτιώνουν την ικανότητα πρόβλεψης των ήδη υπαρχόντων μοντέλων και οι οποίες θα συμβάλουν καταλυτικά στην έρευνα της τοξικότητας ΝΥ. Με αυτές τις μεθοδολογίες θα επιταχυνθεί η αξιολόγηση των πιθανών κινδύνων των ΝΥ που ήδη υπάρχουν στην αγορά ή βρίσκονται σε φάση ανάπτυξης, ενώ θα ελαχιστοποιηθούν οι απαιτούμενοι πόροι (κόστος και εργασία) για την πειραματική τους αξιολόγηση.Τα αποτελέσματα της έρευνας διατίθενται ελεύθερα, είτε ως πηγαίος κώδικας στο αποθετήριο GitHub, είτε μέσω διαδικτυακών εφαρμογών, σε όλη την επιστημονική κοινότητα ώστε να επωφεληθεί από την υπολογιστική μελέτη της τοξικότητας των ΝY. Με αυτό τον τρόπο μπορούν να χρησιμοποιούνται άμεσα και δωρεάν. Μάλιστα, μέσω ενός γραφικού περιβάλλοντος φιλικού-προς-το χρήστη, τα μοντέλα είναι εύκολα προσβάσιμα και σε ερευνητές που δεν έχουν εξειδικευμένες υπολογιστικές γνώσεις (π.χ. πειραματιστές), ώστε να μπορούν εύκολα να εφαρμόζουν τις τεχνικές απευθείας στα πειραματικά τους δεδομένα. Με τον τρόπο αυτό μεγιστοποιείται η συμβολή της νανοπληροφορικής στην επιστημονική έρευνα στο πεδίο της τοξικότητας.Αναλυτικότερα, οι τεχνικές που αναπτύχθηκαν και παρουσιάζονται σε αυτή τη Διατριβή, μπορούν να εφαρμοστούν στις ακόλουθες περιπτώσεις, διευκολύνοντας την επιστημονική έρευνα στο πεδίο της νανοτοξικότητας και συμβάλλοντας στη μείωση των πειραμάτων σε πειραματόζωα:∘ Κατά τις διαδικασίες εκτίμησης του κινδύνου χρήσης των ΝΥ που ήδη βρίσκονται στο εμπόριο,∘ Για την ιεράρχηση κατά την πειραματική αξιολόγηση των ΝΥ, αποκλείοντας ΝΥ που ήδη έχουν προβλεφθεί ως τοξικά, εξοικονομώντας χρόνο και κόστος,∘ Για την ανάπτυξη νέων ασφαλέστερων και αποδοτικότερων ΝΥ από τη φάση του σχεδιασμού και πριν την μαζική παραγωγή τους (safety-by-design),∘ Για τον εντοπισμό των ιδιοτήτων των ΝΥ οι οποίες πρέπει να ρυθμιστούν ώστε να παράγονται ασφαλή ΝΥ,∘ Για τον εντοπισμό των ιδιοτήτων των ΝΥ οι οποίες πρέπει να ρυθμιστούν ώστε να παράγονται ΝΥ με βελτιωμένα χαρακτηριστικά,∘ Για την κάλυψη των «κενών» στο χώρο των ιδιοτήτων των ΝΥ και,∘ Για διευκόλυνση των Ρυθμιστικών Αρχών ώστε να εντοπίζονται τα όρια ομαδοποίησης ΝΥ και να εντάσσονται στους κανονισμούς.Τέλος, θα πρέπει να τονιστεί ότι οι μεθοδολογίες αυτές έχουν καθολικό χαρακτήρα και θα μπορούσαν να εφαρμοστούν και σε άλλα προβλήματα πρόβλεψης ιδιοτήτων υλικών και γενικότερα της Επιστήμης των Δεδομένων.
περισσότερα
Περίληψη σε άλλη γλώσσα
The main objective of this PhD program is the development of innovative computational read-across methods for predicting engineered nanomaterial (ENM) properties (with emphasis to toxicity-related endpoints), based on experimental data. The read-across methods aim at determining neighbours (similar samples) to the query ENM in a dataset of ENMs with known properties and creating groups of related substances that have similar biological activity or toxic response.An important step in all the developed methodologies is the selection of the properties that are relevant to the endpoint of interest, to reduce the dimensionality of the models, avoid over-fitting and generate interpretable models. The automation of all the modelling parameters, is a key goal in this research project, and the proposed methodologies require the minimum information from the users to produce valid and robust read-across models.Special emphasis was given in the making of the models developed in this program availa ...
The main objective of this PhD program is the development of innovative computational read-across methods for predicting engineered nanomaterial (ENM) properties (with emphasis to toxicity-related endpoints), based on experimental data. The read-across methods aim at determining neighbours (similar samples) to the query ENM in a dataset of ENMs with known properties and creating groups of related substances that have similar biological activity or toxic response.An important step in all the developed methodologies is the selection of the properties that are relevant to the endpoint of interest, to reduce the dimensionality of the models, avoid over-fitting and generate interpretable models. The automation of all the modelling parameters, is a key goal in this research project, and the proposed methodologies require the minimum information from the users to produce valid and robust read-across models.Special emphasis was given in the making of the models developed in this program available through repositories or via user-friendly web applications. Implementation of the models as web tools supports their dissemination and actual use by all stakeholders in real-life applications.To begin with, a novel read-across methodology, related to the prediction of ENMs toxicity was developed. The method selects the most important variables and defines the neighbouring area around the target ENM, using single or multiple similarity criteria. The similarity criteria depend on the available ENM properties (e.g., physicochemical, biological, biokinetics etc.). The read-across prediction is computed as the weighted average of the neighbour ENMs. This novel grouping approach is based on the formulation and the solution of a mixed integer non-linear mathematical programming problem. A specific genetic algorithm scheme was developed to compute an approximate solution, due to the complexity of the problem rendering it practically unsolvable by conventional mathematical algorithms.The second method constructs, a mixed integer-linear optimisation program, which automatically filters out the noisy variables, defines the grouping boundaries based on one of the available properties -which is automatically chosen- and develops specific to each group LASSO linear regression predictive models. The third computational workflow is based on the formulation of a mathematical optimisation methodology that groups the ENMs into regions -according to their endpoint value-, removes the noisy variables, and incorporates the LASSO method for training predictive linear models specific to each region. Finally, k-Nearest Neighbours machine learning methodology was applied for deriving read-across models predicting the cytotoxicity and the biological activity of decorated multiwalled carbon nanotubes using calculated molecular descriptors of their surface ligands, and the zeta-potential of ENMs using geometrical ENMs properties extracted form transmission electron microscopy images.All developed methodologies were applied and validated on benchmark datasets, based on OECD principles, and were compared with methodologies already presented in Literature. They proved to be comparable and, in several cases, outperformed other alternative predictive modelling techniques, illustrating this way their good predictive performance and capabilities. Taking also into account that the grouping, feature selection and model generation steps are fully automated, the proposed methods can be considered as promising new approaches in the field of grouping/read-across modelling.
περισσότερα
Κατεβάστε τη διατριβή σε μορφή PDF (22.71 MB)
(Η υπηρεσία είναι διαθέσιμη μετά από δωρεάν εγγραφή)
|
Όλα τα τεκμήρια στο ΕΑΔΔ προστατεύονται από πνευματικά δικαιώματα.
|
Στατιστικά χρήσης
ΠΡΟΒΟΛΕΣ
Αφορά στις μοναδικές επισκέψεις της διδακτορικής διατριβής για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.
Πηγή: Google Analytics.
ΞΕΦΥΛΛΙΣΜΑΤΑ
Αφορά στο άνοιγμα του online αναγνώστη για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.
Πηγή: Google Analytics.
ΜΕΤΑΦΟΡΤΩΣΕΙΣ
Αφορά στο σύνολο των μεταφορτώσων του αρχείου της διδακτορικής διατριβής.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.
ΧΡΗΣΤΕΣ
Αφορά στους συνδεδεμένους στο σύστημα χρήστες οι οποίοι έχουν αλληλεπιδράσει με τη διδακτορική διατριβή. Ως επί το πλείστον, αφορά τις μεταφορτώσεις.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.
λιγότερα
περισσότερα