Algorithm design for reliable machine learning

Στην παρούσα διδακτορική διατριβή μελετούνται θεωρητικά προβλήματα στην περιοχή του Reliable Machine Learning με στόχο των σχεδιασμό αλγορίθμων που είναι ανθετκτικοί σε θόρυβο και μεροληψία (Robust Machine Learning) και ικανοποιούν ιδιότητες οπώς η ιδιωτικότητα και η αναπαραγωγικότητα (Responsible Machine Learning).Στον τομέα του Robust Machine Learning, σχεδιάζουμε υπολογιστικά αποδοτικούςαλγορίθμους για προβλήματα στους τομείς των Truncated Statistics, Censored Statisticsκαι Robust Statistics. Συγκεκριμένα, σχεδιάζουμε τις πρώτες αποδοτικές μεθόδους για μάθηση από truncated διακριτές κατανομές και παραγωγή τέλειων δειγμάτων από truncated δείγματα. Έπειτα, ασχολούμαστε με το θεμελιώδες πρόβλημα μάθησης με partial/coarse labels. Σε αυτή την κατέθυνση δίνουμε μία γενική θετική απάντηση αποδεικνύοντας πως κάθε πρόβλημα που λύνεται με Statistical Queries (Kearns 1998), μπορεί να λύθεί και με coarse labels, αν το coarsening είναι επαρκώς information preserving. Παραλληλα, απαντάμε στο ερώτημα της μάθησης του μέσου μίας Gaussian κατανομής σε υψηλές διαστάσεις από coarse δείγματα. Τέλος, μελετάμε το πρόβλημα μάθησης γραμμικών συναρτήσεων ταξινόμησης υπο την παρουσίας bounded noise, ένα πρόβλημα που γενικεύει το θεμελιώδες πρόβλημα μάθησης halfspaces με Massart noise.Στον τομέα του Responsible Machine Learning, μελετάμε την έννοια τηςαναπαραγωγικότητας (replicability) ως αλγοριθμικής ιδιότητας και προτείνουμε ένα μοντέλο αναπαραγωγικότητας στον τομέα του interactive learning με εφαρμογή στο θεμελιώδες πρόβλημα των στοχαστικών bandits. Συγκεκριμένα, σχεδιάζουμε τους πρώτους replicable bandit αλγόριθμους που επιτυγχάνουν χαμηλό expected regret σε προβλήματα Multi-Armed Bandits και Linear Bandits. Παράλληλα, θεμελειώνουμε στατιστικές συνδέσεις μεταξύ της έννοιας της αναπαραγωγικότητας με αυτήν της διαφορικής ιδιωτικότητας (differential privacy). Αποδεικνύουμε πως κάθε replicable αλγόριθμος μπορεί να μετατραπεί σε ένα differentially private αλγόριθμο και ότι κάθε differentially private αλγόριθμος μπορεί να μετατραπεί σε ένα replicable αλγόριθμο.

περισσότερα

Περίληψη σε άλλη γλώσσα

In this thesis we theoretically study questions in the area of Reliable Machine Learning in order to design algorithms that are robust to bias and noise (Robust Machine Learning) and satisfy societal desiderata such as privacy and reproducibility (Responsible Machine Learning).In the area of Robust Machine Learning, we design computationally efficient algorithms for problems in the fields of Truncated Statistics, Censored Statistics and Robust Statistics. In particular, we provide the first efficient methods for truncated distribution learning in discrete settings and perfect data sampling from truncated data. Next, we study the fundamental problem of learning from partial/coarselabels. Our main algorithmic result is that essentially any problem learnable from fine grained labels can also be learned efficiently when the coarse data are sufficiently informative. We obtain our result through a generic reduction for answering Statistical Queries (SQ) over fine grained labels given only coarse labels. We also study the central problem in Censored Statistics of Gaussian mean estimation from coarse data. Finally, we consider the problem of learning linear sorting functions in the presence of bounded noise, a problem that generalizes the problem of learning halfspaces with Massart noise.In the area of Responsible Machine Learning, we study the notion of replicability as an algorithmic property and introduce the notion of replicable policies in the context of stochastic bandits, one of the canonical problems in interactive learning. We show that not only do replicable policies exist, but also they achieve almost the same optimal (non-replicable) regret bounds in terms of the time horizon. Lastly, we establish information-theoretic equivalences between notions of algorithmic stability such as replicability and approximate differential privacy. We do so by focusing on the following question: When two different parties use the same learning rule on their own data, how can we test whether the distributions of the two outcomes are similar? We study the similarity of outcomes of learning rules through the lens of the Total Variation (TV) distance of distributions. We say that a learning rule is TV indistinguishable if the expected TV distance between the posterior distributions of its outputs, executed on two training data sets drawn independently from the same distribution, is small. We first investigate the learnability of hypothesis classes using TV indistinguishable learners. Our main results are information-theoretic equivalences between TV indistinguishability and existing algorithmic stability notions such as replicability and approximate differential privacy.

περισσότερα

Διαβάστε τη διατριβή (Online)

Κατεβάστε τη διατριβή σε μορφή PDF (2.43 MB) (Η υπηρεσία είναι διαθέσιμη μετά από δωρεάν εγγραφή)

Όλα τα τεκμήρια στο ΕΑΔΔ προστατεύονται από πνευματικά δικαιώματα.

DOI	10.12681/eadd/54139
Διεύθυνση Handle	http://hdl.handle.net/10442/hedi/54139
ND	54139
Εναλλακτικός τίτλος	Algorithm design for reliable machine learning
Συγγραφέας	Καλαβάσης, Αλβέρτος (Πατρώνυμο: Αλέξανδρος)
Ημερομηνία	2023
Ίδρυμα	Εθνικό Μετσόβιο Πολυτεχνείο (ΕΜΠ). Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών. Εργαστήριο Λογικής και Επιστήμης Υπολογισμών
Εξεταστική επιτροπή	Φωτάκης Δημήτριος Τζάμος Χρήστος Παγουρτζής Αριστείδης Ιωαννίδης Στρατής Αχλιόπτας Δημήτριος Λουλάκης Μιχαήλ Συμβώνης Αντώνιος
Επιστημονικό πεδίο	Επιστήμες Μηχανικού και Τεχνολογία ➨ Επιστήμη Ηλεκτρολόγου Μηχανικού, Ηλεκτρονικού Μηχανικού, Μηχανικού Η/Υ ➨ Υπολογιστές, Υλικό (hardware) και Αρχιτεκτονική
Λέξεις-κλειδιά	Θεωρητική πληροφορική
Χώρα	Ελλάδα
Γλώσσα	Αγγλικά
Άλλα στοιχεία	πιν., σχημ., γραφ.

Στατιστικά χρήσης

ΠΡΟΒΟΛΕΣ

Αφορά στις μοναδικές επισκέψεις της διδακτορικής διατριβής για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.

ΞΕΦΥΛΛΙΣΜΑΤΑ

Αφορά στο άνοιγμα του online αναγνώστη για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.

ΜΕΤΑΦΟΡΤΩΣΕΙΣ

Αφορά στο σύνολο των μεταφορτώσων του αρχείου της διδακτορικής διατριβής.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.

ΧΡΗΣΤΕΣ

Αφορά στους συνδεδεμένους στο σύστημα χρήστες οι οποίοι έχουν αλληλεπιδράσει με τη διδακτορική διατριβή. Ως επί το πλείστον, αφορά τις μεταφορτώσεις.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.

Σχετικές εγγραφές (με βάση τις επισκέψεις των χρηστών)

Αλγόριθμοι βελτιστοποίησης για ρομποτικές εφαρμογές

Σχεδιασμός και αξιοποίηση ενσωματωμένων συστημάτων στον τομέα του περιβάλλοντος

Optimizing algorithmic workloads and data structures for hardware accelerators

Recommender systems with real-life applications

Μεθοδολογία παραμετροποίησης εφαρμογών βασισμένων σε ταυτόχρονες δομές δεδομένων για ενσωματωμένα συστήματα

Ανθεκτικότητα και αναπτυξιακός σχεδιασμός: η διακυβέρνηση της προσαρμογής στον 21ο αιώνα

Η διασφάλιση της ποιότητας στη διδασκαλία και μάθηση: εφαρμογές στην πολυμορφική εξ αποστάσεως εκπαίδευση

Ο ρόλος του καθηγητή - συμβούλου και η ανάπτυξη μηχανισμού υποστήριξής του σε περιβάλλον συνεργατικής μάθησης στην εξ αποστάσεως εκπαίδευση

Developing resilience and cyber physical protection capabilities for critical aviation infrastructures

Μέθοδοι μηχανικής μάθησης για σημασιολογική ανάλυση βίντεο

"Σχεδιασμός αλγορίθμων για αξιόπιστη μηχανική μάθηση"
	Πληκτρολογήστε το κείμενο της εικόνας!
Δηλώνω ότι έλαβα γνώση και ανεπιφύλακτα συμφωνώ και αποδέχομαι τους Όρους Χρήσης του Εθνικού Αρχείου Διδακτορικών Διατριβών, καθώς και της .