Περίληψη
To αντικείμενο της διατριβής είναι η μελέτη μεθόδων Μεταφοράς Μάθησης (ΜΜ) για πράκτορες Ενισχυτικής Μάθησης (ΕΜ). Παρουσιάζονται νέοι αλγόριθμοι μεταφοράς μάθησης οι οποίοι είτε παρουσιάζουν καλύτερες επιδόσεις, σε σύγκριση με τις μεθόδους αιχμής από τη σχετική βιβλιογραφία, είτε καθιστούν δυνατή την αυτόνομη μεταφορά μάθησης σε περιπτώσεις όπου παραδοσιακά χρειαζόταν ανθρώπινη παρέμβαση.Αρχικά παρουσιάζονται καινοτομικές μέθοδοι για τη μεταφορά μοντέλων σε πράκτορες ΕΜ με σκοπό την μέγιστη αλλά και πολλαπλή αξιοποίηση τους. Τα μοντέλα των συναρτήσεων μετάβασης και ανταμοιβής μιας εργασίας πηγής μεταφέρονται σε μία σχετική, αλλά διαφορετική, εργασία στόχο. Ο αλγόριθμος μάθησης της εργασίας στόχου είναι υβριδικός, και εφαρμόζει ταυτόχρονα απευθείας μάθηση και μάθηση βασισμένη σε μοντέλο.Στη συνέχεια, μελετάται το μοντέλο μεταφοράς μάθησης με παροχή περιορισμένου αριθμού συμβουλών ενέργειας. Η διατριβή επικεντρώνεται σε πράκτορες δασκάλους που παρέχουν συμβουλές ενεργειών σε ετερογενείς ...
To αντικείμενο της διατριβής είναι η μελέτη μεθόδων Μεταφοράς Μάθησης (ΜΜ) για πράκτορες Ενισχυτικής Μάθησης (ΕΜ). Παρουσιάζονται νέοι αλγόριθμοι μεταφοράς μάθησης οι οποίοι είτε παρουσιάζουν καλύτερες επιδόσεις, σε σύγκριση με τις μεθόδους αιχμής από τη σχετική βιβλιογραφία, είτε καθιστούν δυνατή την αυτόνομη μεταφορά μάθησης σε περιπτώσεις όπου παραδοσιακά χρειαζόταν ανθρώπινη παρέμβαση.Αρχικά παρουσιάζονται καινοτομικές μέθοδοι για τη μεταφορά μοντέλων σε πράκτορες ΕΜ με σκοπό την μέγιστη αλλά και πολλαπλή αξιοποίηση τους. Τα μοντέλα των συναρτήσεων μετάβασης και ανταμοιβής μιας εργασίας πηγής μεταφέρονται σε μία σχετική, αλλά διαφορετική, εργασία στόχο. Ο αλγόριθμος μάθησης της εργασίας στόχου είναι υβριδικός, και εφαρμόζει ταυτόχρονα απευθείας μάθηση και μάθηση βασισμένη σε μοντέλο.Στη συνέχεια, μελετάται το μοντέλο μεταφοράς μάθησης με παροχή περιορισμένου αριθμού συμβουλών ενέργειας. Η διατριβή επικεντρώνεται σε πράκτορες δασκάλους που παρέχουν συμβουλές ενεργειών σε ετερογενείς πράκτορες μαθητές.Αρχικά, εξετάζονται μια σειρά από κρίσιμους παράγοντες που επηρεάζουν την ποιότητα των συμβουλών όπως η μέση επίδοση του ίδιου του δασκάλου στην εργασία, η διακύμανση της επίδοσης του κ.α. Τα αποτελέσματα των πειραμάτων δείχνουν τη σημασία του συντελεστή μεταβλητότητας (CV) της επίδοσης του δασκάλου ως στατιστικό εκτιμητή για την επιλογή πολιτικών παροχής συμβουλών.Στη συνέχεια, παρουσιάζεται μια σειρά από νέους αλγόριθμους για το πρόβλημα της κατανομής των συμβουλών και αξιολογούνται σε δύο σύνθετα ηλ. παιχνίδια: StarCraft και Pac-Man. Παρουσιάζεται επίσης μια καινοτόμα μέθοδος για την μάθηση μιας πολιτικής κατανομής συμβουλών. Επιπλέον, υποστηρίζεται ότι το πρόβλημα παροχής συμβουλών ενέργειας είναι υπο-περίπτωση ενός γενικότερου προβλήματος μάθησης. Προτείνουμε και μορφοποιούμε μια νέα υπο-κατηγορία προβλημάτων ενισχυτικής μάθησης την Ενισχυτική Μάθηση Περιορισμένης Αξιοποίησης (Constrained Exploitation Reinforcement Learning). Τα πειραματικά αποτελέσματά δείχνουν ότι η χρήση των προτεινόμενων μεθόδων είναι εφικτή και αποτελεσματική ακόμη και σε πιο σύνθετες εργασίες.Στη συνέχεια η διατριβή ασχολείται με μεθόδους για την αυτόνομη ΜΜ για εργασίες που έχουν σημαντικές διαφορές μεταξύ τους. Οι εργασίες αυτές μπορεί να διαφέρουν όχι μόνο ως προς τις συναρτήσεις μετάβασης και ανταμοιβών, αλλά και ως προς το χώρο ενεργειών και καταστάσεων τους.Αρχικά, περιγράφεται μία νέα μέθοδος με την ονομασία Value-Addition για τη μεταφορά συναρτήσεων αξίας που βασίζεται στις αξίες ενεργειών της εργασίας πηγής για την αυτόνομη επιλογή της συνάρτησης αντιστοίχισης των εργασιών.Στη συνέχεια περιγράφεται μια νέα μέθοδος με την ονομασία COMBREL για τη μεταφορά εμπειριών. Η συγκεκριμένη μέθοδος κάνει χρήση ενός πιθανοτικού μοντέλου. Συγκεκριμένα, προτείνεται μια νέα θεωρητική οπτική κατά την οποία το πρόβλημα πολλαπλών αντιστοιχίσεων μεταξύ δύο εργασιών είναι ισοδύναμο με το πρόβλημα πολλαπλών εργασιών καταδεικνύοντας τη σχέση μεταξύ δύο προβλημάτων που θεωρούταν προηγουμένως διαφορετικά. Ακολούθως, η νέα οπτική επιτρέπει τη μεταφορά ερευνητικών αποτελεσμάτων μεταξύ των δύο ερευνητικών προβλημάτων.Τέλος παρουσιάζονται μια σειρά από εφαρμογές της ΕΜ και των μεθόδων ΜΜ που παρουσιάστηκαν στα προηγούμενα κεφάλαια. Από μεθόδους παροχής συμβουλών ενέργειας σε ανθρώπους μέχρι τη μεταφορά μάθησης μεταξύ ρομπότ με διαφορετικούς βαθμούς ελευθερίας ή/και αρθρώσεις και την μεταφορά μεταξύ ετερογενών πρακτόρων σε ηλ. παιχνίδια, επαληθεύεται η δυνατότητα των προτεινόμενων μεθόδων να επιλύσουν πιο σύνθετα προβλήματα.
περισσότερα
Περίληψη σε άλλη γλώσσα
This thesis presents an original research in the field of machine learning and more specifically in the fields of reinforcement learning and transfer learning. Reinforcement learning addresses the problem of how an agent can learn an optimal behaviour through trial-and-error interactions with a dynamic environment. In the context of reinforcement learning,transfer learning refers to the process of using knowledge that has been acquired in one or more previously learned tasks, in order to enhance the learning performance in a new and usually more complex task.We specifically focus on the following research problems concerning transfer learning in reinforcement learning: a) improving data efficiency and reducing sample complexity in reinforcement learning, b) advancing transfer learning methodologies for specific types of transferred knowledge, c) transferring knowledge for significantly different tasks, d) transferring knowledge between heterogeneous agents and, e) applying reinforcemen ...
This thesis presents an original research in the field of machine learning and more specifically in the fields of reinforcement learning and transfer learning. Reinforcement learning addresses the problem of how an agent can learn an optimal behaviour through trial-and-error interactions with a dynamic environment. In the context of reinforcement learning,transfer learning refers to the process of using knowledge that has been acquired in one or more previously learned tasks, in order to enhance the learning performance in a new and usually more complex task.We specifically focus on the following research problems concerning transfer learning in reinforcement learning: a) improving data efficiency and reducing sample complexity in reinforcement learning, b) advancing transfer learning methodologies for specific types of transferred knowledge, c) transferring knowledge for significantly different tasks, d) transferring knowledge between heterogeneous agents and, e) applying reinforcement learning and transfer learning in complex and real-world problems.First, we present a novel method for transferring models to reinforcement learning agents.The models of the transition and reward functions of a task, are transferred to another relevant but different task. The proposed method introduces a hybrid agent architecture with two learning mechanisms, one for model-free learning and one for model-based learning in order to fully exploit the presence of a source task model.We then focus on policy transfer and specifically on action advice. In this setting, a teacher agent suggests actions to a student agent as the later learns a specific task. The interesting and realistic characteristics of this setting are that the teacher and the student agent may be significantly different (heterogeneous) and that the teacher may only give advice a limited number of times. The methods presented in this chapter allow such a teacher agent to produce quality advice and distribute its limited advice budget in the most effective way.We then continue exploring novel transfer learning methods for different types of transferred knowledge but we now extend the scope of the methods to that of automatic cross-domain transfer, i.e, transferring between significantly different tasks. One of the ways to enable cross-domain transfer is the use of inter-task mappings. To this end, we focus on methods that automatically discover suitable mappings in domains where human intuition cannot be applied to select them, i.e., complex domains with no domain expert, finally allowing autonomous transfer between different tasks.Finally, we present a number of novel and interesting applications of this thesis’ methods in complex and real-world problems. From transferring learning to humans using pol-icy advice to transferring knowledge between robots with different degrees of freedom and transferring between agents in complex video games, this part of the thesis demonstrates the ability of the presented methods to solve more complex TL problems.
περισσότερα