Περίληψη
Τα ρομπότ γενικής χρήσης χρειάζονται την ικανότητα να χειρίζονται αντικείμενα σε μη δομημένα περιβάλλοντα. Παρά το ενδιαφέρον της ερευνητικής κοινότητας και παρά την πρακτική του αξία, ο χειρισμός νέων αντικειμένων σε περιβάλλοντα με αταξία, παραμένει σε μεγάλο βαθμό, ένα άλυτο πρόβλημα. Η παρούσα διατριβή εστιάζει σε δύο προβλήματα: στην ρομποτική λαβή άγνωστων αντικειμένων και στο χειρισμό αντικειμένων σε ένα περιβάλλον αταξίας με σκοπό την απομόνωση ενός αντικειμένου στόχου προς διευκόλυνση της λαβή του.Αρχικά, εξετάζεται το πρόβλημα της σχεδίασης ευσταθής λαβής αγνώστων αντικειμένων με πολυδάχτυλα χέρια. Σε αντίθεση με προηγούμενες μεθόδους, που αναζητούν λαβές ακριβείας και έτσι προσπαθούν να επιτύχουν ευσταθή λαβή μόνο με λίγα σημεία επαφής, η παρούσα διατριβή εστιάζει σε περιβάλλουσες λαβές, εξαιτίας της ευρωστίας που παρέχουν σε σφάλματα. Για να το επιτύχουμε αυτό, εκμεταλλευόμαστε την ικανότητα του ρομποτικού χεριού να συμπληρώνει την γεωμετρία του αντικειμένου, αγκαλιάζοντας ...
Τα ρομπότ γενικής χρήσης χρειάζονται την ικανότητα να χειρίζονται αντικείμενα σε μη δομημένα περιβάλλοντα. Παρά το ενδιαφέρον της ερευνητικής κοινότητας και παρά την πρακτική του αξία, ο χειρισμός νέων αντικειμένων σε περιβάλλοντα με αταξία, παραμένει σε μεγάλο βαθμό, ένα άλυτο πρόβλημα. Η παρούσα διατριβή εστιάζει σε δύο προβλήματα: στην ρομποτική λαβή άγνωστων αντικειμένων και στο χειρισμό αντικειμένων σε ένα περιβάλλον αταξίας με σκοπό την απομόνωση ενός αντικειμένου στόχου προς διευκόλυνση της λαβή του.Αρχικά, εξετάζεται το πρόβλημα της σχεδίασης ευσταθής λαβής αγνώστων αντικειμένων με πολυδάχτυλα χέρια. Σε αντίθεση με προηγούμενες μεθόδους, που αναζητούν λαβές ακριβείας και έτσι προσπαθούν να επιτύχουν ευσταθή λαβή μόνο με λίγα σημεία επαφής, η παρούσα διατριβή εστιάζει σε περιβάλλουσες λαβές, εξαιτίας της ευρωστίας που παρέχουν σε σφάλματα. Για να το επιτύχουμε αυτό, εκμεταλλευόμαστε την ικανότητα του ρομποτικού χεριού να συμπληρώνει την γεωμετρία του αντικειμένου, αγκαλιάζοντας το, δείχνοντας περιαματικά ότι όσο μεγαλύτερη είναι αυτή η συμπληρωματικότητα τόσο πιο πιθανό να είναι ευσταθής η λαβή. Η μέθοδος αναπαριστά την σκήνη και το ρομποτικό χέρι με δύο νέφη σημείων και ορίζει μια μετρική συμπληρωματικότητας μεταξύ αυτών των δύο νεφών. Ένα πρακτικό πρόβλημα που πρέπει να αντιμετωπιστεί όταν τα αντικείμενα είναι άγνωστα, είναι ότι το νέφος σημείων του αντικειμένου μπορεί να είναι ελλιπές λόγβ της οπτικής γνωίας της κάμερα βάθους. Έτσι, η προτεινόμενη μέθοδος εκπαιδεύει και χρησιμοποιεί ένα νευρωνικό δίκτυο το οποίο προβλέπει την χαμένη πληροφορία, δίνοτας τη δυνατότα να συμπληρωθεί τοπικά το ελλιπές νέφος σημείων. Τέλος, η προτεινόμενη μέθοδος επιδεικνύει υψηλό ποσοστό επιτυχίας τοσό σε περιβάλλον προσομοίωσης όσο και σε πραγματικό σύστημα, ακόμη και σε σκηνές με αταξία. Αν και η προτεινόμενη μέθοδος μπορεί να παράξει ευσταθής λαβές ακόμη και σε περιβάλλοντα αταξίας, προβλήματα προκύπτουν σε περιβάλλοντα υψηλής αταξίας, όπου τα αντικείμενα βρίσκοντα πολύ κόντα το ένα με το άλλο. Για να αντιμετωπιστεί το πρόβλημα της λαβής ενός αντικειμένου σε περιβάλλον υψηλής αταξίας, προτείνονται τρεις μέθοδοι απομόνωσης αντικειμένου, οι προηγούνται της ρομποτικής λαβής και απελευθερώνουν το γειτονικό χωρό του αντικειμένου στόχου από τα περιβάλλον εμπόδια. Οι προτεινόμενες μέθοδοι χρησιμοποιούν ενισχυτική μάθηση για να εκπαιδεύσουν πολιτικές που χρησιμοποιούν δύο στρατηγικές ώθησης για τη απόμονωση ενός αντικείμενου στόχου με τον ελάχιστο αριθμό δράσεων. Συγκεκριμένα, η πρώτη μέθοδος χρησιμοποιεί τον αλγόριθμο Deep Q-Network (DQN) και επιτυγχάνει απομόνωση ενός αντικειμένου-στόχου με δεδομένα βάθους. Για την βελτίωση της εκμάθησης, τροποποιείται ο αγόριθμος DQN, διαχωρίζοντας το Q-Network (Split-DQN) σε δύο δίκτυα, ένα για κάθε στρατηγική ώθησς. Όπως δείχνουν τα αποτελέσματα, η προτεινόμενη μέθοδος οδηγεί σε ταχύτερη σύγκλιση και αυξημένο ποσοστό επιτυχίας για την απομόνωση αντικειμένων και επιτρέπει την προσθήκη επιπλέον στρατηγικών χωρίς επανεκπαίδευση των υπαρχόντων δικτύων. Στη συνέχεια, προτείνεται μια μέθοδος τμηματοποιημένης ενισχυτικής μάθησης, η οποία σε αντίθεση με τις προηγούμενες μεθόδους, χρησιμοποιεί συνεχείς δράσεις. Αυτή η μέθοδος επιτρέπει τον συνδυασμό διαφορετικών στρατηγιών πολιτικών, οι οποίες μπορούν να παραχθούν ανεξάρτητα, είτε μέσω ενισχυτικής μάθησης, είτε μέσω εκπαίδευσης με επιτηρούμενη μάθηση είτε μέσω αλγοριθμικών λύσεων. Επιπλέον, η προτεινόμενη μέθοδος ενσωματώνει αποτελεσματικά πρώτερη γνώση μέσω της σχεδίασης των στρατηγικών ώθησης και των αναπαραστάσεων της κατάστασης και επιτρέπει την απομόνωση σε διαφορετικά περιβάλλοντα, τα οποία παραδοσιακά απαιτούν διαφορετικές προσεγγίσεις. Όλες οι παραπάνω πολιτικές είναι εκπαιδευμένες στην προσομοίωση και μεταφέρονται αποτελεσματικά σε πραγματικό περιβάλλον. Τέλος, αποδεικνύεται ότι απλοί αλγοριθμικοί κανόνες που μετακινούν το αντικείμενο στόχο προς τον κενό χώρο είναι αποτελεσματικοί για την απομόνωση και ότι η ενσωμάτωση τους στην εκπαίδευση πολιτικων με χρήση ενισχυτικής μάθησης, οδηγεί σε αυξημένα ποσοστάς επιτυχίας. Τέλος παρουσιάζεται μια μέθοδος η οποία επιτυγχάνει σταθερή περιβάλλουσα λαβή ενός αντικειμένου σε περιβάλλον υψηλής αταξίας με μία μόλις δράση, μειώνοντας τον συνολικό αριθμό δράσεων που χρειάζονται από τις παραπάνω μεθόδους. Συγκεκριμένα, η μέθοδος εκμεταλλεύεται την μηχανική της ώθησης έτσι ώστε να ανακατανείμει τα αντικείμενα με τελικό στόχο να βρεθεί ένα αντικείμενο μέσα στο ρομποτικό χέρι. Στη συνέχεια το ρομποτικό χέρι κλείνει τα δάκτυλα πραγματοποιώντας μια σταθερή περιβάλλουσα λαβή. Η στρατηγική αυτή έχει ως στόχο την κύλιση ενός αντικειμένου μέσα στο ρομποτικό χέρι ή την κύλιση των αντικειμένων-εμποδίων έξω από το ρομποτικό χέρι. Τέλος, η προτεινόμενη μέθοδος εκπαιδεύτηκε στην προσομοίωση αλλά μεταφέρθηκε με επιτυχία σε πραγματικό ρομποτικό σύστημα.
περισσότερα
Περίληψη σε άλλη γλώσσα
General purpose robots need the capability to manipulate objects in unstructured environments. Despite the interest of research community, and despite its practical value, robust manipulation of novel objects in cluttered environments still remains a largely unsolved problem. This thesis focuses on two problems: robust grasp planning of unknown objects and manipulating objects in high clutter via pushing actions to facilitate the grasping of an object. Firstly, we consider the problem of planning robust grasps for multi-fingered hands. In contrast to past methods that seek for precision grasps and thus try to achieve force closure with only a few contact points, we plan power grasps since they can compensate for perception errors. To achieve that, we exploit the effect of shape complementarity between the robot hand and the object and demonstrate that this adaptation increases the contact area and thereby the robustness of the grasp. To measure the shape complementarity the unseen part ...
General purpose robots need the capability to manipulate objects in unstructured environments. Despite the interest of research community, and despite its practical value, robust manipulation of novel objects in cluttered environments still remains a largely unsolved problem. This thesis focuses on two problems: robust grasp planning of unknown objects and manipulating objects in high clutter via pushing actions to facilitate the grasping of an object. Firstly, we consider the problem of planning robust grasps for multi-fingered hands. In contrast to past methods that seek for precision grasps and thus try to achieve force closure with only a few contact points, we plan power grasps since they can compensate for perception errors. To achieve that, we exploit the effect of shape complementarity between the robot hand and the object and demonstrate that this adaptation increases the contact area and thereby the robustness of the grasp. To measure the shape complementarity the unseen part of the scene should be taken into consideration and thus the proposed method performs a 3D shape completion of the hidden surface. The proposed grasp planner demonstrates high grasp success rate both in simulation and real world, even in cluttered scenes. Although this geometric approach produces stable grasps, problems arise in high clutter, due to the lack of collision-free grasp affordances. To deal with the problem of grasping an object in high clutter, we employ pushing actions in order to singulate a target object from its surrounding clutter and create free space for the robotic fingers to perform a prehensile grasp. The proposed methods employ reinforcement learning to train policies that use two pushing primitives for object singulation with the minimum number of actions. In particular, we use the Deep Q-Network (DQN) algorithm and demonstrate that we can learn optimal push policies given depth observations of the scene. To improve learning efficiency, we modify the DQN by splitting the Q-Network (Split-DQN) to two networks, one for each primitive. As results demonstrate, the proposed method leads to faster convergence and increased success rate for the object singulation task and allows the addition of an extra primitive without retraining the existing networks. Then, we propose a modular reinforcement learning method (MRL), which in contrast to previous methods uses continuous actions. This method allows to combine different primitive policies, which may be produced independently by means of reinforcement learning, supervised learning or algorithmic design. Furthermore, it uses effectively prior knowledge by properly shaping the state and action space and achieves singulation in different environments, which traditionally require different manipulation primitives. All the above policies are trained in simulation and are effectively transferred to a real world environment. Finally, we demonstrate that simple heuristic rules that move the target object towards the empty-from-obstacles space can be effective for the singulation task and that guiding the training of the RL agents with these simple heuristic rules in the reward, results to increased success rate. Subsequently, to alleviate the need of multiple pushing actions in order to singulate a object and then grasp it, we propose a push-grasping policy that creates enough space for the fingers to wrap around an object in order to perform a stable power grasp, using a single primitive action. In particular, we employ pushing actions to roll an object into the robot hand and roll out or translate the obstacles from the hand’s closing region in order to create the aforementioned free space. The pushing part of the primitive is followed by closing the robot fingers to establish a power grasp. The power push-grasping policy is trained in a supervised manner by gathering data in simulation. To make the learning process more efficient, the proposed method decouples the action space by learning the hand pose and finger configuration separately. Finally, as the experimental results show, the proposed policy generalizes to novel objects and challenging object configurations and is robustly transferred to a real world scenario.
περισσότερα