Περίληψη
Τα τελευταία χρόνια, το Πλέγμα είναι από τα πλέον διαδεδομένα συστήματα τόσο στον ερευνητικό όσο και στο επιχειρηματικό τομέα. Το Πλέγμα είναι ένα κατανεμημένο σύστημα μεγάλης κλίμακας, στο οποίο μπορούν να συνυπάρξουν ένας τεράστιος αριθμός ανεξάρτητων και διαφορετικών υπολογιστικών και αποθηκευτικών πόρων, οι οποίοι ενοποιούνται σε μία υπηρεσιοστρεφή αρχιτεκτονική λογισμικού. Δεδομένου της γεωγραφικά κατανεμημένης φύσης και έκτασης του Πλέγματος, οι υπηρεσίες του θα πρέπει να είναι ικανές να αντεπεξέλθουν σε κλιμάκωση φορτίου αρκετά μεγάλη, ώστε το Πλέγμα να γίνει διαθέσιμο σε παγκόσμια κλίμακα και να απευθυνθεί σε κάθε χρήστη. Ένα από τα πιο κρίσιμα υποσυστήματα στο Πλέγμα, είναι το επίπεδο διαχείρισης δεδομένων. Για την αντιμετώπιση του προβλήματος του τεράστιου μεγέθους των δεδομένων,η κοινότητα ανάπτυξης του Πλέγματος, σχεδίασε την αρχιτεκτονική του Πλέγματος Δεδομένων με τρεις βασικές υπηρεσίες: (α) την Υπηρεσία Μεταφοράς Αρχείων (Data Transfer Service), επιφορτισμένη για την αν ...
Τα τελευταία χρόνια, το Πλέγμα είναι από τα πλέον διαδεδομένα συστήματα τόσο στον ερευνητικό όσο και στο επιχειρηματικό τομέα. Το Πλέγμα είναι ένα κατανεμημένο σύστημα μεγάλης κλίμακας, στο οποίο μπορούν να συνυπάρξουν ένας τεράστιος αριθμός ανεξάρτητων και διαφορετικών υπολογιστικών και αποθηκευτικών πόρων, οι οποίοι ενοποιούνται σε μία υπηρεσιοστρεφή αρχιτεκτονική λογισμικού. Δεδομένου της γεωγραφικά κατανεμημένης φύσης και έκτασης του Πλέγματος, οι υπηρεσίες του θα πρέπει να είναι ικανές να αντεπεξέλθουν σε κλιμάκωση φορτίου αρκετά μεγάλη, ώστε το Πλέγμα να γίνει διαθέσιμο σε παγκόσμια κλίμακα και να απευθυνθεί σε κάθε χρήστη. Ένα από τα πιο κρίσιμα υποσυστήματα στο Πλέγμα, είναι το επίπεδο διαχείρισης δεδομένων. Για την αντιμετώπιση του προβλήματος του τεράστιου μεγέθους των δεδομένων,η κοινότητα ανάπτυξης του Πλέγματος, σχεδίασε την αρχιτεκτονική του Πλέγματος Δεδομένων με τρεις βασικές υπηρεσίες: (α) την Υπηρεσία Μεταφοράς Αρχείων (Data Transfer Service), επιφορτισμένη για την ανταλλαγή δεδομένων μεταξύ των κόμβων του Πλέγματος, (β) την Υπηρεσία Διαχείρισης Αντιγράφων (Replica Location Service), υπεύθυνη για την φύλαξη των φυσικών τοποθεσιών που είναι αποθηκευμένο κάθε αρχείο στο Πλέγμα, και (γ) της Υπηρεσίας Βελτιστοποίησης(Optimization Service), η οποία επιλέγει τις καλύτερες τοποθεσίες για κάθε ανταλλαγή δεδομένων και διαχειρίζεται τα αντίγραφα αρχείων βάσει το ιστορικό χρησιμοποίησης τους. Όμως, οι παραπάνω υπηρεσίες ακολουθούν κεντρικοποιημένη σχεδίαση, η οποία επιφέρει μειωμένες επιδόσεις και κεντρικά σημεία βλάβης. Οι κεντρικοποιημένες υπηρεσίες δεν μπορούν να κλιμακώσουν σε μεγάλο αριθμό ταυτόχρονων χρηστών, ούτε να διατηρήσουν ένα υψηλό αριθμό ανανέωσης σε ένα δυναμικό περιβάλλον όπως αυτό του Πλέγματος. Στην εργασία μας, παρουσιάζουμε μια καινοτόμο αρχιτεκτονική διαχείρισης δεδομένων, η οποία ενοποιεί την υπηρεσία αναζήτησης αντιγράφων και τους μηχανισμούς ανταλλαγής δεδομένων σε ένα πλήρως κατανεμημένο και προσαρμοστικό σύστημα. Η νέα αυτή αρχιτεκτονική αποτελείται από δύο μέρη τα οποία συνεργάζονται για την αποδοτική διαχείριση δεδομένων: (α) την Κατανεμημένη Υπηρεσία Διαχείρισης Αντιγράφων (DistributedReplica Location Service - DRLS) υπεύθυνη για την φύλαξη των φυσικών τοποθεσιών αποθήκευσης κάθε αρχείου και (β) το GridTorrent επιφορτισμένο με την διαχείριση των ανταλλαγών δεδομένων με αυτόματους μηχανισμούς βελτιστοποίησης. Το DRLS οργανώνει τους κόμβους του συστήματος με ένα Κατανεμημένο Πίνακα Κατακερματισμού (Distributed Hash Table - DHT)και διανέμει την πληροφορία σε όλους τους κόμβους. Το μοναδικό χαρακτηριστικό του DRLS είναι ότι εκτός από την αποκεντρικοποίηση της υπηρεσίας και την κλιμακωσιμότητα που της προσφέρει, υποστηρίζει εγγενώς την ανανέωση της πληροφορίας σε κάθε κόμβο που συμμετέχει στοDHT. Δεδομένου, ότι σε πολλές δυναμικές εφαρμογές τα δεδομένα αλλάζουν συνεχώς, το πρωτόκολλο στο οποίο βασίζεται το DRLS παρουσιάζει ανοχή σε Βυζαντινές συνθήκες σφαλμάτων και εγγυάται συνέπεια. Το GridTorrent είναι ένα πρωτόκολλο εμπνευσμένο από το BitTorrent, που εστιάζει στην βελτιστοποίηση της μεταφοράς δεδομένων σε πραγματικό χρόνο, χωρίς να παραβιάζονται οι αρχές ασφάλειας του Πλέγματος. Η συνεργατική φύση του πρωτοκόλλου, επιτρέπει τη διατήρηση χαμηλής απόκρισης και υψηλής χρησιμοποίησης του δικτύου, ακόμα και σε συνθήκες υψηλού φορτίου. Επιτρέπει μεταφορές δεδομένων από πολλαπλούς αποστολείς σε πολλαπλούς παραλήπτες και μεγιστοποιεί την απόδοση με την ανταλλαγή κομματιών του αρχείου μεταξύ όλων των συμμετεχόντων. Πολύ σημαντικό χαρακτηριστικό της προτεινόμενης αρχιτεκτονικής είναι ότι έχει σχεδιαστεί, ώστε να εκμεταλλευτεί υφιστάμενα και ευρέως χρησιμοποιούμενα πρότυπα στο χώρο του Πλέγματος, ώστε να διατηρεί την συμβατότητα με την υφιστάμενη αρχιτεκτονική και τις αντίστοιχες υλοποιήσεις. Τέλος, για την επαλήθευση των αποτελεσμάτων της εργασίας μας,έχει υλοποιηθεί ένα πρωτότυπο της αρχιτεκτονικής και έχουν γίνει αναλυτικά πειράματα του συστήματος τόσο σε περιβάλλοντα τοπικού δικτύου, όσο και σε περιβάλλοντα μεγάλης κλίμακας και υψηλής δυναμικότητας.
περισσότερα
Περίληψη σε άλλη γλώσσα
In recent years, Grid systems have gained popularity and have been widely utilized withinboth the research and the business domains. The Grid is a wide-area, large-scale distributed computingsystem, in which a vast number of remotely located, disjoint and diverse processing and datastorage facilities are integrated under a common service-oriented software architecture. Given thegeographic dispersion, Grid Services must be scalable enough to cope with extreme load conditions.One of the most critical components in Grid systems is the data management layer. Facedwith the problem of managing extremely large scale datasets, the Grid community has proposedthe Data Grid architecture, defining a set of basic services. The most fundamental of them arethe Data Transfer service, responsible for moving files among grid nodes, the Replica Locationservice, which keeps track of the physical locations of files and the Optimization service, whichselects the best data source for each transfer in terms o ...
In recent years, Grid systems have gained popularity and have been widely utilized withinboth the research and the business domains. The Grid is a wide-area, large-scale distributed computingsystem, in which a vast number of remotely located, disjoint and diverse processing and datastorage facilities are integrated under a common service-oriented software architecture. Given thegeographic dispersion, Grid Services must be scalable enough to cope with extreme load conditions.One of the most critical components in Grid systems is the data management layer. Facedwith the problem of managing extremely large scale datasets, the Grid community has proposedthe Data Grid architecture, defining a set of basic services. The most fundamental of them arethe Data Transfer service, responsible for moving files among grid nodes, the Replica Locationservice, which keeps track of the physical locations of files and the Optimization service, whichselects the best data source for each transfer in terms of completion time and manages the dynamicreplica creation/deletion according to file usage statistics. However, all of the aforementioned servicesheavily rely on centralized mechanisms, which constitute performance bottlenecks and singlepoints of failure. The so far centralized services can neither scale to large numbers of concurrentrequests nor keep pace with frequent updates performed in highly dynamic environments. In ourwork, we introduce a novel data management architecture which integrates the location servicewith data transfer under a fully distributed and adaptive philosophy. Our scheme comprises of twoparts that cooperate to efficiently handle multiple concurrent requests and data transfer: The DistributedReplica Location Service (DRLS) that handles the locating of files and GridTorrent thatmanages the file transfer and related optimizations. DRLS utilizes a set of nodes that, organizedin a DHT, equally share the replica location information. The unique characteristic of the DRLSis that, besides the decentralization and scalability that it offers, it fully supports updates on the multiple sites of a file that exist in the system. Since in many dynamic applications data locationschange rapidly with time, our Byzantine-tolerant protocol guarantees consistency and efficientlyhandles updates on the various data locations stored, unlike conventional DHT implementations.GridTorrent is a protocol that, inspired by BitTorrent, focuses on real-time optimization of datatransfers on the Grid, fully supporting the induced security mechanisms. Based on collaborativesharing, GridTorrent allows for low latency and maximum bandwidth utilization, even under extremeload and flash crowd conditions. It allows transfers from multiple sites to multiple clientsand maximizes performance by piece exchange among the participants. A very important characteristicof the proposed architecture is that it is designed to interface and exploit well-definedand deployed Data Grid components and protocols, thus being completely backwards compatibleand readily deployable. This work includes an extensive experimental section that contains areal implementation of the system and results over both LAN and WAN environments with highlydynamic and adverse workloads.
περισσότερα