Approximate linkage of duplicate records, data matching and privacy

doi:10.12681/eadd/36507

Αρχική

Πλοήγηση

Επιστημονικό πεδίο

Ημερομηνία

Συγγραφέας

Χώρα

Γλώσσα

Ίδρυμα

Σχετικά με το ΕΑΔΔ

Κατάθεση Διατριβής

Συχνές Ερωτήσεις

Κέντρο Υποστήριξης Χρηστών

Επικοινωνία

Ανοικτά Δεδομένα

Περίληψη

Σε πολλούς τομείς της σύγχρονης ζωής, από την εκπαίδευση και την υγεία έως την οικονομία και την εθνική ασφάλεια, η ανταλλαγή πληροφοριών μεταξύ εταιριών και κυβερνητικών οργανισμών αποτελεί συνήθη πρακτική. Πολλές φορές απαιτείται, μεταξύ άλλων, η αντιστοίχιση δεδομένων αποθηκευμένων σε βάσεις δεδομένων, τα οποία περιγράφουν το ίδιο άτομο. Η αντιστοίχιση αυτή, όμως, δεν αποτελεί απλή διαδικασία. Οι εγγραφές στις βάσεις δεδομένων των οργανισμών που εμπλέκονται σε τέτοιου είδους ανταλλαγές δεδομένων δεν διαθέτουν κοινά μοναδικά αναγνωριστικά, γεγονός που καθιστά επιβεβλημένη τη χρήση πεδίων από τις εγγραφές αυτές, όπως ονόματα, διευθύνσεις κ.ο.κ., τα οποία όμως συνήθως εμφανίζουν χαμηλή ποιότητα, λόγω της ύπαρξης ορθογραφικών λαθών και ελλείψεων. Το πρόβλημα περιπλέκεται ακόμη περισσότερο, όταν πρέπει να συνυπολογιστεί και η διασφάλιση της ιδιωτικότητας, κάτι που δεν είναι δυνατόν να επιτευχθεί μέσω μίας απλής ανταλλαγής δεδομένων μεταξύ των εμπλεκομένων οργανισμών. Αυτό που μόλις περιγράψαμε αποτελεί το πρόβλημα της προσεγγιστικής διασύνδεσης εγγραφών με διατήρηση της ιδιωτικότητας. Πρόκειται για ένα νέο και ανοιχτό πεδίο έρευνας, τα αποτελέσματά του οποίου μπορούν να είναι χρήσιμα τόσο σε ερευνητικές, όσο και σε εμπορικές εφαρμογές. Σε αυτή τη διατριβή παρουσιάζουμε τη συνεισφορά μας στην επίλυση του συγκεκριμένου προβλήματος. Γενικότερα, μπορούμε να πούμε ότι το πρόβλημα της προσεγγιστικής διασύνδεσης εγγραφών με διατήρηση της ιδιωτικότητας αποτελείται από δύο επιμέρους υποπροβλήματα, το ταίριασμα των εγγραφών και την ομαδοποίηση των εγγραφών. Συγκεκριμένα, κατά το ταίριασμα, που είναι η κύρια φάση της διαδικασίας, πραγματοποιείται λεπτομερής και ακριβής αντιστοίχιση μεταξύ των εγγραφών. Καθώς το ταίριασμα είναι ιδιαίτερα χρονοβόρο, αναπτύχθηκαν μέθοδοι ομαδοποίησης των εγγραφών πριν από το ταίριασμα, ώστε να επιταχυνθεί η όλη διαδικασία. Οι μέθοδοι αυτές οργανώνουν τις εγγραφές σε ομάδες με βάση την ομοιότητά τους. Παράλληλα, είναι απαραίτητη η διατήρηση της ιδιωτικότητας τόσο κατά το ταίριασμα όσο και κατά την ομαδοποίηση. Σε αυτή τη διατριβή, παρουσιάζουμε τις μεθόδους που αναπτύξαμε τόσο για το ταίριασμα με διατήρηση της ιδιωτικότητας, όσο και για την ομαδοποίηση με διατήρηση της ιδιωτικότητας. Επίσης, παρουσιάζουμε τη μετα-ομαδοποίηση με διατήρηση της ιδιωτικότητας, η οποία παρεμβάλλεται μεταξύ της ομαδοποίησης και του ταιριάσματος και αποσκοπεί στην περαιτέρω μείωση των υπολογιστικών πόρων που απαιτούνται για την πραγματοποίηση της προσεγγιστικής διασύνδεσης εγγραφών με διατήρηση της ιδιωτικότητας. Ολοκληρώνουμε αυτή τη διατριβή παρουσιάζοντας το PRIVATEER, ένα εργαλείο αξιολόγησης αλγορίθμων προσεγγιστικής διασύνδεσης εγγραφών με διατήρηση της ιδιωτικότητας. Για την επίλυση του υποπροβλήματος του προσεγγιστικού ταιριάσματος εγγραφών με διατήρηση της ιδιωτικότητας, προτείνουμε δύο προσεγγίσεις. Αρχικά, επιλύουμε το πρόβλημα με τη χρήση φωνητικών αλγορίθμων, οι οποίοι παράγουν κώδικες βάσει της προφοράς των λέξεων που λαμβάνουν ως είσοδο. Καθώς οι φωνητικοί αλγόριθμοι έχουν εγγενείς ιδιότητες απώλειας πληροφορίας, οι κώδικες που δημιουργούν δεν αποτελούν ένα προς ένα απεικονίσεις του αρχικού κειμένου στο οποίο εφαρμόζονται. Προτείνουμε ένα πρωτόκολλο βασισμένο σε φωνητικούς κώδικες, όπου, εκτός από τους συμμετέχοντες που επιθυμούν να διασυνδέσουν τις βάσεις δεδομένων τους, χρησιμοποιείται και ένας τρίτος στη διαδικασία, με σκοπό να αυξήσει την παρεχόμενη από τους φωνητικούς κώδικες ιδιωτικότητα. Τα χαρακτηριστικά ιδιωτικότητας βελτιώνονται περαιτέρω μέσω της εισαγωγής θορύβου στα δεδομένα με την παραγωγή ψευδών απεικονίσεων. Αντιμετωπίζουμε επίσης το ίδιο πρόβλημα και από μία άλλη οπτική γωνία. Προτείνουμε μία ασφαλή μέθοδο για τον υπολογισμό της απόστασης επεξεργασίας μεταξύ συμβολοσειρών. Η συγκεκριμένη μέθοδος εκμεταλλεύεται τη θέση των χαρακτήρων εντός των συμβολοσειρών και δημιουργεί απεικονίσεις σε δυαδικά διανύσματα χρησιμοποιώντας ασφαλείς συναρτήσεις κατακερματισμού. Ένα από τα κύρια χαρακτηριστικά αυτής της μεθόδου είναι ότι δεν απαιτεί τη χρήση τρίτου συμμετέχοντα για τη διασφάλιση της ιδιωτικότητας. Με στόχο τη μείωση της πολυπλοκότητας της διαδικασίας προσεγγιστικής διασύνδεσης εγγραφών με διατήρηση της ιδιωτικότητας, προτείνουμε μία σειρά αλγορίθμων ομαδοποίησης. Αυτές οι μέθοδοι στοχεύουν στην απαλοιφή υποψηφίων ζευγών εγγραφών με μικρές πιθανότητες ταιριάσματος, δημιουργώντας ομάδες αποτελούμενες από εγγραφές με ομοιότητες. Στη συνέχεια, το ταίριασμα πραγματοποιείται μεταξύ των εγγραφών της καθεμίας ομάδας. Βάσει αυτών προτείνουμε μία μέθοδο ομαδοποίησης με διατήρηση της ιδιωτικότητας, που στηρίζεται σε φωνητικούς κώδικες, και τη συνδυάζουμε με τον αλγόριθμο ασφαλούς υπολογισμού αποστάσεων επεξεργασίας που αναπτύξαμε. Επιπροσθέτως, προτείνουμε μία διάταξη που αναπτύξαμε για να διερευνήσουμε τη χρήση των πινάκων αναφοράς στην ομαδοποίηση με διατήρηση της ιδιωτικότητας. Οι πίνακες αναφοράς είναι δημοσίως διαθέσιμες βάσεις δεδομένων που μπορούν να χρησιμοποιηθούν ως ενδιάμεσα σημεία αναφοράς προς αποφυγή της απευθείας σύγκρισης των δεδομένων. Χρησιμοποιώντας την εν λόγω διάταξη, πειραματιστήκαμε με μία σειρά μεθόδων ομαδοποίησης με διατήρηση της ιδιωτικότητας, οι οποίες είναι ασφαλείς, αποτελεσματικές από άποψης χρόνου και με υψηλές επιδόσεις ως προς το ταίριασμα των εγγραφών. Επιπλέον, υλοποιήθηκε ένας αλγόριθμος μετά-ομαδοποίησης με διατήρηση της ιδιωτικότητας, ο οποίος επιταχύνει ακόμη περισσότερο τη διαδικασία ταιριάσματος. Αυτή η εξέλιξη μας οδήγησε στο πιο σημαντικό μας επίτευγμα, αυτό της μείωσης της πολυπλοκότητας του προβλήματος της διασύνδεσης εγγραφών με διατήρηση της ιδιωτικότητας από τετραγωνική σε γραμμική ως προς το μέγεθος των δεδομένων, διατηρώντας παράλληλα υψηλά επίπεδα ποιότητας ταιριάσματος των εγγραφών. Για να συγκρίνουμε τις μεθόδους που αναπτύξαμε με άλλες αντίστοιχες που εμφανίζονται στη βιβλιογραφία, δημιουργήσαμε το PRIVATEER. Το PRIVATEER έχει ως στόχο να βοηθήσει ερευνητές και άλλους εμπλεκόμενους στο πρόβλημα που εξετάζουμε, στη σύγκριση και στην αξιολόγηση διαφόρων αλγορίθμων, ώστε να μπορούν να επιλέξουν τον πλέον κατάλληλο για την εκάστοτε εφαρμογή. Το εργαλείο αυτό, που βασίζεται σε έναν προσομοιωτή, σχεδιάστηκε ώστε να είναι προσαρμόσιμο και επεκτάσιμο, επιτρέποντας στο χρήστη να συνδυάσει αλγορίθμους ομαδοποίησης και ταιριάσματος με διάφορα μέτρα διαφοράς και ομοιότητας χρησιμοποιώντας ετερογενείς πηγές δεδομένων.περισσότερα

Περίληψη σε άλλη γλώσσα

Διαβάστε τη διατριβή (Online)

Όλα τα τεκμήρια στο ΕΑΔΔ προστατεύονται από πνευματικά δικαιώματα.

In many aspects of everyday life, from education to health care and from economics to homeland security, information exchange involving companies or government agencies has become a common practice. Linking data stored in these databases, belonging to the same person, is one of the problems that may arise in such transactions. This, however, is not a trivial task. The records held in databases of distinct organizations do not share common unique identifiers. As such, record fields usually holding data of low quality, such as misspellings, should be used. This situation becomes even more complicated when privacy restrictions apply, since privacy cannot be assured by simply transferring data between organizations. We have just described the parameters of the privacy preserving record linkage problem, an emerging field of research, the results of which are applicable for both academic and business purposes. In this thesis we present our contributions for solving the privacy preserving record linkage problem. Privacy preserving record linkage mainly consists of two subproblems. Privacy preserving matching and privacy preserving blocking. In privacy preserving matching, which is the main phase of the linkage process, elaborate and accurate matching between records takes place. However, this procedure is time consuming and resource demanding. Privacy preserving blocking, which precedes privacy preserving matching, aims at speeding up the more elaborate and computationally expensive matching process, by organizing similar records into block. Then, only records within the same block are matched. In this dissertation we present methods we have developed for privacy preserving matching and privacy preserving blocking. We also introduce privacy preserving meta-blocking, which is applied after privacy preserving blocking and aims at reducing matching costs even further. We conclude this thesis with PRIVATEER, a toolkit for evaluating different combinations of privacy preserving record linkage algorithms. For privacy preserving matching, we propose the use of phonetic codes, which are summaries of words based on their pronunciation. Phonetic codes have an interesting feature which can be exploited for providing privacy. They have inherent information suppression properties, thus the mappings produced during the production of a phonetic code do not exhibit the one-to-one property. We propose a protocol for using phonetic codes for matching using a third party to facilitate operations and enhance its privacy. Privacy is further enhanced by noise generation through fake codes injection. We also address privacy preserving matching from a different point of view. We propose a secure method for calculating edit distances between strings which exploits positional information of characters within strings and provides string mappings to bit vectors using secure hash functions. One of the main characteristics of this method is that it does not require the use of a third party to assure privacy. In order to reduce the complexity associated with privacy preserving matching algorithms, we propose a series of blocking algorithms. These techniques aim at pruning out unlikely to match candidate pairs by organizing similar records into blocks. Then, matching occurs only within each of these blocks. In this context, we propose a secure blocking method based on phonetic algorithms statistically enhanced to improve security. We combine this approach with the secure edit distance algorithm we have developed. Next, we propose a framework we have developed, in order to explore the use of reference tables for privacy preserving blocking. Reference tables are publicly available databases which may be used as an intermediate point of reference to avoid directly comparing data. Using this framework, we have developed and experimented with a range of alternatives aiming at the development of privacy preserving blocking methods which would be secure, time efficient and would yield high recall in terms of matching performance. To fulfill these goals, we have developed a meta-blocking algorithm which speeds up matching even further by altering the way records are matched within blocks. This step led us to our major achievement of shifting the time complexity of the privacy preserving record linkage problem from quadratic to linear, as of the dataset size used, maintaining, at the same time, high recall. To be able to compare the methods we have developed with other state-of-the-art approaches appearing in the literature, we introduce PRIVATEER, a toolkit which aims at enabling practitioners to compare and evaluate various privacy preserving record linkage techniques and determine the best for each application. This toolkit is based on a simulator, designed to be highly configurable, modular and extensible, allowing the user to test different configurations by combining privacy preserving blocking and matching methods with corresponding distance and similarity measures using various data sources.

περισσότερα

Διαβάστε τη διατριβή (Online)

Κατεβάστε τη διατριβή σε μορφή PDF (2.02 MB) (Η υπηρεσία είναι διαθέσιμη μετά από δωρεάν εγγραφή)

Όλα τα τεκμήρια στο ΕΑΔΔ προστατεύονται από πνευματικά δικαιώματα.

DOI	10.12681/eadd/36507
Διεύθυνση Handle	http://hdl.handle.net/10442/hedi/36507
ND	36507
Εναλλακτικός τίτλος	Approximate linkage of duplicate records, data matching and privacy
Συγγραφέας	Καρακασίδης, Αλέξανδρος (Πατρώνυμο: Γεώργιος)
Ημερομηνία	2015
Ίδρυμα	Ελληνικό Ανοικτό Πανεπιστήμιο (ΕΑΠ). Σχολή Θετικών Επιστημών και Τεχνολογίας. Τμήμα Πληροφορικής
Εξεταστική επιτροπή	Βερύκιος Βασίλειος Καλλές Δημήτριος Σκόδρας Αθανάσιος Σιούτας Σπυρίδωνας Πιτουρά Ευαγγελία Βασιλειάδης Παναγιώτης Κολονιάρη Γεωργία
Επιστημονικό πεδίο	Φυσικές Επιστήμες ➨ Επιστήμη Ηλεκτρονικών Υπολογιστών και Πληροφορική
Λέξεις-κλειδιά	Προσεγγιστική διασύνδεση εγγραφών; Ιδιωτικότητα; Ταίριασμα δεδομένων
Χώρα	Ελλάδα
Γλώσσα	Αγγλικά
Άλλα στοιχεία	xiv, 146 σ., πιν., σχημ., γραφ., ευρ.
Ειδικοί όροι χρήσης/διάθεσης	Το έργο παρέχεται υπό τους όρους της δημόσιας άδειας του νομικού προσώπου Creative Commons Corporation: Αναφορά Δημιουργού - Μη Εμπορική Χρήση 3.0 (CC-BY-NC)

Στατιστικά χρήσης

ΠΡΟΒΟΛΕΣ

Αφορά στις μοναδικές επισκέψεις της διδακτορικής διατριβής για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.

ΞΕΦΥΛΛΙΣΜΑΤΑ

Αφορά στο άνοιγμα του online αναγνώστη για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.

ΜΕΤΑΦΟΡΤΩΣΕΙΣ

Αφορά στο σύνολο των μεταφορτώσων του αρχείου της διδακτορικής διατριβής.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.

ΧΡΗΣΤΕΣ

Αφορά στους συνδεδεμένους στο σύστημα χρήστες οι οποίοι έχουν αλληλεπιδράσει με τη διδακτορική διατριβή. Ως επί το πλείστον, αφορά τις μεταφορτώσεις.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.

Σχετικές εγγραφές (με βάση τις επισκέψεις των χρηστών)

Deep neural networks for information mining from legal texts

Διαχείριση κινδύνου σε έργα ανάπτυξης πληροφοριακών συστημάτων

Τεχνικές ανάλυσης και παρακολούθησης ορθής λειτουργίας πληροφοριακών συστημάτων πολλαπλών επιπέδων

Η διασφάλιση ποιότητας στην παραγωγή εκπαιδευτικού υλικού Ανοικτής και εξ αποστάσεως εκπαίδευσης: διαμόρφωση κριτηρίων ποιότητας περιεχομένου

Στατιστικοί έλεγχοι στην επεξεργασία φυσικής γλώσσας μέσω ηλεκτρονικού υπολογιστή: ανάκτηση πληροφορίας, έυρεση συνεκφερόμενων λέξεων και αποσαφήνιση εννοιών

Κατηγοριοποίηση και τμηματοποίηση κειμένων με χρήση μεθόδων υπολογιστικής νοημοσύνης

Ανάλυση συναισθήματος και γνώμης

Διερεύνηση αντισταθμιστικής αποτελεσματικότητας συμβολαίων μελλοντικής εκπλήρωσης ναύλων σε μεμονωμένα δρομολόγια στην αγορά δεξαμενόπλοιων

A service - oriented framework for the specification, deployment, execution, benchmarking, and prediction of performance of scalable privacy - preserving record linkage techniques

Advanced techniques in digital watermarking and data hiding for still images

"Προσεγγιστικό ταίριασμα διπλότυπων εγγράφων, ενοποίηση δεδομένων και ιδιωτικότητα"
	Πληκτρολογήστε το κείμενο της εικόνας!
Δηλώνω ότι έλαβα γνώση και ανεπιφύλακτα συμφωνώ και αποδέχομαι τους Όρους Χρήσης του Εθνικού Αρχείου Διδακτορικών Διατριβών, καθώς και της . Έλαβα γνώση οτι το έργο παρέχεται υπό τους όρους της δημόσιας άδειαςCreative Commons Αναφορά Δημιουργού Μη εμπορική Χρήση 3.0 Ελλάδα