Περίληψη
Η αυτόματη εξαγωγή εξαπάτησης από κείμενο είναι μια κρίσιμη εργασία με εφαρμογές τόσο στην άμεση φυσική επικοινωνία όσο και στην επικοινωνία ανθρώπων μέσω υπολογιστή. Σε αυτή τη διατριβή, εστιάζουμε στον αυτόματο εντοπισμό εξαπάτησης σε κείμενο μεταξύ πολιτισμών και διαφορετικών γλωσσών. Σε αυτό το πλαίσιο, βλέπουμε τον πολιτισμό μέσα από το πρίσμα της διάστασης ατομικισμού/συλλογικότητας και προσεγγίζουμε τον πολιτισμό χρησιμοποιώντας τη χώρα ως αντιπρόσωπο. Έχοντας ως αφετηρία τα πρόσφατα συμπεράσματα από τον κλάδο της κοινωνικής ψυχολογίας, διερευνούμε εάν οι διαφορές στη χρήση συγκεκριμένων γλωσσικών ενδείξεων εξαπάτησης μεταξύ των πολιτισμών μπορούν να επιβεβαιωθούν και να αποδοθούν σε πολιτισμικούς κανόνες σε σχέση με το διαχωρισμό ατομικισμού/συλλογικότητας. Επιπλέον, διερευνούμε εάν υπάρχει ένα καθολικό σύνολο χαρακτηριστικών για διαπολιτισμικές εργασίες εντοπισμού παραπλάνησης κειμένου. Για αυτούς τους στόχους, πραγματοποιήσαμε μια ενδελεχή στατιστική ανάλυση (δοκιμές Mann-Whi ...
Η αυτόματη εξαγωγή εξαπάτησης από κείμενο είναι μια κρίσιμη εργασία με εφαρμογές τόσο στην άμεση φυσική επικοινωνία όσο και στην επικοινωνία ανθρώπων μέσω υπολογιστή. Σε αυτή τη διατριβή, εστιάζουμε στον αυτόματο εντοπισμό εξαπάτησης σε κείμενο μεταξύ πολιτισμών και διαφορετικών γλωσσών. Σε αυτό το πλαίσιο, βλέπουμε τον πολιτισμό μέσα από το πρίσμα της διάστασης ατομικισμού/συλλογικότητας και προσεγγίζουμε τον πολιτισμό χρησιμοποιώντας τη χώρα ως αντιπρόσωπο. Έχοντας ως αφετηρία τα πρόσφατα συμπεράσματα από τον κλάδο της κοινωνικής ψυχολογίας, διερευνούμε εάν οι διαφορές στη χρήση συγκεκριμένων γλωσσικών ενδείξεων εξαπάτησης μεταξύ των πολιτισμών μπορούν να επιβεβαιωθούν και να αποδοθούν σε πολιτισμικούς κανόνες σε σχέση με το διαχωρισμό ατομικισμού/συλλογικότητας. Επιπλέον, διερευνούμε εάν υπάρχει ένα καθολικό σύνολο χαρακτηριστικών για διαπολιτισμικές εργασίες εντοπισμού παραπλάνησης κειμένου. Για αυτούς τους στόχους, πραγματοποιήσαμε μια ενδελεχή στατιστική ανάλυση (δοκιμές Mann-Whitney και Πολλαπλή Λογιστική Παλινδρόμηση) σε έντεκα σύνολα δεδομένων από πέντε γλώσσες (αγγλικά, ολλανδικά, ρωσικά, ισπανικά και ρουμανικά) και έξι χώρες (Ηνωμένες Πολιτείες Αμερικής, Βέλγιο, Ινδία, Ρωσία, Μεξικό και Ρουμανία). Η ανάλυση έδειξε την απουσία ενός καθολικού συνόλου χαρακτηριστικών και επίσης την αστάθεια και την ευαισθησία των ενδείξεων εξαπάτησης ακόμη και σε σύνολα δεδομένων εντός της ίδιας κουλτούρας/γλώσσας. Επιπλέον, η ανάλυση αποκάλυψε ορισμένες διαφορές στα σημάδια εξαπάτησης μεταξύ των πολιτισμών και των γλωσσών, π.χ. στην έκφραση του συναισθήματος και ταυτόχρονα στη διαπολιτισμική εγκυρότητα ορισμένων άλλων. Για να αξιολογήσουμε την προγνωστική ισχύ διαφορετικών συνόλων χαρακτηριστικών και προσεγγίσεων, δημιουργήσαμε ταξινομητές πειραματιζόμενοι με ένα ευρύ φάσμα χαρακτηριστικών ν-γραμμάτων από διάφορα επίπεδα γλωσσικής ανάλυσης, συγκεκριμένα φωνολογία, μορφολογία και σύνταξη, άλλα γλωσσικά στοιχεία όπως μετρήσεις φωνημάτων, αντωνυμιών κλπ., καθώς και embeddings. Πειραματιστήκαμε επίσης με τον συνδυασμό αυτών των χαρακτηριστικών, ενώ τα προαναφερθέντα σύνολα δεδομένων χρησιμοποιήθηκαν για εκπαίδευση/δοκιμές. Εφαρμόσαμε δύο μεθόδους ταξινόμησης, Λογιστική Παλινδρόμηση και με το fine-tuning τόσο μονογλωσσικών όσο και πολυγλωσσικών μοντέλων BERT. Συνολικά, τα fine-tuned μοντέλα ξεπερνούν τις άλλες προσεγγίσεις, αλλά είναι ενδιαφέρον ότι υπάρχουν περιπτώσεις που ο συνδυασμός BERT embeddings με γλωσσικά χαρακτηριστικά είναι επωφελής. Ο πειραματισμός με τα πολυγλωσσικά μοντέλα ως μια περίπτωση zero-shot transfer learning έδειξε υποσχόμενα αποτελέσματα. Για να διερευνήσουμε την εξαπάτηση σε διαφορετικά από τα παραπάνω πεδία εισάγουμε μια νέα συλλογή δεδομένων που αφορά πρωταπριλιάτικα άρθρα για την ελληνική γλώσσα. Από όσο γνωρίζουμε, αυτό είναι η πρώτη ελεύθερη διαθέσιμη συλλογή σχετιζόμενη με εξαπάτηση για τα ελληνικά. Τα συμπεράσματα που βασίζονται σε παρόμοια ανάλυση με την παραπάνω και η σύγκριση με μια ανάλογη συλλογή στα αγγλικά ευθυγραμμίζονται με τα αποτελέσματα του πρώτου μέρους της διατριβής. Τέλος, εστιάζουμε στο πόσο καλά μπορούν να γενικευτούν διάφορα μοντέλα αυτόματης ανίχνευσης εξαπάτησης σε δεδομένα που δεν εξασφαλίζεται ότι ακολουθούν την υπόθεση ανεξαρτησίας και ίδιας κατανομής. Χρησιμοποιώντας ένα πλούσιο σύνολο διαφορετικών δεδομένων για δοκιμές στα αγγλικά και στα ισπανικά, διερευνούμε τη διαφορά απόδοσης μεταξύ των μοντέλων που εξετάστηκαν. Τεχνικές γενίκευσης από τη βιβλιογραφία εξετάζονται επίσης σε μια προσπάθεια να ενισχυθούν οι δυνατότητες γενίκευσης των μοντέλων. Οι προσεγγίσεις που βασίζονται σε transformers γενικά υπερτερούν των προσεγγίσεων που βασίζονται μόνο σε γλωσσικά χαρακτηριστικά, αλλά τόσο ο συνδυασμός τους με ρητές ενδείξεις εξαπάτησης όσο και οι τεχνικές γενίκευσης είναι επωφελείς.
περισσότερα
Περίληψη σε άλλη γλώσσα
Automatic deception detection is a crucial task that has many applications both in direct physical and in computer-mediated human communication. In this thesis, we focus on automatic deception detection in text across cultures and on different languages. In this context, we view culture through the prism of the individualism/collectivism dimension and we approximate culture by using country as a proxy. Having as a starting point recent conclusions drawn from the social psychology discipline, we explore if differences in the usage of specific linguistic deception cues across cultures can be confirmed and attributed to cultural norms with respect to the individualism/collectivism divide. In addition, we investigate if a universal feature set for cross-cultural text deception detection tasks exists. For these goals, we performed a thorough statistical analysis (Mann-Whitney tests and Multiple Logistic Regression) over eleven datasets from five languages (English, Dutch, Russian, Spanish a ...
Automatic deception detection is a crucial task that has many applications both in direct physical and in computer-mediated human communication. In this thesis, we focus on automatic deception detection in text across cultures and on different languages. In this context, we view culture through the prism of the individualism/collectivism dimension and we approximate culture by using country as a proxy. Having as a starting point recent conclusions drawn from the social psychology discipline, we explore if differences in the usage of specific linguistic deception cues across cultures can be confirmed and attributed to cultural norms with respect to the individualism/collectivism divide. In addition, we investigate if a universal feature set for cross-cultural text deception detection tasks exists. For these goals, we performed a thorough statistical analysis (Mann-Whitney tests and Multiple Logistic Regression) over eleven datasets from five languages (English, Dutch, Russian, Spanish and Romanian), from six countries (United States of America, Belgium, India, Russia, Mexico and Romania). The analysis showed the absence of a universal feature set and also the volatility and sensitivity of the deception cues even across domains and genres in the same culture/language. Furthermore, the analysis revealed some differences in deception cues across cultures and languages e.g., in the expression of sentiment and at the same time the cross-cultural validity of some others. To evaluate the predictive power of different feature sets and approaches we created culture/language-aware classifiers by experimenting with a wide range of n-gram features from several levels of linguistic analysis, namely phonology, morphology and syntax, other linguistic cues like word and phoneme counts, pronouns use, etc., and token embeddings. We also experimented with the combination of these features while the aforementioned datasets were employed for training/testing. We applied two classification methods, namely logistic regression and fine-tuned BERT models both monolingual and crosslingual. Overall the fine-tuning of the BERT model outperforms other approaches but interestingly there are cases in the combination of BERT embeddings with linguistic features is beneficial. The experimentation with multilingual embeddings, as a case of zero-shot transfer learning, also showed promising results. We introduce a new dataset in the context of April Fools’ Day articles for the Greek language. To the best of our knowledge, this is the first publicly available deception dataset for Greek. The conclusion based on a similar analysis to the above and in comparison with an English April Fools’ Day Dataset mainly aligns with the results of the first part of the thesis. Lastly, we focus on how well various automatic deception detection models can generalize in unseen distributions and domains. Using a rich set of diverse testing data in English and in Spanish, we explore the performance gap between cue-based models and BERT-type models and their combination. Generalization techniques from the literature are also considered in an effort to enhance the generalization capabilities of the models. Transformer-based approaches overall outperform cue-only-based approaches, but both the infusion of explicit cues of deception and the generalization techniques are beneficial.
περισσότερα