Περίληψη
Η αυτόματη αξιολόγηση της μηχανικής μετάφρασης αποτελεί ένα από τα σημαντικότερα ζητήματα στον οικείο ερευνητικό χώρο. Μάλιστα, οι περισσότερες μέθοδοι αυτόματης αξιολόγησης επικεντρώνονται στην αξιολόγηση της παραγόμενης μετάφρασης και υπολογίζουν το βαθμό της ομοιότητας με τη μετάφραση αναφοράς, έχοντας ως στόχο τον προσδιορισμό της ποιότητας της μετάφρασης. Η παρούσα διδακτορική διατριβή προτείνει και παρουσιάζει ένα βαθύ σχήμα μάθησης, με τη χρήση νευρωνικών δικτύων, το οποίο μπορεί να εφαρμοστεί σε πολλά ζητήματα μηχανικής μάθησης. Το προτεινόμενο σχήμα βασίζεται σε διαφορετικές κατηγορίες πληροφοριών (γλωσσικά χαρακτηριστικά, μετρικές επεξεργασίας φυσικής γλώσσας, διανυσματικές αναπαραστάσεις των λέξεων, καθώς και στη μετάφραση αναφοράς). Οι παραγόμενες μεταφράσεις που χρησιμοποιήθηκαν στα πειράματα προέκυψαν από ένα σύστημα στατιστικής μηχανικής μετάφρασης και ένα σύστημα νευρωνικής μηχανικής μετάφρασης. Το προτεινόμενο μοντέλο εφαρμόστηκε σε δύο ζεύγη γλωσσών: Αγγλικά - Ελληνικ ...
Η αυτόματη αξιολόγηση της μηχανικής μετάφρασης αποτελεί ένα από τα σημαντικότερα ζητήματα στον οικείο ερευνητικό χώρο. Μάλιστα, οι περισσότερες μέθοδοι αυτόματης αξιολόγησης επικεντρώνονται στην αξιολόγηση της παραγόμενης μετάφρασης και υπολογίζουν το βαθμό της ομοιότητας με τη μετάφραση αναφοράς, έχοντας ως στόχο τον προσδιορισμό της ποιότητας της μετάφρασης. Η παρούσα διδακτορική διατριβή προτείνει και παρουσιάζει ένα βαθύ σχήμα μάθησης, με τη χρήση νευρωνικών δικτύων, το οποίο μπορεί να εφαρμοστεί σε πολλά ζητήματα μηχανικής μάθησης. Το προτεινόμενο σχήμα βασίζεται σε διαφορετικές κατηγορίες πληροφοριών (γλωσσικά χαρακτηριστικά, μετρικές επεξεργασίας φυσικής γλώσσας, διανυσματικές αναπαραστάσεις των λέξεων, καθώς και στη μετάφραση αναφοράς). Οι παραγόμενες μεταφράσεις που χρησιμοποιήθηκαν στα πειράματα προέκυψαν από ένα σύστημα στατιστικής μηχανικής μετάφρασης και ένα σύστημα νευρωνικής μηχανικής μετάφρασης. Το προτεινόμενο μοντέλο εφαρμόστηκε σε δύο ζεύγη γλωσσών: Αγγλικά - Ελληνικά και Αγγλικά - Ιταλικά. Σε αυτό το πλαίσιο, διεξήχθησαν ευρείας κλίμακας πειράματα με διαφορετικές παραμέτρους. Η παρούσα εργασία διερευνά επίσης τις διαφορές που επηρεάζουν την επίδοση της αξιολόγησης της μηχανικής μετάφρασης μεταξύ διαφορετικών ειδών κειμένων. Επιπλέον, διεξάγεται μια συγκριτική μελέτη μεταξύ της χρήσης ενός απλού επιπέδου διανυσματικής αναπαράστασης και ενός επιπέδου που χρησιμοποιεί προ-εκπαιδευμένες διανυσματικές αναπαραστάσεις. Επιπροσθέτως, πραγματοποιήθηκε ανάλυση αφενός του αντίκτυπου στην ορθότητα ταξινόμησης, αφετέρου των μεθόδων επιλογής και μείωσης της διαστασης των χαρακτηριστικών.Τα αποτελέσματα της έρευνας καταδεικνύουν πως η χρήση ενός μοντέλου νευρωνικών δικτύων με διαφορετικές εισόδους (προτεινόμενο μοντέλο) παρουσιάζει πολύ καλά αποτελέσματα σε ό,τι αφορά την αξιολόγηση της μηχανικής μετάφρασης, τόσο σε κείμενα με πλούσια δομή και λέξιλόγιο, όσο και σε κείμενα με «θόρυβο». Επιπροσθέτως, στοχεύοντας στην πλέον ολοκληρωμένη ανάλυση των αποτελεσμάτων επίδοσης, πραγματοποιήθηκε γλωσσική ανάλυση για την αντιμετώπιση σύνθετων γλωσσικών φαινομένων. Η προτεινόμενη αρχιτεκτονική είναι ανεξάρτητη της γλώσσας, στην οποία εφαρμόζεται και επιτυγχάνει υψηλότερη ορθότητα ταξινόμησης σε σύγκριση με μοντέλα που χρησιμοποιούν πληροφορίες βαθμολογίας BLEU, καθώς και άλλες προσεγγίσεις ταξινόμησης, όπως το Random Forest (RF) και το Support Vector Machine (SVM).Επίσης, μια παραλλαγή του προτεινόμενου σχήματος χρησιμοποιήθηκε για την εκτίμηση της ποιότητας της μηχανικής μετάφρασης. Το εν λόγω σχήμα απαιτεί περιορισμένους πόρους δεδομένων και βασίζεται σε πληροφορίες σχετικά με τις προτάσεις πηγής και με γλωσσικά χαρακτηριστικά. Προτείνεται λοιπόν ένας νέος αυτόματος τρόπος προσδιορισμού της καλύτερης μετάφρασης μέσω της χρήσης της βαθμολογίας της εκτίμησης ποιότητας (QE score). Το QE score βασίζεται σε χαρακτηριστικά τα οποία υπολογίζονται από τις προτάσεις πηγής και τις παραγόμενες μεταφράσεις. Τα αποτελέσματα κατέδειξαν μια ικανοποιητική επίδοση για το προτεινόμενο μοντέλο των νευρωνικών δικτύων, συγκριτικά με τα προϋπάρχοντα μοντέλα, τα οποία απαιτούν περισσότερους πόρους για την αξιολόγηση της μηχανικής μετάφρασης.Το προτεινόμενο σχήμα εφαρμόσθηκε επίσης και στο ζήτημα της αυτόματης ανίχνευσης ψευδών ειδήσεων. Κατά την τελευταία δεκαετία, παρατηρείται αυξανόμενος αριθμός χρηστών κοινωνικών δικτύων, γεγονός που ενδέχεται να οδηγήσει στην εμφάνιση ψευδών προφίλ, ψευδών ειδήσεων και προπαγάνδας από κακόβουλους χρήστες. Το προτεινόμενο σχήμα έκανε χρήση διανυσματικών αναπαραστάσεων από τις προτάσεις των ειδήσεων και χρησιμοποιεί γλωσσικά χαρακτηριστικά και χαρακτηριστικά δικτύου. Επιπλέον, τα tweets χωρίσθηκαν σε τίτλους ειδήσεων και σε κείμενο ειδήσεων, ενώ μια εκτεταμένη πειραματική ρύθμιση εκτέλεσε επί αυτών δοκιμές ταξινόμησης και τα αποτελέσματα έδειξαν απόδοση υψηλής ακρίβειας στην ανίχνευση ψευδών ειδήσεων. Η προτεινόμενη αρχιτεκτονική βαθιάς μάθησης υπερτερεί των σύγχρονων ταξινομητών και χρησιμοποιεί λιγότερα χαρακτηριστικά και ενσωματώσεις από το κείμενο του tweet.
περισσότερα
Περίληψη σε άλλη γλώσσα
The automatic evaluation of machine translation (MT) has proven to be a very significant research topic. Most automatic evaluation methods focus on the evaluation of the output of MT as they compute similarity scores that represent translation quality. This work targets on the performance of MT evaluation. We propose and we present a general deep learning (DL) scheme for learning to classify parallel translations, based on different categories of information (string based linguistic features, natural language processing (NLP) metrics, word embeddings and one human (reference) translation). The outputs were generated from a statistical machine translation (SMT) system and a neural machine translation (NMT) system. The model has been applied in two language pairs: English - Greek (EN-EL) and English - Italian (EN-IT). In this thesis, a variety of experiments with different parameter configurations have been conducted. The thesis also explores the linguistic differences that affect evalua ...
The automatic evaluation of machine translation (MT) has proven to be a very significant research topic. Most automatic evaluation methods focus on the evaluation of the output of MT as they compute similarity scores that represent translation quality. This work targets on the performance of MT evaluation. We propose and we present a general deep learning (DL) scheme for learning to classify parallel translations, based on different categories of information (string based linguistic features, natural language processing (NLP) metrics, word embeddings and one human (reference) translation). The outputs were generated from a statistical machine translation (SMT) system and a neural machine translation (NMT) system. The model has been applied in two language pairs: English - Greek (EN-EL) and English - Italian (EN-IT). In this thesis, a variety of experiments with different parameter configurations have been conducted. The thesis also explores the linguistic differences that affect evaluation accuracy between different kinds of corpora. A comparative study between a simple embedding layer (mathematically calculated) and pre-trained embeddings is conducted as well. Moreover, an analysis of the impact of feature selection and dimensionality reduction on classification accuracy has been performed.Results showed that using a neural network (NN) model with different input representations produces results that clearly outperform the state-of-the-art for MT evaluation for EN–EL and EN–IT. It has been observed that the proposed algorithm achieved better results on noisy and small datasets. In addition, for a more integrated analysis of the accuracy results, a qualitative linguistic analysis has been carried out in order to address complex linguistic phenomena. The proposed language independent achieves higher classification accuracy compared with models using BLEU score information as well as other classification approaches, such as Random Forest (RF) and Support Vector Machine (SVM). Moreover, a variation of the proposed schema, a light resource learning schema, i.e. a schema that depends on limited resources, has been introduced, which aims to choose the better translation between two MT outputs, based on information regarding the source segments and linguistic string-based features. Instead of relying on high-level experts’ annotations, a novel automatic metric is proposed for determining the better translation, namely the quality estimation (QE) score. This score is based on string-based features derived from both the source and the MT segments. Experimental results have demonstrated a quite good performance for the proposed feed-forward NN, comparable to the existing state of-the-art models for MT evaluation requiring more sophisticated resources.The proposed schema has been applied in fake news detection task as well. In the past decade, an increasing number of social network users is observed, which may leed to exploitation phenomena by malicious users, which distribute and reproduce fake profiles, fake news and propaganda. The proposed schema has used word embeddings and both linguistic and network account features. Furthermore, tweets have been separated into news headers and news text, whereas an extensive experimental setup has performed classification tests in these and the results have showed high accuracy performance in fake news detection. The proposed deep learning architecture outperforms the state-of-the-art classifiers, while using fewer features and embeddings from the tweet text.
περισσότερα