Περίληψη
Η παρούσα διατριβή παρουσιάζει την ερευνητική προσπάθεια και τα αποτελέσματα που αυτή παρήγαγε αναφορικά με την αυτόματη αναγνώριση των χαρακτηριστικών της προσωπικότητας του συγγραφέα μέσω τεχνικών επεξεργασίας φυσικής γλώσσας. Συγκεκριμένα, εξετάζεται η υπόθεση ότι στοιχεία του χαρακτήρα ενός ατόμου μπορούν να προσδιοριστούν αυτόματα μέσω της γλώσσας που χρησιμοποιεί στο γραπτό του λόγο. Για το σκοπό αυτό αναπτύχθηκε ηλεκτρονικό σώμα κειμένων από εκθέσεις μαθητών Λυκείου στην Ελληνική γλώσσα. Στους συμμετέχοντες μαθητές χορηγήθηκαν δύο ερωτηματολόγια προσωπικότητας, το ένα βασισμένο στην τυπολογία του Carl Jung και το άλλο στο μοντέλο των Πέντε Παραγόντων (ψυχολογικών χαρακτηριστικών). Επιπλέον, καταγράφεται στην παρούσα διατριβή αναλυτική επισκόπηση της διεθνούς βιβλιογραφίας του εν λόγω ερευνητικού πεδίου, ώστε να μελετηθούν η μεθοδολογία, τα εργαλεία και τα αποτελέσματα των σχετικών ερευνών μέχρι σήμερα. Αξιοποιώντας τα σύγχρονα ερευνητικά πορίσματα, η διατριβή εξετάζει την αποτελ ...
Η παρούσα διατριβή παρουσιάζει την ερευνητική προσπάθεια και τα αποτελέσματα που αυτή παρήγαγε αναφορικά με την αυτόματη αναγνώριση των χαρακτηριστικών της προσωπικότητας του συγγραφέα μέσω τεχνικών επεξεργασίας φυσικής γλώσσας. Συγκεκριμένα, εξετάζεται η υπόθεση ότι στοιχεία του χαρακτήρα ενός ατόμου μπορούν να προσδιοριστούν αυτόματα μέσω της γλώσσας που χρησιμοποιεί στο γραπτό του λόγο. Για το σκοπό αυτό αναπτύχθηκε ηλεκτρονικό σώμα κειμένων από εκθέσεις μαθητών Λυκείου στην Ελληνική γλώσσα. Στους συμμετέχοντες μαθητές χορηγήθηκαν δύο ερωτηματολόγια προσωπικότητας, το ένα βασισμένο στην τυπολογία του Carl Jung και το άλλο στο μοντέλο των Πέντε Παραγόντων (ψυχολογικών χαρακτηριστικών). Επιπλέον, καταγράφεται στην παρούσα διατριβή αναλυτική επισκόπηση της διεθνούς βιβλιογραφίας του εν λόγω ερευνητικού πεδίου, ώστε να μελετηθούν η μεθοδολογία, τα εργαλεία και τα αποτελέσματα των σχετικών ερευνών μέχρι σήμερα. Αξιοποιώντας τα σύγχρονα ερευνητικά πορίσματα, η διατριβή εξετάζει την αποτελεσματικότητα δεκάδων υφομετρικών χαρακτηριστικών για την πρόβλεψη της προσωπικότητας των μαθητών. Αυτά τα χαρακτηριστικά, αφού εξήχθησαν αυτόματα από τα ηλεκτρονικά κειμενικά σώματα των εκθέσεων με εργαλεία και πόρους επεξεργασίας φυσικής γλώσσας, τροφοδότησαν μια μεγάλη σειρά από αλγόριθμους μηχανικής μάθησης, των οποίων τα μοντέλα ελέγχθηκαν μετά ως προς την ακρίβεια της απόδοσής τους. Για το Ερωτηματολόγιο Τύπων Προσωπικότητας Myers-Briggs Type Indicator (ΜΒΤΙ) βρέθηκε ότι ο Naive Bayes αλγόριθμος αποδίδει το μεγαλύτερο συγκριτικά κατά μέσο όρο ποσοστό ακρίβειας, ανερχόμενο σε 76,5%, ενώ για την πρόβλεψη των χαρακτηριστικών προσωπικότητας βάσει του μοντέλου των Πέντε Παραγόντων, επικράτησε ο αλγόριθμος Generalized Linear Model με μέσο όρο ακρίβειας 72,2%. Από την διεξαχθείσα έρευνα προέκυψαν νέοι συνδυασμοί υφομετρικών χαρακτηριστικών και αντίστοιχες υπολογιστικές τεχνικές, που δίνουν ενδιαφέρουσες και ικανοποιητικές λύσεις στο πρόβλημα αυτόματης αναγνώρισης της προσωπικότητας του συγγραφέα για την Ελληνική γλώσσα, ενώ καταδείχθηκε (και για τα Ελληνικά) η βαρύνουσα αξία της χρήσης των υφομετρικών γλωσσολογικών χαρακτηριστικών στην αντιμετώπιση των ερευνητικών προβλημάτων στο γενικότερο επιστημονικό και τεχνολογικό πεδίο της κατανόησης από τον υπολογιστή του ανθρώπινου γραπτού λόγου, με έμφαση στην επεξεργασία κειμένων φυσικής γλώσσας για αυτόματη εξόρυξη ιδιαίτερων χαρακτηριστικών του συγγραφέα τους.
περισσότερα
Περίληψη σε άλλη γλώσσα
This thesis presents the research and its outcomes regarding the automatic recognition of author’s personality features based on natural language processing techniques. In particular, we examine the hypothesis that the elements of a person’s character can be determined automatically through the language he/she uses in written speech. For this purpose, an electronic corpus of texts has been developed comprising essays written by high-school students in Modern Greek. Participant students were given two personality questionnaire, one based on the typology of Carl Jung and the other based on the Model of Five Factors (psychological traits). In addition, in this volume, a detailed overview is recorded of international literature of the research field in question, in order to study the methodology, the tools and the results of relevant research up to now. By utilizing modern research findings, the thesis examines the effectiveness of numerous stylometric features to predict the personality o ...
This thesis presents the research and its outcomes regarding the automatic recognition of author’s personality features based on natural language processing techniques. In particular, we examine the hypothesis that the elements of a person’s character can be determined automatically through the language he/she uses in written speech. For this purpose, an electronic corpus of texts has been developed comprising essays written by high-school students in Modern Greek. Participant students were given two personality questionnaire, one based on the typology of Carl Jung and the other based on the Model of Five Factors (psychological traits). In addition, in this volume, a detailed overview is recorded of international literature of the research field in question, in order to study the methodology, the tools and the results of relevant research up to now. By utilizing modern research findings, the thesis examines the effectiveness of numerous stylometric features to predict the personality of the students. These features, after being automatically extracted from the electronic corpuses of essays using tools and natural languages processing resources, fed a long series of machine learning algorithms, the models of which were later controlled for the accuracy of their efficiency. As regards the Personality Types Questionnaire (Myers-Briggs Type Indicator (ΜΒΤΙ)) we found that the Naive Bayes algorithm renders the highest average accuracy percentage, being 76.5%, while for the prediction of personality features based on the Five Factors model, the Generalized Linear Model algorithm prevailed by average accuracy 72.2%. From the research that we conducted new combinations of stylometric features resulted and corresponding computational techniques, giving interesting and satisfying solutions to the problem of author’s personality automatic recognition for Greek, while the important value of the use of stylometric linguistic features was demonstrated (for Greek as well) in tackling the research problems in the general scientific and technological field of human written speech understanding by computers, emphasizing on the processing of natural language texts for automatic mining of distinct features of their author.
περισσότερα