Μοντελοποίηση της ακουστικής αναπαράστασης της τυπογραφίας εγγράφων μέσω εκφραστικής συνθετικής ομιλίας για τυφλούς και βλέποντες

Η δυνατότητα πρόσβασης στα έντυπα και ηλεκτρονικά έγγραφα (βιβλία, εφημερίδες, περιοδικά, επιστολές, περιεχόμενο ιστού) από τα άτομα με εντυποαναπηρία, αλλά και από τους μετακινούμενους χρήστες ή τους ηλικιωμένους, βασίζεται στη μετατροπή τους (σε πραγματικό χρόνο) σε ακουστική, κατά κύριο λόγο, ή και απτική μορφή. Ένα έγγραφο, πέραν από το περιεχόμενό του, περιλαμβάνει έναν αριθμό από στοιχεία οπτικής παρουσίασης, όπως: είδος, μέγεθος και χρώμα γραμματοσειράς και τρόπο γραφής (έντονη, πλάγια, υπογραμμισμένη). Παρά τη μεγάλη πρόοδο που επιτεύχθηκε στα συστήματα μετατροπής Κειμένου-σε-Ομιλία, σήμερα αυτά δεν υποστηρίζουν την αποτελεσματική ακουστικοποίηση της σημασιολογίας και των γνωσιακών πτυχών των Στοιχείων Οπτικής Παρουσίασης των Εγγράφων (ΣΟΠΕ). Ουσιαστικά αυτή η επιπλέον πληροφορία «χάνεται» κατά την επεξεργασία του εγγράφου με σκοπό την ακουστική απόδοσή του ή τη μετατροπή του σε απτική μορφή (γραφή Braille). Η παρούσα διατριβή ασχολείται με την ακουστικοποίηση, για τυφλούς και βλέποντες, της μεταπληροφορίας ΣΟΠΕ κατά τη μετατροπή τους σε ομιλία. Η προσέγγιση του προβλήματος χωρίζεται σε δύο στάδια: α) την αυτόματη εξαγωγή των επαγόμενων συναισθημάτων του αναγνώστη από τις εναλλαγές των ΣΟΠΕ και β) την ακουστική απόδοσή τους χρησιμοποιώντας εκφραστική συναισθηματική συνθετική ομιλία.Με σκοπό τη δημιουργία ενός συστήματος αυτόματης εξαγωγής της επαγόμενης συναισθηματικής κατάστασης από τα ΣΟΠΕ και τη κατάλληλη επισημείωση των εγγράφων με αυτή την πληροφορία, προτείνεται μία αρχιτεκτονική για την πολυτροπική παραγωγή, παρουσίαση και πλοήγηση σε πραγματικό χρόνο σε καθολικά προσβάσιμα έγγραφα, ανεξάρτητα φυσικής γλώσσας, περιεχομένου και πολιτισμού. Η υλοποίηση του αντίστοιχου πρωτότυπου συστήματος βασίστηκε στην τεχνολογία XML. Στη συνέχεια, αναπτύσσεται ένα μοντέλο για την ποσοτική περιγραφή του τρόπου ακουστικοποίησης των τυπογραφικών εναλλαγών ΣΟΠΕ μέσω: i) της μαθηματικής περιγραφής των μεταβολών της επαγόμενης συναισθηματικής κατάστασης του αναγνώστη που στηρίζεται στη διαστατική φύση των συναισθημάτων στον χώρο «Ευχαρίστηση», «Διέγερση» και «Επικράτηση», και ii) της αντιστοίχησής τους σε μεταβολές προσωδιακών χαρακτηριστικών της εκφραστικής συνθετικής ομιλίας.Για την αξιολόγηση του προσωδιακού μοντέλου εξετάστηκε, μέσω ψυχοακουστικών πειραμάτων, το κατά πόσο οι ακροατές είναι σε θέση να αναγνωρίσουν τις τυπογραφικές εναλλαγές ΣΟΠΕ με ακουστικό τρόπο. Τα αποτελέσματα ήσαν θετικά ακόμη και για ακροατές χωρίς πρότερη εκπαίδευση. Επίσης, το μοντέλο που αναπτύχθηκε αξιολογήθηκε από βλέποντες και τυφλούς μαθητές δημοτικού σχολείου ότι προάγει την απόδοσή τους κατά τη διδακτική διαδικασία.

περισσότερα

Περίληψη σε άλλη γλώσσα

The accessibility to printed and electronic documents (books, newspapers, journals, letters, web content) by the print disabled, as well as the moving users and the elderly, is based on the possibility to convert them (in real time) into, primary, acoustic and or haptic modality. Besides its content, a printed or electronic text document contains a number of presentation visual elements that apply design glyphs or typographic elements, such as font (type, size and color) and font style (bold, italics and underline). Regardless the important progress achieved in Text-to-Speech systems, to date they do not support the efficient sonification of the semantics and cognitive aspects of the Visual Presentation Elements in Documents (VPED). Essentially all this additional metadata vanishes during the document processing towards its acoustic or haptic (in Braille) rendition.This dissertation deals with the sonification of the VPED metadata during their transformation to speech. The approach to this problem includes two phases: a) the automatic extraction of the VPED induced emotional states to the reader and b) their acoustic rendition using expressive emotional synthetic speech. Focusing on the develop a system for the automatic extraction of the VPED induced emotional states and the appropriate tagging of the documents with this information, a novel architecture is proposed for the multimodal universal accessibility of documents, regardless of their natural language, content and culture. The realization of the corresponding system is based on the XML technology. Moreover, a quantitative model is developed for the sonification of the VPED typographic alternations by: i) the mathematical formulation of the induced reader’s emotional state, based on the dimensional nature of the emotions in the space “Pleasure”, “Arousal” and “Dominance”, and ii) their mapping into prosodic alternation of the expressive synthetic speech. For the evaluation of the prosodic model we have explored, using psychoacoustic experiments, whether the listeners can acoustically recognize the VPED typographic alternations. The results were positive even in the case of listeners without any previous training. Furthermore, the evaluation of the developed model by sighted and blind students of primary education shows enhancement of their performance during the didactic process.

περισσότερα

Διαβάστε τη διατριβή (Online)

Κατεβάστε τη διατριβή σε μορφή PDF (2.9 MB) (Η υπηρεσία είναι διαθέσιμη μετά από δωρεάν εγγραφή)

Όλα τα τεκμήρια στο ΕΑΔΔ προστατεύονται από πνευματικά δικαιώματα.

DOI	10.12681/eadd/33257
Διεύθυνση Handle	http://hdl.handle.net/10442/hedi/33257
ND	33257
Εναλλακτικός τίτλος	Modeling acoustic rendition of documents' typography using expressive speech synthesis for sighted and blind users
Συγγραφέας	Τσώνος, Δημήτριος (Πατρώνυμο: Ιωάννης)
Ημερομηνία	2012
Ίδρυμα	Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών (ΕΚΠΑ). Σχολή Θετικών Επιστημών. Τμήμα Πληροφορικής και Τηλεπικοινωνιών
Εξεταστική επιτροπή	Κουρουπέτρογλου Γεώργιος Βοσνιάδου Στυλιανή Θεοδωρίδης Σέργιος Σαγκριώτης Εμμανουήλ Παπαδόπουλος Κωνσταντίνος Αργυρόπουλος Βασίλειος Γάτος Βασίλειος
Επιστημονικό πεδίο	Φυσικές Επιστήμες ➨ Επιστήμη Ηλεκτρονικών Υπολογιστών και Πληροφορική
Λέξεις-κλειδιά	Αλληλεπίδραση ανθρώπου - υπολογιστή; Καθολική πρόσβαση; Σχεδίαση για όλους; Συναισθήματα; Εκφραστική συνθετική ομιλία
Χώρα	Ελλάδα
Γλώσσα	Ελληνικά
Άλλα στοιχεία	180 σ., πιν., σχημ., ευρ.

Στατιστικά χρήσης

ΠΡΟΒΟΛΕΣ

Αφορά στις μοναδικές επισκέψεις της διδακτορικής διατριβής για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.

ΞΕΦΥΛΛΙΣΜΑΤΑ

Αφορά στο άνοιγμα του online αναγνώστη για την χρονική περίοδο 07/2018 - 07/2023.
Πηγή: Google Analytics.

ΜΕΤΑΦΟΡΤΩΣΕΙΣ

Αφορά στο σύνολο των μεταφορτώσων του αρχείου της διδακτορικής διατριβής.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.

ΧΡΗΣΤΕΣ

Αφορά στους συνδεδεμένους στο σύστημα χρήστες οι οποίοι έχουν αλληλεπιδράσει με τη διδακτορική διατριβή. Ως επί το πλείστον, αφορά τις μεταφορτώσεις.
Πηγή: Εθνικό Αρχείο Διδακτορικών Διατριβών.

Σχετικές εγγραφές (με βάση τις επισκέψεις των χρηστών)

Πρώιμη ανίχνευση τάσεων προς εμφάνιση συμπτωμάτων δυσλεξικής συμπεριφοράς κατά την προσχολική ηλικία

Διερεύνηση της σχέσης της προτίμησης χεριού και της ακρίβειας στη γραφή και ανάγνωση braille παιδιών με αναπηρία όρασης

Έφηβοι με υψηλές επιδόσεις στα μαθηματικά: μεταγνωστικες διεργασίες, κίνητρα μάθησης και συναισθήματα επίτευξης

Μελέτη των διαταραχών λόγου και επικοινωνίας σε ασθενείς με διαφορετικούς τύπους άνοιας, με την χρήση λογοθεραπευτικών κλιμάκων και την βοήθεια σύγχρονων μεθόδων νευροαπεικόνισης

Μελέτη για τη χρήση προσωπικών βιβλίων επικοινωνίας σε άτομα με βαριά αφασία

Η κατανόηση των παιδιών με αναπηρία όρασης μέσω διαφορετικών τρόπων πρόσβασης στην πληροφορία

Η ανάπτυξη του λόγου σε παιδιά με αυτισμό και βαριές διαταραχές στην επικοινωνία

Τα αρχαιολογικά μουσεία της Αθήνας και η επικοινωνία τους με το κοινό

Ακουστική αντίληψη στοιχείων της τυπογραφίας σχολικών βιβλίων από τυφλούς και βλέποντες μαθητές

Στατιστικά μοντέλα ανάλυσης και εκτίμησης δεδομένων διοίκησης λογισμικού

"Μοντελοποίηση της ακουστικής αναπαράστασης της τυπογραφίας εγγράφων μέσω εκφραστικής συνθετικής ομιλίας για τυφλούς και βλέποντες"
	Πληκτρολογήστε το κείμενο της εικόνας!
Δηλώνω ότι έλαβα γνώση και ανεπιφύλακτα συμφωνώ και αποδέχομαι τους Όρους Χρήσης του Εθνικού Αρχείου Διδακτορικών Διατριβών, καθώς και της .