Περίληψη
Το τεχνολογικό τοπίο στις μέρες μας προσδιορίζεται από έννοιες όπως σημασιολογικός ιστός, έξυπνες υπολογιστικές συσκευές, υπηρεσίες στο υπολογιστικό νέφος, ενώ παρέχει μαζικά δυνατότητες που μέχρι πρότινος αξιοποιούνταν αποκλειστικά για επαγγελματικούς σκοπούς. Σε αυτό το πλαίσιο καθιερώθηκαν νέες τάσεις ψυχαγωγίας και επικοινωνίας που οδήγησαν στη ραγδαία αύξηση παραγωγής, διακίνησης και δημοσίευσης πολυμεσικού υλικού. Το περιεχόμενο που παράγεται τόσο από απλούς χρήστες, όσο και από επαγγελματίες, επηρέασε τον τρόπο λειτουργίας καθημερινών διαδικασιών και εισήγαγε νέες ροές εργασίας. Παράλληλα, εκσυγχρονίστηκαν οι τρόποι απομακρυσμένης επικοινωνίας σε πραγματικό χρόνο, ενώ άνθησαν και οι υπηρεσίες ανταλλαγής άμεσων μηνυμάτων, που πλέον δεν περιλαμβάνουν μόνο δεδομένα κειμένου, αλλά λαμβάνουν πλούσια μορφή που ενσωματώνει φωτογραφίες και σύντομα αποσπάσματα καταγραφών βίντεο ή ήχου. Η συνεχής εγκαθίδρυση νέων επικοινωνιακών υποδομών οδηγεί στον πολλαπλασιασμό των μορφών σύγχρονης και ...
Το τεχνολογικό τοπίο στις μέρες μας προσδιορίζεται από έννοιες όπως σημασιολογικός ιστός, έξυπνες υπολογιστικές συσκευές, υπηρεσίες στο υπολογιστικό νέφος, ενώ παρέχει μαζικά δυνατότητες που μέχρι πρότινος αξιοποιούνταν αποκλειστικά για επαγγελματικούς σκοπούς. Σε αυτό το πλαίσιο καθιερώθηκαν νέες τάσεις ψυχαγωγίας και επικοινωνίας που οδήγησαν στη ραγδαία αύξηση παραγωγής, διακίνησης και δημοσίευσης πολυμεσικού υλικού. Το περιεχόμενο που παράγεται τόσο από απλούς χρήστες, όσο και από επαγγελματίες, επηρέασε τον τρόπο λειτουργίας καθημερινών διαδικασιών και εισήγαγε νέες ροές εργασίας. Παράλληλα, εκσυγχρονίστηκαν οι τρόποι απομακρυσμένης επικοινωνίας σε πραγματικό χρόνο, ενώ άνθησαν και οι υπηρεσίες ανταλλαγής άμεσων μηνυμάτων, που πλέον δεν περιλαμβάνουν μόνο δεδομένα κειμένου, αλλά λαμβάνουν πλούσια μορφή που ενσωματώνει φωτογραφίες και σύντομα αποσπάσματα καταγραφών βίντεο ή ήχου. Η συνεχής εγκαθίδρυση νέων επικοινωνιακών υποδομών οδηγεί στον πολλαπλασιασμό των μορφών σύγχρονης και ασύγχρονης διαμεσικής επικοινωνίας, αυξάνοντας τις απαιτήσεις του εμπεριεχόμενου λογισμικού και ιδιαίτερα των αλγορίθμων οπτικοακουστικής ανάλυσης. Η ανάπτυξη τέτοιων αλγορίθμων διευκολύνει τις διαδικασίες διαχείρισης του τεράστιου όγκου των παραγόμενων δεδομένων και εξασφαλίζει εμπειρία υψηλού επιπέδου στους χρήστες των σχετικών εφαρμογών λογισμικού.Από μια διαφορετική σκοπιά ανάλυσης, η πρόσβαση σε αυτή την μαζικά παραγόμενη πληροφορία επιτρέπει την ανάπτυξη καινοτόμων μηχανισμών που πολλαπλασιάζουν τις δυνατότητες διαχείρισης μεγάλου όγκου οπτικοακουστικών δεδομένων, ενώ παράλληλα προσφέρουν νέους τρόπους αλληλεπίδρασης με το χρήστη. Ενδεικτικά, στο ευρύτερο πεδίο της σημασιολογικής ανάλυσης ήχου, περιλαμβάνονται προβλήματα όπως η κατάτμηση ηχητικού σήματος, η αναγνώριση ομιλίας και ομιλητών, η αναγνώριση συναισθήματος, η εξαγωγή πληροφορίας από την μουσική ή ακόμη και η αναγνώριση περιβαλλοντικών ήχων. Όσον αφορά το πεδίο ανάλυσης της εικόνας, προτείνονται μεθοδολογίες που πραγματοποιούν αυτόματη επισημείωση και χαρακτηρισμό του περιεχομένου, με επίκεντρο την ανάλυση της ανθρώπινης επικοινωνίας, όπως η δεικτοδότηση ομιλητών και ο εντοπισμός ομιλίας. Παράλληλα, παρατηρείται έντονη ερευνητική δραστηριότητα γύρω από την ανάπτυξη συστημάτων και εφαρμογών στον τομέα της τεχνητής νοημοσύνης που προωθούν την επίλυση των παραπάνω προβλημάτων.Στο πλαίσιο της παρούσας διατριβής εισάγεται ένα μοντέλο οργάνωσης οπτικοακουστικών πόρων και επιμέρους αλγοριθμικών μονάδων που το απαρτίζουν, αποσκοπώντας στη δημιουργία οπτικοακουστικών αποθετηρίων μέσω πληθοπορισμού και την αποτελεσματική διαχείριση των εμπεριεχόμενων δεδομένων. Οι προτεινόμενες μεθοδολογικές προσεγγίσεις καλούνται να ανταπεξέλθουν στις προκλήσεις που προκύπτουν από την ποικιλομορφία των χρησιμοποιουμένων υπηρεσιών και μέσων, αλλά και του στοχαστικού τρόπου αλληλεπίδρασης καθημερινών χρηστών με αυτά. Συγκεκριμένα, εισάγεται ένα ηχητικά-οδηγούμενο, μοντέλο κατάτμησης και ευρετηρίασης οπτικοακουστικού περιεχομένου και προδιαγράφεται η αλγοριθμική άποψη ενός συστήματος που υποστηρίζει τη δημιουργία, την επικύρωση και την συνεχή ανανέωση επισημειωμένων των εμπεριεχόμενων δεδομένων. Επιπρόσθετα, παρουσιάζεται ένας νέος αλγόριθμος για την επέκταση της στατιστικής συνάθροισης ηχητικών χαρακτηριστικών παραμέτρων, που στηρίζεται στην μοντελοποίηση των δεδομένων βάσει των συναρτήσεων πυκνότητας πιθανότητας Άλφα Σταθερών κατανομών, όπως και μια νέα στρατηγική που εμπλουτίζει τις καθιερωμένες τεχνικές συνάθροισης παραμέτρων με επιπλέον τελεστές χρονικής ολοκλήρωσης. Έπειτα, διερευνώνται οι βέλτιστες τεχνικές βαθιάς εκμάθησης για την ταξινόμηση ηχητικού περιεχομένου και επιδιώκεται ο ορισμός ενός πρωτοκόλλου για τη σχεδίαση μονοδιάστατων και δισδιάστατων συνελικτικών νευρωνικών δικτύων σε τυπικά προβλήματα εντοπισμού ηχητικών προτύπων, παράλληλα με την ανάπτυξη μιας καινοτόμου αρχιτεκτονικής συνελικτικών δικτύων μακράς βραχυπρόθεσμης μνήμης για τον εντοπισμό ομιλίας βάσει οπτικής ανάλυσης. Τέλος προδιαγράφεται μια σύγχρονη ροή ενεργειών για τον χωρικό εντοπισμό ομιλητών, μέσω πολυτροπικής, οπτικοακουστικής, ανάλυσης.
περισσότερα
Περίληψη σε άλλη γλώσσα
Semantic web, smart mobile devices and cloud services are some of the concepts that define the modern technological landscape. In this context, new trends for infotainment and communication have been established and led to the rapid increase of capturing, producing and distributing multimedia content. This content is created both by professionals and everyday users and has affected well-established everyday processes or introduced new workflows for professionals. Meanwhile, real-time video communication has become a mainstream operation, while instant messaging services embrace rich media content, such as short audio and video clips. The continuous development of new communication infrastructures has led to the rapid increase of synchronous and asynchronous types of mediated communication, increasing the expectations of the underlying software infrastructure, including the field of semantic audio-visual analysis. The development of automated processes becomes a necessity, so as to ensu ...
Semantic web, smart mobile devices and cloud services are some of the concepts that define the modern technological landscape. In this context, new trends for infotainment and communication have been established and led to the rapid increase of capturing, producing and distributing multimedia content. This content is created both by professionals and everyday users and has affected well-established everyday processes or introduced new workflows for professionals. Meanwhile, real-time video communication has become a mainstream operation, while instant messaging services embrace rich media content, such as short audio and video clips. The continuous development of new communication infrastructures has led to the rapid increase of synchronous and asynchronous types of mediated communication, increasing the expectations of the underlying software infrastructure, including the field of semantic audio-visual analysis. The development of automated processes becomes a necessity, so as to ensure high-level user experience and effectiveness of managing this huge amount of data.From another point of view, accessing this mass-produced content enables new opportunities for advancing into the research field of semantic audiovisual analysis. The relevant algorithms are ubiquitous in contemporary multimedia applications and are applied to diverse machine learning tasks. Concerning semantic audio analysis, there is a variety of implementations that deal with speech recognition, emotion recognition, speaker diarisation or music information retrieval. Speech, music and noise content is dominant in the encountered classification taxonomies. On the other hand, visual analysis targets at human-related tasks, such as face recognition, speaker diarization, speaker localization or voice activity detection. There is no doubt that expectations, both in terms of pattern recognition accuracy and reduced computational requirements are high. Thus, algorithms should be under continuous review and revision. At the same time, the intense research activity in the field of artificial intelligence empowers all these algorithms.This thesis proposes an agile model for multimedia organization, incorporating various algorithmic units for supporting the automated processes of semantic content analysis. This approach intends to facilitate the construction, validation, and continuous update of ground-truth data, aiming at delivering consistent behavior under different circumstances. Specifically, a framework for generic video detection and classification, combining hierarchical bimodal segmentation with hybrid pattern classification is introduced as the algorithmic architecture of a mobile back-end system. An advancement of statistical feature integration is presented, attempting to fit data through the alpha-stable distribution. In addition to this, an enhanced temporal integration methodology is also introduced, establishing a solid and reduced-complexity feature-engine. Furthermore, the research focuses on optimizing lightweight configurations for convolutional network topologies that can be deployed on audio information retrieval tasks, such as voice activity detection, speaker diarization or speech emotion recognition. The outmost target of this effort is to set a protocol for developing deep convolutional topologies for audio classification tasks, minimizing complexity and computational needs. Along with the audio-related deep architectures, a convolutional long-short term memory neural topology is deployed for performing visual voice activity detection analyses. Finally, a multimodal workflow for localizing active speakers in video streams is developed, based on multimodal, audiovisual analysis and a fuzzy inference mechanism.
περισσότερα