Περίληψη
Ο κύριος σκοπός της παρούσας διατριβής είναι να προσφέρει χρήσιμες πληροφορίες και προσεγγίσεις εξερευνώντας σύνολα δεδομένων που σχετίζονται με την ασφάλεια πληροφοριών και πρόσφατες τεχνολογικές τάσεις. Οι μεθοδολογίες που αναπτύσσονται γι’ αυτό το σκοπό βασίζονται κυρίως σε τεχνικές επεξεργασίας φυσικής γλώσσας και μεθόδους στατιστικής ανάλυσης. Παράλληλα, ένας από τους βασικούς στόχους της κάθε ερευνητικής μελέτης εντός της διατριβής είναι η εξαγωγή θεματολογιών με τη χρήση τεχνικών μοντελοποίησης θεματολογιών και συσταδοποίησης δεδομένων. Επιπλέον, μια θεμελιώδης αρχή της κάθε μελέτης είναι να συνεισφέρει στην επιστημονική κοινότητα και στα επιμέρους ερευνητικά πεδία επεκτείνοντας τις προ υπάρχουσες σχετικές μελέτες και εργασίες. Τα ερευνητικά πεδία και οι αντίστοιχοι τύποι δεδομένων που εξετάστηκαν στα πλαίσια της διατριβής είναι οι εξής: (i) ευπάθειες και εκμεταλλεύσεις ασφαλείας, (ii) τεχνολογικές πατέντες, (iii) μέσα κοινωνικής δικτύωσης. Τα κοινά χαρακτηριστικά μεταξύ των τρι ...
Ο κύριος σκοπός της παρούσας διατριβής είναι να προσφέρει χρήσιμες πληροφορίες και προσεγγίσεις εξερευνώντας σύνολα δεδομένων που σχετίζονται με την ασφάλεια πληροφοριών και πρόσφατες τεχνολογικές τάσεις. Οι μεθοδολογίες που αναπτύσσονται γι’ αυτό το σκοπό βασίζονται κυρίως σε τεχνικές επεξεργασίας φυσικής γλώσσας και μεθόδους στατιστικής ανάλυσης. Παράλληλα, ένας από τους βασικούς στόχους της κάθε ερευνητικής μελέτης εντός της διατριβής είναι η εξαγωγή θεματολογιών με τη χρήση τεχνικών μοντελοποίησης θεματολογιών και συσταδοποίησης δεδομένων. Επιπλέον, μια θεμελιώδης αρχή της κάθε μελέτης είναι να συνεισφέρει στην επιστημονική κοινότητα και στα επιμέρους ερευνητικά πεδία επεκτείνοντας τις προ υπάρχουσες σχετικές μελέτες και εργασίες. Τα ερευνητικά πεδία και οι αντίστοιχοι τύποι δεδομένων που εξετάστηκαν στα πλαίσια της διατριβής είναι οι εξής: (i) ευπάθειες και εκμεταλλεύσεις ασφαλείας, (ii) τεχνολογικές πατέντες, (iii) μέσα κοινωνικής δικτύωσης. Τα κοινά χαρακτηριστικά μεταξύ των τριών τύπων είναι οι περιγραφές κειμένου και οι διάφορες αριθμητικές ιδιότητες που χαρακτηρίζουν τα σχετικά δεδομένα, π.χ. ημερομηνίες, μετρήσεις. Επιπλέον, οι βασικές διαφορές μεταξύ τους αφορούν τους δημιουργούς, τη σημασία και την πιθανή αξιοποίηση των σχετικών δεδομένων. Εκτός από τις μεθοδολογίες ανάλυσης δεδομένων που αναπτύχθηκαν, μια εφαρμογή που ονομάζεται Click Text Mining Tool (ClickTMtool) αποτελεί επίσης ένα από τα βασικά στοιχεία της διατριβής. Στο σύνολο της, η εφαρμογή ClickTMtool προσφέρει λειτουργίες για την αξιοποίηση των περισσότερων μεθοδολογιών που συνεισφέραν και εφαρμόστηκαν στην παρούσα διατριβή. Όσον αφορά το πρώτο ερευνητικό πεδίο, μια από τις πιο σημαντικές προκλήσεις στη σχετική βιβλιογραφία είναι η αξιολόγηση ευπαθειών ασφαλείας με τη χρήση διαφορετικών ιδιοτήτων και πηγών δεδομένων για την ιεράρχηση κυβερνοαπειλών. Στην παρούσα διατριβή, η ύπαρξη μεθοδολογιών που μπορούν να οδηγήσουν στην εκμετάλλευση μιας ευπάθειας, και κατ’ επέκταση ενός συστήματος, αποτελεί το βασικό χαρακτηριστικό που χρησιμοποιείται για την αξιολόγηση ευπαθειών ασφαλείας. Με βάση αυτό το χαρακτηριστικό, δημιουργείται μια ιδιότητα που προσδιορίζει κάθε ευπάθεια ως εκμεταλλεύσιμη η μη-εκμεταλλεύσιμη με σκοπό να μελετηθούν οι βασικές διαφορές μεταξύ τους. Όσον αφορά τη μελέτη εκμεταλλεύσεων, η ανάπτυξη μοντέλων πρόβλεψης αποτελεί το βασικό αντικείμενο της ερευνητικής κοινότητας για την αξιολόγηση και την ιεράρχηση ευπαθειών. Επίσης, η ανάλυση χαρακτηριστικών που συσχετίζονται με ευπάθειες μεγάλης επικινδυνότητας αποτελεί εξίσου ένα σημαντικό πεδίο ενδιαφέροντος για την ενίσχυση της ασφάλειας συστημάτων. Συνολικά, η παρούσα διατριβή εξερευνά τις ιδιότητες εκμεταλλεύσιμων και μη-εκμεταλλεύσιμων ευπαθειών χρησιμοποιώντας αποκλειστικά τις περιγραφές τους από έγκυρες πήγες δεδομένων. Οι σχετικές αναλύσεις δείχνουν πως οι πληροφορίες κειμένου προσφέρουν χρήσιμη πληροφορία για την πρόβλεψη και αξιολόγηση ευπαθειών, ενώ παράλληλα, παρουσιάζονται οι λέξεις και οι θεματολογίες που συσχετίζονται με συχνές ή σπάνιες εκμεταλλεύσεις. Αδιαμφησβήτητα, η παρούσα διατριβή συμβάλει στο σχετικό ερευνητικό πεδίο προσφέροντας πληροφορίες για την εύρεση και την κατανόηση χαρακτηριστικών που συνδέονται με εκμεταλλεύσεις ευπαθειών, εστιάζοντας αποκλειστικά σε περιγραφές κειμένου δίχως την απαίτηση άλλων ιδιοτήτων. Το δεύτερο ερευνητικό πεδίο της διατριβής είναι η ανάλυση πατεντών, η οποία είναι μια διαδικασία ανάλυσης τεχνολογιών, που καλύπτονται από δικαιώματα πατεντών και αφορούν συνήθως ένα συγκεκριμένο πεδίο ενδιαφέροντος, με απώτερο σκοπό την ανακάλυψη γνώσης μέσα από σχετικά σύνολα δεδομένων. Γενικότερα, τα δεδομένα πατεντών εκφράζουν τα τεχνολογικά ενδιαφέροντα και τις επενδύσεις τόσο μεγάλων όσο και μικρών οργανισμών. Επομένως, μια ανάλυση πατεντών μπορεί να οδηγήσει στην αναγνώριση των αναγκών της αγοράς καθώς επίσης και στην ανακάλυψη καινοτομιών και αναδυόμενων τεχνολογιών. Εφόσον υπάρχουν πολλές τεχνολογικές περιοχές και αντίστοιχες σχετικές μελέτες, στην παρούσα διατριβή επιλέχθηκαν περιοχές που δεν έχουν εξερευνηθεί εις βάθος στο παρελθόν. Οι περιοχές αυτές αφορούν τις ευπάθειες ασφαλείας και τα δίκτυα οικιακού αυτοματισμού και εξερευνώνται μέσα από δύο ανεξάρτητες ερευνητικές εργασίες. Οι βασικές προκλήσεις που αντιμετωπίζονται είναι η ανακάλυψη θεματολογιών μέσα από ένα σύνολο πατεντών, η αξιολόγηση της επιρροής μια τεχνολογίας καθώς επίσης και η αναγνώριση της σχετικής θέσης/τοποθέτησης των ενδιαφερόμενων (οργανισμών και ατόμων) μέσα στα τεχνολογικά πεδία. Συνολικά, οι δύο εργασίες συνεισφέρουν στην εύρεση των κύριων επενδυτών-ανταγωνιστών και ανακαλύψεων και μπορούν να μελετηθούν για την ανάπτυξη καινοτομιών και τη σχεδίαση στρατηγικών ανταγωνισμού με βάση την κατάσταση της κάθε τεχνολογικής περιοχής. Το τρίτο ερευνητικό πεδίο αφορά τα μέσα κοινωνικής δικτύωσης. Στην παρούσα διατριβή, οι μελέτες που παρουσιάζονται αφορούν κυρίως πληροφορίες κειμένου, όπως οι τίτλοι ερωτήσεων και τα σχετικά σχόλια-απαντήσεις, και αριθμητικές ιδιότητες, όπως η ημερομηνία ανάρτησης και ο αριθμός αλληλεπιδράσεων, που προέρχονται από αναρτήσεις χρηστών στα μέσα κοινωνικής δικτύωσης. Σε αυτήν την περίπτωση, τα δεδομένα που εξερευνώνται διαφέρουν σημαντικά από τους δύο προηγούμενους τύπους δεδομένων, οπότε πρέπει να μελετηθούν αντίστοιχα. Τα περιεχόμενα και οι ιδιότητες των αναρτήσεων ενός κοινωνικού δικτύου συσχετίζονται κυρίως με τα ενδιαφέροντα, τις απορίες και τις αλληλεπιδράσεις χρηστών, ενώ οι προηγούμενοι τύποι δεδομένων αφορούν κυρίως αδυναμίες ασφαλείας και τεχνολογικές επενδύσεις. Οι πληροφορίες των αναρτήσεων στα μέσα κοινωνικής δικτύωσης μπορούν να αποδειχθούν χρήσιμες για διάφορους ερευνητικούς στόχους που αφορούν κυρίως την αξιολόγηση χρηστών του διαδικτύου και τον προσδιορισμό θεματικών τάσεων. Εκτός από αυτά τα πεδία ενδιαφέροντος, οι αναρτήσεις στα μέσα κοινωνικής δικτύωσής μπορούν να χρησιμοποιηθούν για την επίλυση κάποιων πιο περίπλοκων ζητημάτων, όπως είναι η αυτόματη παραγωγή περιεχομένου και απαντήσεων καθώς και η ανάπτυξη προγνωστικών μοντέλων. Στην παρούσα διατριβή, οι πλατφόρμες Reddit, Stack Overflow, και Twitter/X αποτελούν τις κύριες πηγές δεδομένων για την ανάλυση αναρτήσεων που αφορούν την ασφάλεια πληροφοριών, την τεχνολογία ChatGPT και την ειδησεογραφία κυβερνοασφάλειας, αντίστοιχα. Οι κοινοί στόχοι των εργασιών αυτών είναι η εξερεύνηση και η αναγνώριση των σχετικών θεματολογιών που χαρακτηρίζουν το κάθε σύνολο αναρτήσεων, ενώ παράλληλα, αναλύονται συνδυαστικά και οι διάφορες μετρήσεις που καταγράφουν αλληλεπιδράσεις χρηστών. Αρχικά, τα πειράματα που παρουσιάζονται οδηγούν στην αναγνώριση των ενδιαφερόντων και δραστηριοτήτων των χρηστών όπως εκφράζονται μέσα από τις θεματολογίες που συζητούνται στα τρία κοινωνικά δίκτυα. Επιπλέον, η ανάλυση των αλληλοεπιδράσεων των χρηστών βοηθάει στην περαιτέρω αξιολόγηση της δημοτικότητας, δυσκολίας και συνολικής αποδοχής των θεματολογιών στα διάφορα πεδία που μελετώνται. Όπως και προηγουμένως, οι μελέτες εστιάζουν σε ζητήματα και πεδία που δεν είχαν εξερευνηθεί στη σχετική βιβλιογραφία έως τώρα, αφού ένας από τους στόχους της διατριβής είναι η προσφορά χρήσιμων πληροφοριών που μπορούν να συνεισφέρουν στην ερευνητική κοινότητα και τους χρήστες του διαδικτύου. Θα πρέπει να αναφερθεί πως στην περίπτωση των ερωτήσεων που αφορούν την τεχνολογία ChatGPT, ο στόχος της αντίστοιχης μελέτης είναι η παροχή ενός ευέλικτου εργαλείου για την ανάλυση θεματολογιών και τάσεων και όχι η αποκλειστική ανάλυση ερωτήσεων αυτού του είδους. Ως αποτέλεσμα, ο στόχος αυτής της μελέτης είναι να προσφέρει μηχανισμούς για την εξόρυξη και την ανάλυση ερωτήσεων που προέρχονται από το Stack Overflow και τις κοινότητες τους Stack Exchange γενικότερα. Συνοψίζοντας, πέρα από τα ευρήματα των επιμέρους εργασιών, η παρούσα διατριβή εφαρμόζει μεθοδολογίες για την αντιμετώπιση σημαντικών προκλήσεων οι οποίες δεν επιδέχονται μοναδική λύση σύμφωνα με τη σχετική βιβλιογραφία. Συνολικά, οι μεθοδολογίες που αναπτύχθηκαν βασίζονται σε αλγορίθμους που στοχεύουν σε υψηλότερα επίπεδα αποδοτικότητας συγκριτικά με τις προ υπάρχουσες βασικές προσεγγίσεις. Για αυτό το λόγο, οι διαφορετικές τεχνικές που παρουσιάζονται στη διατριβή προσφέρουν ενδιαφέρουσες ιδέες και εναλλακτικές προσεγγίσεις για μελλοντική έρευνα που μπορούν να προσαρμοστούν σε διαφορετικούς τύπους και αναπαραστάσεις δεδομένων καθώς επίσης και ποικίλους ερευνητικούς στόχους.
περισσότερα
Περίληψη σε άλλη γλώσσα
The main purpose of this Thesis is to offer insights and solutions on different areas of interest associated with information security and technological trends by utilizing data analysis frameworks, focusing primarily on Statistical Natural Language Processing techniques. One of the primary tasks of each research study included in the Thesis encompasses approaches for topic extraction using topic modeling algorithms as well as word and document clustering techniques. Additionally, a fundamental principle of the Thesis is to contribute to the research community by extending current knowledge baselines offered by previous research in the investigated domains. The research fields that determine the data investigated in the studies of the current Thesis can be categorized into three types: (i) security vulnerabilities and exploits, (ii) patent analysis, and (iii) online social networks analysis. While the types of data used for these categories share similar characteristics associated with ...
The main purpose of this Thesis is to offer insights and solutions on different areas of interest associated with information security and technological trends by utilizing data analysis frameworks, focusing primarily on Statistical Natural Language Processing techniques. One of the primary tasks of each research study included in the Thesis encompasses approaches for topic extraction using topic modeling algorithms as well as word and document clustering techniques. Additionally, a fundamental principle of the Thesis is to contribute to the research community by extending current knowledge baselines offered by previous research in the investigated domains. The research fields that determine the data investigated in the studies of the current Thesis can be categorized into three types: (i) security vulnerabilities and exploits, (ii) patent analysis, and (iii) online social networks analysis. While the types of data used for these categories share similar characteristics associated with textual descriptions and numerical features, their main differences concern the creators, concepts, meaning, and potential usage of their data observations. Apart from the analytical frameworks built upon these three data types, a complete application (or tool) described as Click Text Mining tool (ClickTMtool) is also part of this Thesis. This tool provides functionalities for most of the key algorithms and workflows surrounding the experiments presented in this Thesis. Regarding the first research field, a main challenge towards the prioritization of security vulnerabilities is the assessment of their severity as expressed by multiple factors. This Thesis explores a factor related to evidence or clues confirming the existence of concepts that can be followed to benefit from a security vulnerability and further exploit a targeted system. According to this factor, a binary feature characterizing each vulnerability as exploitable or not is created. This feature can be investigated to evaluate the characteristics of exploitable vulnerabilities and their key differences from the rest. The practical usage of studying security vulnerabilities and exploits is expressed via the development of predictive tools measuring/forecasting the severity of a new security vulnerability from this perspective. Also, the provision of insights into patterns of vulnerabilities and exploits that should be mitigated urgently is a major contribution towards enhancing system security as well. The Thesis explores this factor with the exclusive use of vulnerability descriptions, showing that this feature indeed includes information that can lead to predicting/assessing their exploitability. At the same time, multiple words and topics with high exploitability are addressed and presented in the process. Nevertheless, the Thesis contributes to this research area by diving into the textual descriptions, rather than exploring other factors, and by producing explainable outcomes for understanding vulnerability features frequently associated with exploits. The second research field is described as patent analysis, which is the process of analyzing patented technologies to provide knowledge on the landscapes characterizing patent datasets, usually belonging to a unique area of interest. Patent data reflects on technological interests and investments of both minor and major organizations/individuals, while collective information/insights extracted from datasets of this type can address the needs and trends of the market, existing breakthroughs, and emerging technologies. As a plethora of technological directions exist, the Thesis explores domains that were not previously investigated to the levels that the presented studies thoroughly examined. These areas are related to security vulnerabilities and home automation networks. The main tasks addressed in this Thesis are the identification of the main themes covering a patent dataset, the value or influence assessment of an individual technology as well as the evaluation of the technological position of stakeholders within an area of interest. In summary, the studies contribute to distinguishing key competitors and technologies that can be studied by researchers and organizations for developing impactful innovations as well as designing competitive strategies, with respect to the landscape of a unique technological area. The third research field concerns online social networks. In this Thesis, the investigated content and numerical features are related to posts, i.e. post title, comments, replies, and indicators, e.g. dates, upvotes. The data observations in this case are completely different from the two previous data types, meaning that they should be studied accordingly. Posts and their properties within an online social network primarily refer to user interests, queries, and interactions, while the previous types concern industrial investments and product weaknesses. Post information from online social networks can be proved very useful for multiple viewpoints, including the investigation of human behavior (user interactions) as well as the detection of temporal and essential trends (post content). Apart from these viewpoints, some other more complex tasks concerning content recommendation, question answering, and forecasting tools can be addressed by analyzing posts of this type via text analysis techniques. In this Thesis, the Reddit, Stack Overflow, and Twitter/X platforms are investigated for providing insights on information security-related discussions, queries associated with ChatGPT, and posts of security news, respectively. The common tasks in these studies are the exploration and identification of relevant themes characterizing each dataset of posts coming from these networks while also, additional metadata properties concerning user interactions are analyzed as well. The findings from the respective analysis first help to demystify the key themes reflecting on user interests and experiences. Also, the meta-analysis of user interactions leads to evaluating the overall approval, popularity, difficulty, and tension to interact associated with these key themes within an investigated domain. Like previously, the studies focus on tasks and subjects that were not previously addressed in the related literature, as the ultimate objective of the Thesis is to provide valuable information that can contribute to the research community and platform users. It should be mentioned that the analysis relevant to ChatGPT aims at providing a flexible topic-based trend analysis framework rather than analyzing questions of this kind exclusively. Thus, the main scope of this study is to offer mechanisms for mining questions from Stack Overflow or Stack Exchange communities. In total, apart from the discussed findings, this Thesis implements approaches to overcome some challenges concerning relevant tasks that are not quite common in the related literature. The developed frameworks are built upon algorithms aiming to facilitate advancements for an individual task compared to the existing baselines. As a result, these frameworks offer interesting directions and options as well as ideas for future research that can be adapted to different data types and representations as well as research goals.
περισσότερα