Τεχνική Περιγραφή της Επιστημονικής και Τεχνολογικής Μεθοδολογίας

Για τις ανάγκες του έργου θα ακολουθηθεί η Agile Methodology σε 2 κύκλους εξέλιξης, έναν μικρής διάρκειας που θα οδηγήσει σε ένα γρήγορο πρότυπο (Minimum Viable Product – MVP) και έναν μεγαλύτερης διάρκειας που θα ολοκληρώσει το τελικό προϊόν και θα βελτιώσει την εκπαίδευσή του σε πραγματικά δεδομένα. Κάθε κύκλος εξέλιξης περιλαμβάνει τις φάσεις σύλληψης απαιτήσεων, προτεραιοποίησης αυτών, κατασκευής και ενσωμάτωσης στο τελικό προϊόν. Με το τέλος του πρώτου κύκλου εξέλιξης αναμένεται να υπάρχει ένα αρχικό προϊόν με βασική λειτουργικότητα (MVP) το οποίο μπορεί να επιδειχθεί σε πιθανούς ενδιαφερόμενους πελάτες και να φέρει αξιολόγηση του αποτελέσματος και ανατροφοδότηση σχετικά με επιπλέον λειτουργικότητα.

Η βάση της προτεινόμενης λύσης είναι η μοντελοποίηση του τρόπου που διαδίδονται οι ειδήσεις στα κοινωνικά μέσα (είτε μέσω πηγών, είτε μέσω λογαριασμών χρηστών που αναμεταδίδουν) με εκπαίδευση κατάλληλων Γραφοσυνελικτικών Νευρωνικών Δικτύων (GCN) (Εικόνα 1). 

Εικόνα 1. Το GCN που μοντελοποιεί το δίκτυο επιρροής των πηγών και εντοπίζει τα πρότυπα διάχυσης ειδήσεων

Πάνω σε αυτά θα προσαρμοστούν κατάλληλα επαναλαμβανόμενα νευρωνικά δίκτυα (Recurrent Neural Networks – RNN) ιδανικά για την ανάλυση ροών δεδομένων, τα οποία θα αξιοποιούν παρελθούσα γνώση αλλά και θα προσαρμόζονται δυναμικά στην πιο πρόσφατα προσλαμβανόμενη πληροφορία (Azar et al, 2016; Oliveira et al, 2017) με αποτέλεσμα να μπορούν να αποκρίνονται καλύτερα στις δυναμικές αλλαγές των κοινωνικών δικτύων και των συζητήσεων που δημιουργούνται σε αυτά. Τα ιστορικά στοιχεία θα επιτρέψουν να ορίσουμε και να αξιολογήσουμε μεγέθη όπως η επιρροή των διαφόρων πηγών και των ειδήσεων που μεταδίδουν και να αξιοποιήσουμε την πληροφορία αυτή στα μοντέλα πρόβλεψης (PiñeiroChousa, 2017). Πάνω από αυτή τη σύνθετη δομή, η οποία θα επανεκπαιδεύεται περιοδικά ώστε να ανταποκρίνεται στην τρέχουσα δομή επιρροής των κοινωνικών δικτύων, θα υπάρχει ένας μηχανισμός Ενισχυτικής μάθησης που θα μαθαίνει διαρκώς από παραδείγματα astroturfing όσο αυτά εντοπίζονται και επισημαίνονται και θα μπορεί σταδιακά να εντοπίζει αυτόματα αντίστοιχες περιπτώσεις (Εικόνα 2).

Εικόνα 2. Η πλήρης αρχιτεκτονική του RL-RNN-GCN που μοντελοποιεί συνδυαστικά την επιρροή των πηγών στα κοινωνικά μέσα με το χρόνο και εκπαιδεύεται διαρκώς στην ανίχνευση astroturfing campaigns. 

Τρέχουσα ερευνητική στάθμη 

Η έννοια του «astroturfing» στα κοινωνικά μέσα και ευρύτερα στο ψηφιακό περιβάλλον άρχισε να συζητείται στις αρχές της δεκαετίας που διανύουμε (Ratkiewicz et al., 2010) και ήδη, από το 2013, έχουμε τις πρώτες προσπάθειες ανίχνευσής του με τρόπο συστηματικό, τα πρώτα εργαλεία και αλγορίθμους (Zhang et al., 2013). Το ψηφιακό «astroturfing» μπορεί, λοιπόν, να συνοψιστεί ως οργανωμένη επικοινωνιακή καμπάνια, με την υποστήριξη σπόνσορα, κατά την οποία χρήστες κατευθυνόμενα αναρτούν στοχευμένες δημοσιεύσεις στο Διαδίκτυο (π.χ. αναρτώντας «κατά παραγγελία» κριτικές προϊόντων) και σαφώς εμπεριέχει την έννοια μιας ομάδας χρηστών (δικτυακών προφίλ και online πηγών) που δρα συστηματικά και λιγότερο ή περισσότερο οργανωμένα (Alallaq et al, 2018). Η πλειονότητα των περιστατικών «astroturfing» αφορά στον χώρο της πολιτικής, με μέσα όπως το Twitter (Ratkiewicz et al., 2011) και τα blogs να πρωτοστατούν σε τέτοιες εκστρατείες. Πρόσφατα, άρχισαν να παρατηρούνται παρόμοιες προσπάθειες δημιουργίας αλλά και ανίχνευσης «astroturfing» σε διάφορους τομείς και σε πιο δυναμικά περιβάλλοντα (Shah et al., 2017). 

Η στρατηγική με την οποία οργανώνονται τα astroturfing campaigns βασίζεται κατά ένα μέρος στη διατύπωση μιας ψευδούς είδησης με αληθοφανή τρόπο και κατά το υπόλοιπο μέρος στη διάδοσή της στο δίκτυο των κοινωνικών μέσων με τρόπο που να μεγιστοποιεί την επιρροή (Aslay et al, 2018). Στην πρώτη περίπτωση, η επικύρωση της ορθότητας μιας είδησης απαιτεί συνδυαστική αξιολόγηση των αναγραφόμενων γεγονότων (fact checking) αλλά και του ύφους γραφής (υφολογική ανάλυση) και συχνά επηρεάζεται και από την ορθότητα της πηγής που την παραθέτει. Οι υπάρχουσες τεχνικές εστιάζουν σε μια πηγή τη φορά και δεν εξετάζουν τον τρόπο αναμετάδοσης της είδησης. Στη δεύτερη περίπτωση που αφορά στη μεγιστοποίηση της επιρροής, προσεκτικά επιλεγμένες πηγές και επιπλέον αυτόματα δημιουργούμενα προφίλ (bots) χρησιμοποιούνται για να αναμεταδίδουν αυτόματα μια είδηση μεγιστοποιώντας την έκθεση όλων των χρηστών στην προπαγάνδα. Οι τεχνικές που έχουν εντοπιστεί ως τώρα στη βιβλιογραφία εστιάζουν στον αυτόματο εντοπισμό τέτοιων bots με χρήση τεχνικών ανάλυσης του κειμένου που αναμεταδίδουν (Peng et al, 2017) αλλά και πάλι δεν εξετάζουν συνολικά το δίκτυο επιρροής που διαμορφώνεται σε κάθε καμπάνια.

 

Πρόοδος πέραν της τρέχουσας ερευνητικής στάθμης

Η εμπιστοσύνη και η επιρροή είναι δύο πολύ σημαντικοί παράγοντες που επηρεάζουν τη διάδοση της πληροφορίας στα κοινωνικά δίκτυα και συμβάλλουν στη διαμόρφωση της κοινής γνώμης και των αγορών (Eirinaki et al, 2014; Lassen et al, 2014). Στην περίπτωση μιας προσχεδιασμένης προπαγάνδας, το πρότυπο μέσα από το οποίο διαδίδεται μια ψευδής είδηση, ειδικά στα πρώτα της στάδια είναι πολύ συγκεκριμένο καθώς αναμένεται να ξεκινά από συγκεκριμένους χρήστες και να αναμεταδίδεται από τους κύκλους επιρροής τους. Παρόλη την πρόοδο σε θέματα αξιολόγησης της εγκυρότητας μιας είδησης και αντίστοιχα πηγών που μεταδίδουν ειδήσεις, μέχρι σήμερα δεν έχει παρουσιαστεί ένα ενιαίο προγνωστικό μοντέλο, το οποίο να μαθαίνει το δίκτυο επιρροής που διαμορφώνεται στα κοινωνικά μέσα και να το αξιοποιεί για τον εντοπισμό ψευδών ειδήσεων στα πρώτα στάδια της δημιουργίας τους.

Το παρόν έργο θα αξιοποιήσει τα υπάρχοντα ερευνητικά αποτελέσματα και εστιάζουν στη διάδοση της είδησης σε διμερείς και weighted γράφους (Neal, 2014) αλλά και στα προβλήματα που μπορεί να επιφέρει η μεγάλη συνδεσιμότητα που αυτοί εμφανίζουν (Dianati, 2016) και θα προχωρήσει την έρευνα ένα βήμα πιο πέρα, αξιοποιώντας τις δυνατότητες της Βαθιάς Μηχανικής Μάθησης και της Ενισχυτικής Μάθησης. Πιο συγκεκριμένα: 

  • Θα σχεδιάσει και θα αναπτύξει λύσεις που θα αξιοποιούν τα υπάρχοντα εργαλεία της PALO και της Qix για συλλογή περιεχομένου από τα κοινωνικά μέσα και εξαγωγή εταιρικών αναφορών και πολικότητας από κείμενα (Tsirakis et al, 2016) και θα μοντελοποιούν τα δίκτυα επιρροής στα κοινωνικά μέσα με ανάλυση των αναφορών και των αναμεταδόσεών τους.
  • Θα σχεδιάσει ένα ενιαίο προγνωστικό μοντέλο που θα εστιάσει στο πρότυπο διάχυσης της πληροφορίας στα κοινωνικά δίκτυα μέσα από αξιόπιστους, αναξιόπιστους και άγνωστους κόμβους. Θα ενσωματώσει χαρακτηριστικά όπως το βάθος, το πλήθος των εμπλεκομένων, το εύρος, η δομική μεταδοτικότητα (Goel et al. 2015) και η ταχύτητα μετάδοσης που φαίνεται να διαφοροποιούνται μεταξύ ψευδών και αληθών ειδήσεων (Vosoughi et al. 2018).
  • Θα εκπαιδεύσει συνδυασμό Γραφοσυνελικτικών και Επαναλαμβανόμερνων Νευρωνικών Δικτύων (RNN-GCN) σε διαφορετικά θεματικά πεδία, με δεδομένα ειδήσεων που αναπαράγονται στα κοινωνικά μέσα και θα μάθει πρότυπα διάδοσης της είδησης.
  • Θα χρησιμοποιήσει τεχνικές Ενισχυτικής Μάθησης (Reinforcement learning – RL) πάνω στα GCN για να εκπαιδεύσει ένα προγνώστη που θα τροφοδοτείται με δεδομένα σχετικά με τη διάχυση μιας είδησης και θα εκτιμά αν υπάρχει κάποια υποκρυπτόμενη προπαγάνδα πίσω από αυτή.

 

Όπως εξηγήθηκε αναλυτικά πιο πάνω, η προτεινόμενη επιστημονική και τεχνολογική προσέγγιση: (α)  είναι απόλυτα αξιόπιστη καθώς βασίζεται σε τεχνολογίες και λύσεις αιχμής οι οποίες αξιοποιούν δεδομένα απόλυτα ταιριαστά με το πρόβλημα που επιχειρούμε να λύσουμε, (β)  το προτεινόμενο έργο υιοθετεί καινοτόμες αρχές και προσεγγίσεις και ξεπερνά τον πήχη της τρέχουσας τεχνολογικής στάθμισης καθώς φιλοδοξεί να υλοποιήσει μια ολοκληρωμένη λύση με μεγάλη εφαρμοσιμότητα και δυνατότητες γενίκευσης και σε άλλους τομείς.

 

Αναφορές

Alallaq, N., Dohan, M. I., & Han, X. (2018, November). Sentiment Analysis to Enhance Detection of Latent Astroturfing Groups in Online Social Networks. In International Conference on Applications and Techniques in Information Security (pp. 79-91). Springer, Singapore.

Aslay, C., Lakshmanan, L. V., Lu, W., & Xiao, X. (2018, February). Influence maximization in online social networks. In Proceedings of the Eleventh ACM International Conference on Web Search and Data Mining (pp. 775-776). ACM.

Dianati, N. (2016). Unwinding the hairball graph: pruning algorithms for weighted complex networks. Physical Review E, 93(1), 012304.

Eirinaki, M., Louta, M. D., & Varlamis, I. (2014). A trust-aware system for personalized user recommendations in social networks. IEEE Transactions on Systems, Man, and Cybernetics: Systems, 44(4), 409-421.

Goel, S., Anderson, A., Hofman, J., & Watts, D. J. (2015). The structural virality of online diffusion. Management Science, 62(1), 180-196.

Lassen, N. B., Madsen, R., & Vatrapu, R. (2014, September). Predicting iphone sales from iphone tweets. In Enterprise Distributed Object Computing Conference (EDOC), 2014 IEEE 18th International (pp. 81-90). IEEE.

Lazer, D. M., Baum, M. A., Benkler, Y., Berinsky, A. J., Greenhill, K. M., Menczer, F., … & Schudson, M. (2018). The science of fake news. Science, 359(6380), 1094-1096.

Neal, Z. (2014). The backbone of bipartite projections: Inferring relationships from co-authorship, co-sponsorship, co-attendance and other co-behaviors. Social Networks, 39, 84-97.

Peng, J., Detchon, S., Choo, K. K. R., & Ashman, H. (2017). Astroturfing detection in social media: a binary ngram–based approach. Concurrency and Computation: Practice and Experience, 29(17), e4013.

Ratkiewicz, J., Conover, M., Meiss, M., Gonçalves, B., Patil, S., Flammini, A., & Menczer, F. (2010). Detecting and tracking the spread of astroturf memes in microblog streams. arXiv preprint arXiv:1011.3768.

Ratkiewicz, J., Conover, M., Meiss, M., Gonçalves, B., Patil, S., Flammini, A., & Menczer, F. (2011, March). Truthy: mapping the spread of astroturf in microblog streams. In Proceedings of the 20th international conference companion on World wide web (pp. 249-252). ACM.

Shah, N. (2017, April). FLOCK: Combating astroturfing on live-streaming platforms. In Proceedings of the 26th International Conference on World Wide Web (pp. 1083-1091). International World Wide Web Conferences Steering Committee.

Stauber, J. C., & Rampton, S. (1995). Toxic sludge is good for you. Common Courage Press.

Tsirakis, N., Poulopoulos, V., Tsantilas, P., & Varlamis, I. (2017). Large scale opinion mining for social, news and blog data. Journal of Systems and Software, 127, 237-248.

Vosoughi, S., Roy, D., & Aral, S. (2018). The spread of true and false news online. Science, 359(6380), 1146-1151.

Zhang, J., Carpenter, D., & Ko, M. (2013). Online astroturfing: A theoretical perspective.