Ascoltare e comprendere le conversazioni online è un’azione chiave per la gestione della cybersecurity e le operazioni d’intelligence su larga scala. Il volume dei dati coinvolti in queste analisi è troppo grande per poter essere gestito da un team di analisti: serve un’AI in grado di interpretarli e valutarli con un elevato grado di accuratezza. I sistemi software di NLP (Natural Language Processing) elaborano i dati provenienti dalle conversazioni raccolte, classificandoli e assegnando loro un punteggio che ne descrive le caratteristiche sintattiche e semantiche. Tra le varie informazioni che possono essere estratte c’è il sentiment, un indicatore indispensabile per valutare la polarità dell’opinione e dello stato d’animo dell’interlocutore.
Reti neurali e deep learning per estrarre il sentiment
Analisi di questo genere richiedono strumenti in grado di esaminare una grande quantità di dati nel più breve tempo possibile. Le reti neurali per il deep learning sono uno dei mezzi più performanti per raggiungere l’obiettivo. Questi strumenti software che emulano (seppur in modo grossolano) il funzionamento del cervello umano, possono essere addestrati all’estrazione del sentiment utilizzando i training set, ovvero basi di dati che associano frasi specifiche a un valore di polarità del sentiment precedentemente assegnato. Scegliendo un adeguato set di dati per l’addestramento, si può raggiunge un’accuratezza nell’estrazione del sentiment che supera il 95%. Le conversazioni multilingua rappresentano un ulteriore ostacolo: ogni lingua da abilitare richiede un preprocessing dedicato, una configurazione differente dei parametri della rete neurale e, naturalmente, un training set specifico.
Reti neurali e cybersecurity
La tecnologia in esame, applicata all’ambito della cybersecurity e dell’intelligence, permette di seguire le conversazioni di terroristi, hacktivisti e altri potenziali attacker per prevenirne le azioni criminali. Con un’analisi del sentiment possono essere identificati e monitorati i fomentatori che guidano e animano conversazioni estremiste che potrebbero sfociare in attacchi nel mondo digitale come anche nel mondo reale. Allo stesso modo è possibile infiltrarsi nei gruppi utilizzati da hacktivisti e altri attori del crimine informatico, individuando le possibili minacce in tempo reale e senza l’impiego di analisti. La stessa tecnologia è stata utilizzata con successo nell’analisi e prevenzione degli attacchi informatici non convenzionali che includono tecniche avanzate di social engineering.
I dati da analizzare possono essere ricavati sia dal web che dal dark web, la rete onion anonimizzata dove spesso si organizzano i gruppi di discussione legati al mondo dell’hacking criminale. Alcune di queste sorgenti dati sono aperte, quindi, per ottenere le conversazioni è sufficiente seguire il relativo canale. In altri casi l’operazione di intelligence è più complessa e richiede l’infiltrazione nei gruppi da monitorare con l’ausilio di profili fake creati appositamente per lo scopo.
Le sonde di ascolto estraggono dati da:
– forum;
– canali Telegram;
– gruppi WhatsApp;
– blog e relativi commenti;
– server di chat.
Non solo parole, ma anche immagini, video e emoji
Ascoltare le conversazioni significa interpretare non soltanto i testi, ma anche gli altri elementi della conversazione, come le immagini, i video e le emoji. Le reti neurali preposte all’estrazione dati hanno comunque bisogno di informazioni testuali descrittive, pertanto serve trovare un nuovo modo di processare i contenuti visuali. Anche in questo caso la soluzione migliore proviene dal mondo dell’AI, in particolare dalla branca della Computer Vision. È possibile addestrare un’altra classe di reti neurali a riconoscere e descrivere il contenuto delle immagini. Queste descrizioni sono in genere particolarmente accurate e spiegano nel dettaglio cosa compare nell’immagine.
Le AI più avanzate sono in grado di riconoscere con precisione non solo gli oggetti presenti nelle immagini, ma anche gli scenari e le emozioni espresse delle persone inquadrate. Per l’analisi video viene utilizzata la stessa rete neurale: le informazioni vengono estratte da alcuni fotogrammi chiave che vengono trattati come singole immagini. L’elaborazione delle emoji, invece, nella maggior parte dei casi non utilizza una rete neurale, ma delle tabelle statiche che associano i simboli a una serie di keyword descrittive.
Le informazioni estraibili con le tecniche di NLP, non solo sentiment
Con le tecniche di NLP è possibile estrarre informazioni davvero interessanti dalle conversazioni online. Vediamo i principali indicatori che la maggior parte dei tool di NLP sono in grado di interpretare:
- Sentiment: una valutazione complessiva della polarità delle emozioni e delle impressioni della persona in relazione alla conversazione.
- Rabbia: le parole utilizzate, i contenuti pubblicati e le imprecisioni sono segnali di rabbia efficaci. Queste valutazioni sono utili a discriminare le conversazioni e gli utenti potenzialmente pericolosi.
- Affidabilità: le variazioni del linguaggio, le modalità di approccio e il contesto della discussione vengono utilizzati come segnalatori di affidabilità. Questo tipo di analisi è utile per individuare tentativi di social engineering perpetrati attraverso mail e chat.
- Livello d’istruzione: errori ortografici e varietà lessicale sono indicatori attendibili del livello d’istruzione di chi scrive.
La sfida per questa classe di software è rappresentata dalla complessità delle interazioni umane. Spesso per comprendere i contenuti di una conversazione è necessario contestualizzarla, compararla allo stile comunicativo della persona che si esprime e valutarla in relazione alle risposte degli altri partecipanti. Per raggiungere questo obiettivo, perciò, non è sufficiente estrarre un solo contenuto: servono dati completi che riguardano l’intera conversazione, ma anche eventuali altre interazioni dell’utente in discussioni differenti.
Conclusioni
La branca dell’AI che si occupa di NLP è in continua evoluzione, dunque, possiamo aspettarci un futuro ricco di novità, con strumenti sempre più performanti e analisi sempre più dettagliate. I sistemi di NLP si specializzano nel riconoscere e classificare un numero sempre maggiore di emozioni, tracciando un profilo accurato di chi partecipa alle discussioni online. Una profilazione così spinta, però, fa nascere una serie di interrogativi etici relativi alla privacy degli utenti. Sicuramente bisognerà estendere le norme attuali a protezione dei dati personali da questo tipo di analisi.
I ricercatori testano sul campo nuovi strumenti che non solo ascoltano e interpretano le conversazioni, ma che sono anche in grado di interagire attivamente con gli utenti umani allo scopo di ampliare la ricerca o di polarizzare la conversazione. Questa nuova famiglia di bot altamente specializzati utilizza il NLP per comprendere le conversazioni, ma anche per affinare la qualità dei messaggi, facendoli somigliare sempre di più alle interazioni reali tra utenti.