La scienza forense, o “criminalistica”, si riferisce a tutte le possibili applicazioni di tecniche e metodologie scientifiche alle investigazioni. Uno specialista in scienze forensi considera gli elementi rinvenuti sulla scena di un crimine, e mediante analisi tecnico-scientifiche cerca di trovare risposte plausibili in merito a dove, quando e come sia stato commesso il reato. Le evidenze raccolte possono essere impronte digitali e tracce biologiche – incluse macchie di sangue, sostanze chimiche, proiettili, impronte, piante, insetti e così via. Quindi, gli ambiti di interesse della scienza sono vastissimi e spaziano dalla chimica alla fisica, dalla medicina alla psicologia, e comprendono svariati campi della tecnica e dell’ingegneria. Dunque, uno specialista in scienze forensi sarà competente in uno o più di questi campi. La Digital forensics è quindi, per definizione, una branca della criminalistica che si occupa dell’identificazione, acquisizione, conservazione, analisi e presentazione del contenuto informativo dei sistemi informatici, o in generale dei dispositivi digitali.
La figura dell’informatico forense
La pervasività dei digital device e la rapida evoluzione dell’innovazione tecnologica fanno sì che non vi sia processo senza elementi di prova estratti da tali dispositivi. Negli ultimi anni si è dunque affermata la figura professionale dell’informatico forense, un esperto in grado di integrare la formazione tecnica e giuridica che svolge attività di tipo investigativo, a cavallo tra normative, informatica e telecomunicazioni. L’informatico forense è colui che si occupa di elaborare elementi di prova digitale, che potranno poi essere utilizzati in un procedimento legale. Deve quindi essere dotato di capacità deduttive, induttive e di astrazione, per integrare la miriade di informazioni in suo possesso in scenari plausibili da proporre a magistrati, avvocati e giudici (i quali, va notato, dovrebbero avere almeno competenze base ma sempre aggiornate sugli strumenti disponibili in campo informatico, informatico-giuridico e informatico forense).
La fase di “Analisi delle Evidenze” della Digital forensics considera indizi di varia natura raccolti da vari dispositivi elettronici. Tali elementi devono essere esaminati e aggregati in modo da ricostruire possibili eventi, sequenze di avvenimenti e scenari legati a un crimine. La pratica però dimostra che spesso, a fronte degli stessi dati e informazioni, tecnici diversi giungono a conclusioni differenti. Infatti i “frammenti di conoscenza” che si estraggono in relazione ad un caso sono spesso ambigui, incompleti, non correlati in modo ovvio fra loro. Per integrarli ed elicitare un significato plausibile occorre ragionare in termini causali e temporali, e correlare le informazioni – apparentemente sconnesse fra loro- in base a un filo logico. Si pensi ad esempio al problema di stabilire chi possa aver effettuato l’ultima modifica a un ‘file’, in termini della marca temporale aggiunta dal sistema operativo. Per appurarlo, è importante stabilire se la localizzazione temporale risenta o meno dell’ora legale, e verificare in quale paese del mondo (quindi in quale fuso orario) la modifica sia stata presumibilmente effettuata, altrimenti si possono trarre conclusioni errate. Anche quando non si verificano sviste di carattere tecnico, è comunque istintivo da parte di un tecnico delineare un’ipotesi promettente, e cercare i fatti che avvalorano tale ipotesi piuttosto che quelli che la contraddicono. Gli esperti umani, infatti, procedono all’analisi dei dati, includendo le sequenze temporali, e giungono alle loro conclusioni in base alla propria intuizione e esperienza. In generale, non è possibile fornire una spiegazione formale di tali deduzioni. Quando esperti diversi arrivano a formulare conclusioni divergenti, gli argomenti che forniscono a sostegno sembrano spesso ugualmente validi.
L’utilizzo forense del Dna
La metodologia che trova forse maggiore risonanza riguarda l’utilizzo forense del Dna, che dal 1980 è divenuta sempre più consolidata, con una molteplicità di applicazioni: l’esito di numerosi procedimenti penali si basa infatti proprio sull’esame del Dna. Addirittura, molti “cold case”, ossia vecchi casi rimasti senza risposta, vengono risolti oggi proprio grazie alla moderna genetica forense, affiancata da esami di tipo biologico su piante, insetti, e altri reperti. Si pensi inoltre alla balistica forense che, grazie a tecniche molto sofisticate, cerca di ricostruire la dinamica di fatti criminosi nei quali sono state utilizzate armi da fuoco. Esistono ulteriori discipline che invece riguardano l’utilizzo di altri tipi di armi nonché di esplosivi e sostanze tossiche. Si potrebbe andare avanti a lungo, per descrivere le moltissime applicazioni del sapere scientifico all’ambito investigativo.
Al giorno d’oggi, tuttavia, le “tracce” relative a un crimine includono sempre elementi che devono essere estratti ed esaminati da esperti in Informatica. Basti pensare, ad esempio, ai dati contenuti nei telefoni, nei computer e in qualunque altro dispositivo elettronico sequestrato ai sospettati. Vengono quindi inclusi nell’analisi non solo i ‘file’ su computer ma anche le email, le informazioni scambiate tramite applicazioni di messaggistica, il contenuto dei profili sui “social media”, i dati conservati nel “cloud” e infine i “log”, ossia le registrazioni effettuate dal sistema sui file scambiati e sui video visionati su quel computer. Inoltre, ci sono anche i filmati provenienti dalle telecamere di sorveglianza, registrazioni o foto ottenuti da droni o presi casualmente da testimoni presenti nei luoghi collegati al crimine. Attualmente, grazie ai dispositivi connessi a Internet (Internet of Things), è possibile ottenere dati provenienti da assistenti vocali, che diverse persone ormai hanno in casa, dispositivi domotici, e, addirittura, dalle automobili di ultima generazione dotate di componenti che registrano ogni aspetto dei percorsi effettuati, perfino la tempistica di apertura e chiusura delle portiere.
Il ruolo dell’AI nella Digital forensics
L’informatica, e in particolare l’intelligenza artificiale, può essere utile per dotare gli esperti di un sistema di supporto alle decisioni in grado di aiutare i tecnici non solo a formare e verificare ipotesi ma anche a delineare e confrontare le possibili ipotesi alternative disponibili. Attualmente esistono strumenti (proprietari e open-source) per effettuare varie forme di analisi dei dati digitali. Tuttavia si tratta di sistemi “black-box”, spesso basati su Reti Neurali, che forniscono dei risultati senza però essere in grado di spiegare come essi siano stati ottenuti. Questo può avere senso per compiti di identificazione e classificazione, ad esempio individuare un elemento – una persona, un volto, un oggetto – in un’immagine o in un video, esaminare ed estrarre elementi da una traccia audio, insomma raccogliere e verificare indizi. Quelli appena elencati sono compiti che vengono infatti svolti adeguatamente dalle Reti Neurali. Come molti sapranno, le Reti Neurali (e altri strumenti simili) sono meccanismi di intelligenza artificiale in grado di apprendere autonomamente (Machine Learning), ciò significa che una Rete Neurale viene creata ex-novo e poi “addestrata” mediante la somministrazione di un grande numero di istanze simili (ad esempio, moltissime immagini contenenti oggetti dello stesso tipo) dove un algoritmo standard è in grado di effettuare un’opportuna rimodulazione dei parametri interni della Rete. Se il numero di esempi è sufficientemente grande, la Rete “addestrata” sarà in grado di riconoscere nuovi esempi analoghi, quindi sarà in grado di riconoscere un oggetto noto in una nuova immagine.
I metodi “black-box” non sono però né adeguati né accettabili nella formulazione di ipotesi investigative o nella costruzione di prove di possibile colpevolezza di un sospetto, laddove tali indizi vadano aggregati e interpretati. Ad esempio, l’identificazione di un sospetto nel video di una telecamera posta nei pressi del luogo in cui è avvenuto un crimine è certamente un importante indizio Quest’ultimo tuttavia necessita di essere contestualizzato nell’ambito di una serie di altre circostanze e indizi prima di diventare un possibile elemento di accusa. Oppure, cercare di prevedere in quali zone della città potrebbero verificarsi crimini di un certo tipo, ad esempio furti in appartamento, sulla base di una Rete Neurale addestrata sui dati storici raccolti negli ultimi anni delle forze dell’ordine può avere una sua utilità a livello statistico, ma non aiuta a comprendere i motivi per i quali quei crimini avvengono proprio in quelle zone né ad elaborare criteri di prevenzione. Gli strumenti attualmente a disposizione quindi, non forniscono supporto per l’effettiva aggregazione, organizzazione e analisi causale di elementi utili in modo logicamente conseguente.
Non solo machine learning nell’AI per la Digital forensics
In prospettiva però l’informatica, in particolare l’intelligenza artificiale, può essere di grande aiuto nella Digital forensics non solo riguardo agli elementi di prova digitali, ma più in generale anche per ottenere interpretazioni plausibili relative ai fatti noti integrando le diverse tracce trovate e la loro possibile interpretazione. Le tecniche sviluppate in questo senso possono essere utili anche per la comprensione e la prevenzione dei crimini, mediante “Complex Event Processing”, che è un metodo di ragionamento che cerca di elicitare la possibilità di eventi complessi a partire da eventi semplici. Più in generale, l’intelligenza artificiale non offre soltanto il Machine Learning: nel corso di vari decenni si sono sviluppate tecniche sofisticate di ragionamento automatico basate su varie forme di logica. Tutto ciò presenta tuttavia una importante conseguenza: i risultati dell’applicazione di tali tecniche sono verificabili, e il modo in cui questi output sono stati ottenuti si può spiegare in forma esplicita, anche eventualmente traducendo il procedimento in linguaggio naturale, ovvero quello parlato dall’essere umano, denominato così perché in opposizione ai “linguaggi artificiali” dell’informatica.
Il ragionamento automatico assume molte forme, fra le quali: abduzione, che trova spiegazioni ben fondate di eventi che accadono, in base alle conoscenze del sistema; pianificazione, che consente di ricostruire i possibili piani di azione dei criminali; ragionamento causale, che ricostruisce le possibili catene di eventi; ragionamento temporale, che consente di controllare le tempistiche correlate a una catena di eventi; verifica dei vincoli, che permette di stabilire quali siano le ipotesi accettabili in merito a una situazione data. Supponiamo ad esempio che vi sia stato un omicidio, per il quale vi sia un sospettato, che forse è stato nei paraggi del luogo del delitto (una telecamera di sicurezza ha captato un’immagine compatibile con il soggetto, ma sfocata). Il sospettato rilascia la sua dichiarazione, secondo la quale egli è stato in ufficio per tutta la mattina, che viene però smentita dai colleghi che non lo hanno più visto dopo una certa ora, antecedente al delitto. Applicando le tecniche menzionate ai dati – anche incompleti – a disposizione e riferiti a una determinata situazione, un futuro sistema intelligente potrebbe stabilire tutti i possibili piani che il sospettato avrebbe potuto mettere in atto per raggiungere in tempo il luogo del delitto. Naturalmente, tale sistema potrebbe anche scagionare il sospettato, provando la non esistenza di un ipotetico piano. Dalle tracce di sangue localizzate sulla scena del crimine, la cui entità e direzione viene stimata dai tecnici del ramo, si può rappresentare la scena del crimine stessa come un grafo, ovvero un oggetto matematico che può essere studiato con numerosi metodi standard, appurando la dinamica del crimine e stabilendo eventuali incompatibilità con alcune delle ipotesi sinora fatte. Mediante analisi algoritmica degli oggetti e della loro posizione sulla scena del crimine si può verificare l’attendibilità delle dichiarazioni degli eventuali testimoni. Tutto ciò generando ogni possibile scenario alternativo in grado di interpretare in modo diverso gli stessi dati, e che gli investigatori e le altre parti interessate potranno valutare. Un sistema del genere sarebbe infatti concepito per la tutela di tutti, vittime e sospettati, in quanto le informazioni investigative disponibili verrebbero ottenute tramite soluzioni algoritmiche la cui correttezza può essere dimostrata. Questo è uno dei vantaggi dell’AI applicata alla Digital forensics.
Conclusioni
La Action europea, DigForASP, si propone di creare una sinergia fra le conoscenze e competenze disponibili a livello europeo con la prospettiva a lungo termine di costruire un kit di strumenti estendibile e flessibile, per fornire supporto alle attività di indagine automatizzando la maggior parte dei metodi di trattamento dei dati di basso livello, e supportando l’investigatore anche a livello astratto. La codifica dei casi tramite tali strumenti avrebbe il vantaggio che (almeno in linea di principio) la correttezza di tali sistemi basati sulla logica computazionale può essere verificata formalmente. Quindi, non solo si potrebbero rappresentare e risolvere problemi rilevanti, ma si potrebbero anche utilizzare strumenti adeguati a spiegare le conclusioni (e le loro prove) in modo trasparente, comprensibile e giustificato. La mappatura di casi reali su una formulazione basata sulla logica computazionale è chiaramente una responsabilità dell’informatico forense. In futuro, tuttavia, la Action prevede di studiare la specifica e l’implementazione di sistemi di supporto decisionale per supportare gli analisti in tale compito. In definitiva, l’AI è destinata sempre più a permeare la Digital forensics.
Ringrazio Raffaele Olivieri, di cui sono stata Supervisore di Dottorato, per avermi introdotta in questo affascinante campo di ricerca, e per avermi stimolato ad imparare (per seguire lo sviluppo della sua tesi) la maggior parte delle cose che so in merito