I guardrail AI sono sistemi progettati per garantire che gli strumenti di intelligenza artificiale di un’organizzazione, in particolare i modelli linguistici di grandi dimensioni (LLM), operino in conformità con gli standard, le politiche e i valori aziendali. Con l’adozione sempre più diffusa dell’AI generativa, i guardrail svolgono un ruolo cruciale nell’uso responsabile di queste tecnologie. La loro funzione principale è quella di identificare e rimuovere contenuti inaccurati generati dagli LLM, nonché monitorare e filtrare prompt potenzialmente rischiosi.
Questi contenuti problematici possono includere vulnerabilità di sicurezza, allucinazioni, contenuti tossici o inappropriati e disinformazione. È importante sottolineare che, così come i guardrail stradali non eliminano completamente il rischio di incidenti, anche i guardrail AI non garantiscono che i sistemi di intelligenza artificiale siano totalmente sicuri, equi, conformi ed etici.
Per ottenere i migliori risultati, le aziende dovrebbero implementare i guardrail AI insieme ad altri controlli procedurali, come framework di fiducia per l’AI, software di monitoraggio e conformità, pratiche di test e valutazione, nonché un adeguato stack tecnologico per le operazioni AI che permetta di scalare la governance dell’intelligenza artificiale in tutta l’organizzazione.
L’importanza dei guardrail AI risiede nella loro capacità di creare un ambiente adatto all’innovazione e alla trasformazione basate sull’AI generativa, garantendo al contempo che la tecnologia possa operare in modo sicuro e responsabile.
Tipologie principali di guardrail AI
I guardrail AI si suddividono in diverse categorie, ciascuna progettata per affrontare rischi specifici.
I guardrail di appropriatezza verificano che i contenuti generati dall’AI non siano tossici, dannosi, prevenuti o basati su stereotipi, filtrando eventuali contenuti inappropriati prima che raggiungano i clienti.
I guardrail anti-allucinazione assicurano che i contenuti generati dall’AI non contengano informazioni fattuali errate o fuorvianti.
I guardrail di conformità normativa validano che i contenuti generati rispettino i requisiti normativi, sia generali che specifici del settore o del caso d’uso.
I guardrail di allineamento garantiscono che i contenuti generati siano in linea con le aspettative degli utenti e non si discostino dal loro scopo principale, contribuendo ad esempio a mantenere la coerenza del brand.
Infine, i guardrail di validazione verificano che i contenuti generati soddisfino criteri specifici, come la presenza o l’assenza di determinate informazioni. Se un contenuto viene segnalato da un guardrail di validazione, può essere indirizzato verso un ciclo di correzione per risolvere l’errore. La validazione dovrebbe essere l’ultima di una serie di attività svolte dai guardrail, dopo la quale un validatore umano dovrebbe esaminare i casi segnalati o ambigui che richiedono un ragionamento umano.
Per facilitare l’implementazione dei guardrail AI, sono state sviluppate diverse librerie open source. Ad esempio, Hugging Face ha rilasciato la Chatbot Guardrails Arena per testare gli LLM e i guardrail sulla privacy, mentre Nvidia ha creato NeMo Guardrails, un toolkit open source per aggiungere guardrail programmabili alle applicazioni basate su LLM.
Esistono anche strumenti proprietari, come OpenAI Moderation, che analizzano il testo generato dai modelli AI per rilevare e filtrare contenuti dannosi, inappropriati o non sicuri secondo categorie predefinite.
Microsoft ha sviluppato un guardrail simile per monitorare i contenuti generati dai chatbot per Azure, la sua suite di servizi AI.
Come funzionano i guardrail AI
I guardrail AI sono costruiti utilizzando una varietà di tecniche, dai sistemi basati su regole agli LLM stessi. Tuttavia, la maggior parte dei guardrail è completamente deterministica, il che significa che producono sempre lo stesso output per lo stesso input, senza casualità o variabilità. In generale, i guardrail monitorano l’output dei sistemi AI eseguendo una serie di compiti, tra cui classificazione, validazione semantica, rilevamento di fughe di informazioni personali identificabili e identificazione di contenuti dannosi.
Per svolgere questi compiti, i guardrail AI sono composti da quattro componenti interconnessi, ciascuno dei quali svolge un ruolo cruciale.
- Checker; scansiona i contenuti generati dall’AI per rilevare errori e segnalare problemi, come linguaggio offensivo o risposte prevenute, agendo come prima linea di difesa.
- Corrector: una volta che il checker identifica un problema, raffina, corregge e/o migliora l’output dell’AI secondo necessità, correggendo imprecisioni, rimuovendo contenuti inappropriati e garantendo che la risposta sia precisa e allineata con il messaggio previsto.
- Rail: gestisce l’interazione tra il checker e il corrector, eseguendo controlli sul contenuto e, se questo non soddisfa gli standard, attivando il corrector per apportare modifiche. Questo processo viene ripetuto fino a quando il contenuto non supera tutti i controlli o raggiunge un limite di correzione predefinito.
- Guard: interagisce con tutti e tre gli altri componenti, avviando checker e corrector insieme ai rail, coordinando e gestendo i rail, aggregando i risultati e fornendo i messaggi corretti.
Quando si progettano i guardrail, le organizzazioni dovrebbero assicurarsi che possano essere facilmente integrati con gli stack tecnologici esistenti e personalizzabili per soddisfare le esigenze di diversi casi d’uso.
Recentemente, anche gli agenti AI stanno emergendo come strumenti che possono fungere da guardrail, monitorando, regolando e correggendo autonomamente gli output generati dall’AI.
Benefici dei guardrail AI per le organizzazioni
I guardrail AI non sono solo uno strumento per soddisfare requisiti di conformità o etici, ma possono anche contribuire a creare un vantaggio competitivo per le organizzazioni. In primo luogo, i guardrail aiutano le aziende a costruire fiducia con i propri clienti e a evitare costose questioni legali. Inoltre, consentono alle organizzazioni di utilizzare l’AI in modo più responsabile, attraendo e trattenendo i migliori talenti. Per massimizzare il potenziale di creazione di valore, le organizzazioni possono scalare i loro guardrail AI integrandoli nelle piattaforme aziendali.
Ad esempio, Iguazio di McKinsey fornisce guardrail AI nell’ambiente di produzione per garantire la governance dell’AI su larga scala e ridurre i rischi di violazioni della privacy dei dati, pregiudizi, allucinazioni e violazioni della proprietà intellettuale.
L’esempio di ING
Un esempio concreto di come un’organizzazione può creare valore con i guardrail AI è offerto dalla società di servizi finanziari ING. L’azienda ha sviluppato un chatbot AI con guardrail per garantire interazioni accurate e sicure con i clienti. I guardrail sono stati applicati per filtrare informazioni sensibili e consigli potenzialmente rischiosi ai clienti, nonché per garantire la conformità. Trattandosi di uno strumento di supporto clienti, era fondamentale progettare il chatbot AI con guardrail fin dall’inizio per garantire che fornisse output sicuri ai clienti di ING rispettando al contempo gli standard normativi. Questo approccio ha permesso a ING di sfruttare i vantaggi dell’AI generativa nel servizio clienti, mantenendo al contempo un elevato livello di sicurezza e conformità.
Implementazione dei guardrail AI su larga scala
Per implementare efficacemente i guardrail AI su larga scala, le organizzazioni possono seguire alcuni passaggi iniziali ad alto livello. Innanzitutto, è fondamentale progettare i guardrail con team multidisciplinari, collaborando con diversi stakeholder, inclusi i team legali, per costruire guardrail basati sui rischi e gli effetti reali che potrebbero derivare dall’AI.
In secondo luogo, è necessario definire metriche di qualità dei contenuti, adattate agli output di contenuto desiderati e basate su obiettivi aziendali, standard e regolamenti specifici. Queste metriche potrebbero includere fattori come l’offensività, il pregiudizio e l’allineamento con le linee guida del brand. È consigliabile adottare un approccio modulare, costruendo componenti di guardrail riconfigurabili per diversi casi d’uso di AI generativa e facilmente incorporabili – e scalabili – nei sistemi esistenti dell’azienda.
Data la natura probabilistica dei sistemi di AI generativa, che adattano dinamicamente i loro output in base agli input generati dagli utenti, è importante adottare un approccio dinamico. Le organizzazioni dovrebbero implementare guardrail basati su regole con baseline dinamiche per gli output del modello, che possono cambiare in base a diverse variabili.
È inoltre cruciale basarsi su framework normativi esistenti, utilizzando quadri normativi, legali e di conformità esistenti ed emergenti, nonché le migliori pratiche del settore, per creare “obiettivi” che i guardrail devono raggiungere. Questi possono essere utilizzati come metriche per misurare le prestazioni dei modelli.
Infine, è necessario sviluppare nuove capacità e ruoli, formando una nuova generazione di professionisti responsabili dei risultati dei modelli e della garanzia di trasparenza, governance ed equità dell’AI, ad esempio incorporando processi di documentazione, responsabilità e conformità nei modi di lavorare delle organizzazioni con gli strumenti basati sull’AI.
Il futuro dei guardrail AI: nuovi standard e sfide
Il rapido sviluppo dell’intelligenza artificiale ha complicato il panorama della conformità per le aziende di tutti i settori che lavorano con e nella tecnologia. I guardrail AI possono aiutare le aziende ad anticipare i rischi correlati e a creare uno spazio più sicuro per l’innovazione e la trasformazione basate sull’AI generativa.
Ad esempio, le organizzazioni potrebbero applicare i guardrail AI allo sviluppo dei prodotti, dove i test di sicurezza attivi sono una fase critica. I processi di sviluppo dei prodotti, tipicamente di competenza dei product leader o degli ingegneri, dovrebbero diventare più multidisciplinari per incorporare le prospettive degli esperti di etica, nonché dei leader in materia di conformità, rischio e operazioni. Sebbene possa sembrare che tutti questi passaggi e cambiamenti possano rallentare le attività di un’azienda, in realtà sono progettati per aiutare le organizzazioni a gestire meglio le crisi legate all’AI e, si spera, a prevenirle del tutto.
Conclusioni
Guardando al futuro, possiamo aspettarci non solo nuovi tipi di sistemi AI, ma anche nuovi standard per lo sviluppo e l’operatività di questi sistemi. Le sfide future includeranno probabilmente la necessità di bilanciare l’innovazione con la sicurezza e l’etica, l’adattamento a un panorama normativo in rapida evoluzione e la gestione delle aspettative del pubblico riguardo all’uso responsabile dell’AI.
Sarà fondamentale per le organizzazioni rimanere agili e proattive nell’implementazione e nell’aggiornamento dei loro guardrail AI, anticipando nuove forme di rischi e vulnerabilità man mano che la tecnologia AI continua a evolversi. Inoltre, la collaborazione tra industria, governo e mondo accademico sarà cruciale per stabilire best practice condivise e standard globali per i guardrail AI, garantendo un approccio coerente e responsabile all’implementazione dell’AI in tutti i settori e le regioni geografiche.
Bibliografia
- “The state of AI in early 2024: Gen AI adoption spikes and starts to generate value,” May 30, 2024, Alex Singla, Alexander Sukharevsky, Lareina Yee, and Michael Chui, with Bryce Hall
- “Implementing generative AI with speed and safety,” McKinsey Quarterly, March 13, 2024, Oliver Bevan, Michael Chui, Ida Kristensen, Brittany Presten, and Lareina Yee