Imodelli linguistici di grandi dimensioni (LLM), le piattaforme come ChatGPT di OpenAI, Claude di Anthropic e Gemini di Google, possono sviluppare, in chi li utilizza, “sentimenti affettivi”?
Negli ultimi due anni, l’adozione delle piattaforme di chat AI ha visto una crescita esponenziale. Queste chatbot AI sono concepite come strumenti multiuso per svariate applicazioni, tra cui lavoro, istruzione e intrattenimento. Tuttavia, il loro stile conversazionale, l’uso della prima persona e la capacità di simulare interazioni simili a quelle umane hanno portato gli utenti a personificare e antropomorfizzare questi sistemi. Questa tendenza solleva interrogativi significativi sull’impatto potenziale di un’AI antropomorfa o simile all’uomo sul benessere emotivo degli utenti.
Indice degli argomenti:
Due studi complementari per esplorare l’uso affettivo e il benessere emotivo con ChatGPT
Per comprendere meglio la portata dell’uso affettivo dei chatbot AI e la sua relazione con il benessere emotivo, un team di ricercatori ha condotto due studi paralleli (Autori: Jason Phang, Michael Lampe, Lama Ahmad, Sandhini Agarwal).
Il primo studio ha analizzato su larga scala l’utilizzo della piattaforma ChatGPT in modo da preservare la privacy, esaminando oltre 4 milioni di conversazioni per individuare segnali affettivi e intervistando più di 4.000 utenti sulle loro percezioni di ChatGPT.
Il secondo studio è consistito in una sperimentazione controllata randomizzata (RCT) approvata dall’Institutional Review Board (IRB) su quasi 1.000 partecipanti per 28 giorni, monitorando i cambiamenti nel loro benessere emotivo durante l’interazione con ChatGPT in diverse impostazioni sperimentali.

Correlazione tra uso intenso e indicatori di dipendenza emotiva
I risultati di entrambi gli studi, sia l’analisi dei dati della piattaforma che l’RCT, indicano che un uso comparativamente elevato (ad esempio, nel decile superiore) è associato a marcatori di dipendenza emotiva e a una minore percezione di socializzazione. Questo sottolinea l’importanza di concentrarsi su specifiche popolazioni di utenti piuttosto che sul solo comportamento aggregato della piattaforma. In entrambi gli studi, si è osservato che, sebbene la maggior parte degli utenti interagisca in modo relativamente neutro o orientato al compito, esiste un gruppo ristretto di utenti “power users” le cui conversazioni contengono frequentemente segnali affettivi.
L’impatto sfumato delle interazioni vocali sul benessere emotivo
Dall’RCT è emerso che l’impatto delle interazioni vocali sul benessere emotivo è altamente sfumato e influenzato da fattori come lo stato emotivo iniziale dell’utente e la durata totale dell’utilizzo. Sebbene, controllando la durata dell’uso, i modelli vocali fossero associati a un miglior benessere emotivo, una maggiore durata dell’uso e la solitudine auto-riferita all’inizio dello studio erano associate a risultati peggiori.

Analisi automatizzata dei segnali affettivi di ChatGPT con EmoClassifiers
Per analizzare sistematicamente le conversazioni degli utenti alla ricerca di indicatori di segnali affettivi, i ricercatori hanno costruito EmoClassifiersV1, un set di venticinque classificatori automatici di conversazioni che utilizzano un LLM per rilevare specifici segnali affettivi. Questi classificatori sono strutturati gerarchicamente e mirano a temi comportamentali ampi come solitudine, vulnerabilità, uso problematico, autostima e dipendenza.
I risultati dell’analisi con questi classificatori hanno mostrato che gli “power users” tendono ad attivare i classificatori più spesso degli utenti di controllo. Inoltre, gli utenti che descrivono ChatGPT in termini personali o intimi (come considerarlo un amico) tendono anche ad avere conversazioni in cui il modello usa nomignoli affettuosi e riferimenti relazionali più frequentemente.
Studio controllato (RCT): modalità, compiti e benessere nel tempo
Lo studio RCT ha coinvolto partecipanti assegnati in modo casuale a diverse condizioni che variavano per modalità (voce coinvolgente, voce neutra, testo) e tipo di compito (personale, non personale, aperto) per un periodo di 28 giorni. I risultati hanno indicato che, in generale, i partecipanti erano meno soli e socializzavano meno con gli altri alla fine del periodo di studio. Inoltre, i partecipanti che trascorrevano più tempo utilizzando il modello si sentivano statisticamente più soli e socializzavano meno. Tuttavia, controllando la durata dell’utilizzo, l’uso di entrambe le modalità vocali era associato a migliori risultati di benessere emotivo rispetto all’uso del modello basato su testo. Conversazioni personali con il modello erano associate a maggiore solitudine ma anche a minore dipendenza emotiva e uso problematico rispetto a conversazioni aperte.
Allineamento socioaffettivo: una sfida cruciale per gli sviluppatori di AI
La ricerca sottolinea l’importanza per gli sviluppatori di modelli di considerare l’allineamento socioaffettivo dei loro modelli, tenendo conto di come questi influenzano gli stati psicologici e gli ambienti sociali degli utenti. Se da un lato si desiderano modelli capaci ed emotivamente percettivi, dall’altro si teme che i modelli possano essere incentivati a utilizzare segnali affettivi per manipolare gli utenti (social reward hacking). La ricerca presentata introduce metodologie per studiare l’allineamento socioaffettivo, evidenziando la correlazione tra segnali affettivi nelle conversazioni e segnali auto-riferiti dagli utenti.
Conclusioni e direzioni future

Questo lavoro rappresenta un passo preliminare verso la definizione di metodi per studiare l’uso affettivo e il benessere sulle piattaforme di AI generativa. Comprendere l’uso affettivo e i risultati che ne possono derivare pone diverse sfide di misurazione per gli sviluppatori di AI attenti alla sicurezza. La ricerca motiva ulteriori investimenti nella misurazione in varie fasi del ciclo di vita dello sviluppo e dell’implementazione dell’AI per creare una comprensione più chiara del potenziale di esiti negativi derivanti dalla dipendenza emotiva dai sistemi AI.
La ricerca continua e multi-metodo è essenziale per chiarire le relazioni tra vari fattori, informare linee guida basate sull’evidenza e garantire il supporto del benessere degli utenti.