eHealth

ChatGPT, un test rileva un’elevata precisione nelle attività decisionali cliniche

I ricercatori del Mass General Brigham hanno riscontrato che il bot di OpenAI è accurato al 72% nel processo decisionale e in vari contesti assistenziali

Pubblicato il 01 Set 2023

international-mgh-building-1448x1110

I ricercatori del Mass General Brigham hanno dimostrato che ChatGPT può raggiungere una “impressionante accuratezza” nel processo decisionale clinico, con prestazioni crescenti man mano che lo strumento viene alimentato con un maggior numero di informazioni cliniche, secondo uno studio pubblicato ad agosto 2023 sul Journal of Medical Internet Research (JMIR).

Il team di ricerca ha evidenziato che i modelli linguistici di grandi dimensioni (LLM) e i chatbot basati sull’intelligenza artificiale (AI) stanno progredendo rapidamente e alcuni di essi si sono già dimostrati promettenti per le applicazioni sanitarie. Tuttavia, la capacità degli LLM di assistere il ragionamento clinico e il processo decisionale non è stata studiata.

Lo studio si proponeva quindi di valutare la capacità di ChatGPT di supportare le decisioni cliniche in tutte le specialità mediche e nei contesti di assistenza primaria e di pronto soccorso.

Il test su ChatGPT

I ricercatori hanno inserito nel modello 36 casi clinici pubblicati e gli hanno affidato il compito di formulare raccomandazioni per le diagnosi differenziali, gli esami diagnostici, la diagnosi finale e la gestione di ciascun caso. Le raccomandazioni di ChatGPT erano basate sul sesso, l’età e l’acutezza del caso di ciascun paziente nei casi.

“Il nostro lavoro valuta in modo esaustivo il supporto decisionale tramite ChatGPT sin dall’inizio del lavoro con il paziente, attraverso l’intero scenario di cura, dalla diagnosi differenziale fino ai test, alla diagnosi e alla gestione”, ha dichiarato l’autore Marc Succi, MD, associate chair of innovation and commercialisation e strategic innovation leader al Mass General Brigham, nel comunicato stampa che descrive lo studio.

L’accuratezza del modello è stata misurata come la percentuale di risposte corrette alle domande poste in ogni caso, calcolate da valutatori umani.

In base a questi criteri, ChatGPT ha raggiunto un’accuratezza complessiva del 71,7% su tutti 36 casi clinici.

La prestazione più alta dello strumento, pari al 76,9%, è stata quella di formulare una diagnosi definitiva, mentre la prestazione più bassa è stata del 60,3% per la generazione di una diagnosi differenziale iniziale. Il modello è stato anche accurato al 68% nelle decisioni di gestione clinica. Le prestazioni sono risultate coerenti tra i contesti di assistenza primaria e di emergenza.

ChatGPT ha anche dimostrato di avere prestazioni inferiori nei tipi di domande sulla diagnosi differenziale e sulla gestione clinica rispetto alle risposte alle domande sulle conoscenze mediche generali. Inoltre, le risposte del LLM non hanno mostrato pregiudizi di genere.

“Non esistono veri e propri parametri di riferimento, ma stimiamo che le prestazioni siano al livello di chi si è appena laureato in medicina, come un tirocinante o uno specializzando”, ha spiegato Succi. “Questo ci dice che i LLM in generale hanno il potenziale per essere uno strumento aggiuntivo per la pratica della medicina e per supportare il processo decisionale clinico con una precisione impressionante”.

ChatGPT, prestazioni “impressionanti”

Questi risultati hanno portato i ricercatori ad affermare che le prestazioni di ChatGPT erano “impressionanti”, ma lo studio presentava due limitazioni principali che richiedono ulteriori indagini prima che lo strumento possa essere implementato nell’assistenza clinica: la composizione poco chiara dei dati di addestramento del LLM e le possibili allucinazioni del modello.

I risultati sottolineano anche il ruolo delle tecnologie avanzate nell’assistere, piuttosto che sostituire, i medici.

“ChatGPT si è scontrato con la diagnosi differenziale, che è il punto cruciale della medicina quando un medico deve capire cosa fare”, ha detto Succi. “Questo è importante perché ci dice dove i medici sono veramente esperti e aggiungono il massimo valore: nelle prime fasi della cura del paziente, con poche informazioni di presentazione, quando è necessario un elenco di possibili diagnosi”.

In futuro, il team di ricerca studierà se gli strumenti di AI possono migliorare l’assistenza ai pazienti e i risultati per gli ospedali in aree con risorse limitate.

Questa ricerca fa parte di uno sforzo crescente per esplorare il potenziale dei LLM nel settore sanitario.

Un LLM della New York University Grossman School of Medicine

A giugno, un team della New York University (NYU) Grossman School of Medicine ha reso noto che il suo LLM per la previsione delle riammissioni, della durata della degenza e di altri risultati clinici, noto come NYUTron, è stato implementato in tutto il NYU Langone Health.

Lo strumento sfrutta il testo inalterato dell’EHR per prevedere la riammissione a 30 giorni per tutte le cause, la mortalità in ospedale, l’indice di comorbilità, la durata della degenza e i dinieghi assicurativi.

Durante lo sviluppo e la convalida, NYUTron ha identificato l’85% dei pazienti deceduti in ospedale, con un miglioramento del 7% rispetto ai metodi standard di previsione della mortalità in ospedale.

Lo strumento ha inoltre ottenuto prestazioni elevate per quanto riguarda la durata della degenza, prevedendo con precisione il 79% della durata effettiva dei pazienti, con un miglioramento del 12% rispetto ai metodi standard.

Valuta la qualità di questo articolo

La tua opinione è importante per noi!

Articoli correlati

Articolo 1 di 2