E-Health

GPT-4 sfida i medici nella valutazione dei problemi oculari



Indirizzo copiato

Il modello di OpenAI ha dimostrato di possedere un grado di analisi e di valutazione quasi al pari degli specialisti. Uno studio evidenzia il potenziale dell’AI in campo medico e apre nuove prospettive per l’impiego di questa tecnologia nel futuro della medicina

Pubblicato il 22 apr 2024



cloud ai sanità

GPT-4, il modello di OpenAI, ha superato i medici junior e raggiunto risultati simili a molti specialisti nella valutazione dei problemi oculari, secondo un recente studio pubblicato sulla rivista PLOS Digital Health. L’ultimo modello di intelligenza artificiale ha quasi eguagliato l’abilità dei medici esperti nell’analisi delle patologie oculari, secondo la ricerca, che mette in luce il potenziale della tecnologia in campo medico.

Capacità quasi indistinguibili da quelle degli esperti

GPT-4 ha superato o raggiunto gli stessi punteggi di quasi tutti i medici specialisti più qualificati nella valutazione dei problemi oculari e nella proposta di trattamenti. L’oftalmologia è stata al centro degli sforzi per applicare l’AI all’uso clinico e risolvere ostacoli come la tendenza dei modelli a “allucinare” creando dati fittizi.

“Questo lavoro dimostra che la conoscenza e la capacità di ragionamento di questi grandi modelli linguistici nel contesto della salute oculare sono ora quasi indistinguibili dagli esperti”, ha dichiarato Arun Thirunavukarasu, autore principale dell’articolo. “Stiamo vedendo la capacità di rispondere a domande piuttosto complesse”, ha aggiunto. La ricerca ha utilizzato 87 diversi scenari di pazienti per testare le prestazioni di GPT-4 rispetto ai medici junior non specialisti e sia ai medici oculari in formazione che esperti. Il modello ha superato i junior e raggiunto risultati simili a molti degli specialisti, secondo l’articolo.

Lo studio è notevole perché confronta le capacità del modello AI con quelle dei medici in attività piuttosto che con i risultati degli esami, hanno detto i ricercatori. Utilizza anche i vasti poteri dell’AI generativa, piuttosto che le capacità più ristrette testate in alcuni studi medici AI precedenti come la diagnosi del rischio di cancro dalle scansioni dei pazienti.

Il modello si è comportato altrettanto bene su domande che richiedevano un richiamo di primo ordine e quelle che richiedevano un ragionamento di ordine superiore, come la capacità di interpolare, interpretare ed elaborare informazioni.

“Ora stiamo addestrando in modo molto più aperto e stiamo scoprendo quasi abilità in questi modelli per cui non erano stati esplicitamente addestrati”, ha detto Thirunavukarasu, che ha condotto la ricerca mentre studiava presso la scuola di medicina clinica dell’Università di Cambridge. Il modello potrebbe essere ulteriormente perfezionato addestrandolo su un set di dati ampliato che include algoritmi gestionali, note dei pazienti de-identificate e manuali didattici, ha detto Thirunavukarasu, attualmente all’Università di Oxford. Ha aggiunto che ciò richiederebbe un “equilibrio delicato” tra l’ampliamento del numero e della natura delle fonti, garantendo al contempo che le informazioni rimanessero di buona qualità.

Come evitare il rischio di diagnosi false

Gli usi clinici potenziali potrebbero essere nel triage dei pazienti o dove l’accesso ai professionisti sanitari specialisti è limitato. L’interesse nell’implementare l’AI in un contesto clinico è cresciuto con le prove del suo contributo alla diagnostica, come la segnalazione di tumori al seno in fase precoce che potrebbero essere trascurati dai medici. Allo stesso tempo, i ricercatori stanno cercando di capire come gestire i rischi seri, dato il danno che le diagnosi false possono causare ai pazienti.

Il più recente studio è stato definito “emozionante” e l’idea di utilizzare l’AI per confrontare le prestazioni degli esperti “super-interessante”, ha detto Pearse Keane, professore di intelligenza medica artificiale presso University College London. Keane, che è anche affiliato all’Ospedale Oculistico Moorfields a Londra, ha convenuto che è necessario fare altro lavoro prima di introdurre queste tecniche in un contesto clinico. Keane ha citato un esempio della sua ricerca dello scorso anno in cui ha chiesto a un grande modello linguistico sulla degenerazione maculare dell’occhio, solo per ottenere riferimenti “inventati” nella sua risposta.

“Dobbiamo solo bilanciare il nostro entusiasmo per questa tecnologia e i potenziali enormi benefici… con cautela e scetticismo”, ha concluso.

Articoli correlati

Articolo 1 di 2