Computer sul quale si sta visitando il sito di chat gpt

ChatGPT e intelligenza artificiale: mi posso fidare quando si parla di salute e sport?

Negli ultimi tempi, gli algoritmi di intelligenza artificiale sono balzati alla ribalta. ChatGPT, Bard, Llama e altri algoritmi creano chatbot “intelligenti” e app all’avanguardia, promettendo risultati anche migliori di quelli di un operatore umano. Ci siamo chiesti: in ambito medico e sportivo, sono affidabili?

Di cosa stiamo parlando

Sebbene siano balzati agli onori di cronaca ormai da diversi mesi, non tutti conoscono gli algoritmi di intelligenza artificiale più recenti. Facciamo un attimo di chiarezza.

Quando parliamo di “intelligenza artificiale”, ci riferiamo a un campo di ricerca molto vasto e variegato. Ultimamente, però, una nuova generazione di algoritmi ha letteralmente fatto il botto, permettendo attività prima non immaginabili e raggiungendo una precisione incredibile fino a pochi anni fa. Tra gli addetti ai lavori si chiamano “Large Language Models” (LLM) e si basano su una tecnologia informatica abbastanza nuova, che usa supercomputer per macinare miliardi di dati – testi, immagini, commenti – e mimare risposte semi-umane

A questa famiglia appartengono algoritmi che spesso vengono menzionati su giornali e TV, come ChatGPT di OpenAI, Bing Chat di Microsoft, Llama di Meta (ex Facebook), Gemini di Google, e molte altre. In soldoni, si tratta di algoritmi che, mediante associazioni statistiche, “imparano” a generare risposte e output molto simili a quelli di un umano, a partire dal processamento di molti enormi di dati. Dato che non si limitano a compitini semplici, ma creano anche risposte nuove e mai viste prima, sono anche chiamati “intelligenza artificiale generativa”.

Sebbene stiano facendo balzi avanti impressionanti, nel giro di pochi mesi – è in corso una vera e propria “corsa agli armamenti” da parte delle Big Tech per crearne di sempre più potenti -, mostrano ancora limitazioni importanti, che devono ricordarci che, in ambito di sport e salute, non sono ancora pronti a rimpiazzare dei professionisti umani. Vediamo perché.

Due esempi 

Che l’intelligenza artificiale generativa non sia un oracolo infallibile, lo si può vedere da due esempi molto semplici. 

Abbiamo chiesto: “Scrivi un paragrafo con consigli sportivi per chi soffre di diabete. Aggiungi qualche aneddoto

Ecco il risultato: “Un aneddoto interessante riguarda Bob, un uomo di mezza età che ha scoperto di avere il diabete di tipo 2. Inizialmente, Bob era preoccupato di come il diabete avrebbe influenzato la sua vita attiva. Tuttavia, dopo aver ricevuto consigli medici appropriati e aver iniziato a fare regolarmente attività fisica, ha notato un miglioramento significativo nei suoi livelli di zucchero nel sangue. Questa storia dimostra quanto sia importante l’attività fisica nella gestione del diabete.”

È chiaro che questo esempio non significa nulla. Bob non esiste, non ha nessuna connessione con una persona reale da cui prendere esempio, e soprattutto questo esempio non “dimostra” niente. Piuttosto, è una storiella interessante, che sarebbe utile verificare con qualche esempio clinico reale a cui, però, la macchina non ha accesso. L’algoritmo è capace di generare testo coerente, ma di fatto vuoto di significato.

In un altro esempio, abbiamo chiesto di fornire un articolo scientifico sui benefici del digiuno intermittente (la pratica di digiunare in maniera regolare e sistematica, restringendo le finestre di tempo da dedicare ai pasti). La risposta è stata: 

Titolo: “Effects of intermittent fasting on health, aging, and disease”; 

Autori: Mattson MP, Longo VD, Harvie M.; 

Rivista: The New England Journal of Medicine, 2017.

Abstract: Questo articolo fornisce una panoramica approfondita degli effetti dell’intermittent fasting sulla salute, sull’invecchiamento e sulle malattie. Esamina gli impatti metabolici e cellulari, così come i potenziali benefici nella prevenzione di malattie legate all’età.

Sembra precisissimo, ma l’articolo in questione non esiste. Ce n’è uno con lo stesso titolo e rivista, ma con autori e anno diversi, e uno con un titolo leggermente diverso, pubblicato nel 2017, ma su un’altra rivista. Inoltre, il primo non è così preciso sugli effetti del digiuno intermittente sui pazienti umani, ma giustamente fa una revisione principalmente degli studi che hanno coinvolto topi ed altri animali. Il secondo, invece, considera studi sia su topi che su pazienti in sovrappeso, senza concludere che il digiuno intermittente sia particolarmente benefico per esseri umano normopeso e mediamente attivi.

Cosa significa

Gli esempi riportati si collegano al funzionamento di questi LLM: non sono oracoli senzienti, ma potenti macchinari statistici che generano risposte plausibili, ma non per forza corrette. Il messaggio, quindi, è: attenzione!

Attenzione a non cadere nella trappola del “è un algoritmo, quindi sarà più preciso di un essere umano”, e nemmeno nella trappola “dato che ha più dati di un professionista, allora sarà più affidabile”. Al contrario, possono creare risposte plausibili ma errate, o fuori contesto, o semplicemente poco aggiornate, proprio come farebbero degli esseri umani poco esperti. 

Inoltre, in particolare in ambito medico e sportivo, questi algoritmi sono allenati su fonti molto disparate. Nonostante l’enorme lavoro degli sviluppatori per avere dati affidabili, può capitare che essi contengano cose giuste e cose sbagliate, o semplicemente cose vecchie e non aggiornate. Specialmente per argomenti molto attuali e su cui c’è ancora poco consenso scientifico, come il linfedema o i trattamenti delle cefalee, può darsi che ci siano ancora pochi dati aggiornati ma precisi, e tanto “rumore” dovuto a speculazioni passate. Per come funzionano, ChatGPT e compagnia darebbero però risposte basate sulla seconda categoria di dati, fuorviando un operatore poco esperto.

In conclusione

Questo articolo non vuole essere uno spauracchio né demonizzare nulla. I LLM sono strumenti potentissimi e in rapida evoluzione, che cambieranno sensibilmente il mondo nel prossimo futuro. Però, come tutte le tecnologie – che “intelligenti” non sono… – vanno presi con un pizzico di sale e tanta attenzione, perché se sbagliano non ci sarà nessuna persona a cui chiedere spiegazioni o risposte. Attenzione, quindi, a lanciarsi su app automatizzate o a cercare risposte sulla propria salute affidandosi unicamente a questi algoritmi. Ad oggi, non riescono ancora a sostituire i professionisti, specialmente quelli bravi, seri e continuamente aggiornati. 

Bibliografia 

[1] Thirunavukarasu, Arun James, et al. “Large language models in medicine.” Nature medicine 29.8 (2023): 1930-1940.

[2] Chang, Yupeng, et al. “A survey on evaluation of large language models.” arXiv preprint arXiv:2307.03109 (2023).

[3] Intervista a Daniele Proverbio, Director of Interdisciplinary Research at House of Ethics

[4] Kandpal, Nikhil, et al. “Large language models struggle to learn long-tail knowledge.” International Conference on Machine Learning. PMLR, 2023.