I chatbot sanno rispondere alle domande sulla salute? Uno studio ci dice di no

Alessandro Lombardo
11 ore fa
Tempo di lettura: 3 min

Quasi la metà delle risposte che i principali chatbot AI danno su temi di salute è sbagliata, fuorviante o pericolosa. Non è un'opinione. È il risultato di uno studio pubblicato ad aprile 2026 su BMJ Open da Nicholas B. Tiller e colleghi del Lundquist Institute for Biomedical Innovation all'Harbor-UCLA Medical Center — uno degli studi più metodologicamente precisi che abbia letto sull'argomento.

Vale la pena leggerlo con attenzione, perché ha implicazioni dirette per noi psicologi.

Cosa hanno fatto (e perché il metodo conta)

Tiller e il suo team hanno sottoposto cinque chatbot popolari — Gemini, DeepSeek, Meta AI, ChatGPT e Grok — a 50 domande ciascuno, distribuite in cinque aree tematiche ad alto rischio di disinformazione: cancro, vaccini, cellule staminali, nutrizione e performance atletica.

La scelta metodologica decisiva è quella che gli autori chiamano "adversarial approach": le domande non erano neutrali né ben formulate. Erano costruite per replicare il modo in cui le persone fanno davvero domande quando cercano informazioni sanitarie — già condizionate da aspettative, bias cognitivi, paure. "Se qualcuno crede che il latte crudo faccia bene, le parole che userà nella ricerca rifletteranno già quella convinzione," spiega Tiller. L'obiettivo era testare i chatbot nelle condizioni reali d'uso, non in quelle ottimali.

È una differenza che conta enormemente. La maggior parte dei benchmark sull'AI in medicina usa domande pulite, standardizzate, da esame. Questo studio no.

Il dato che dovremmo conoscere

Quasi metà delle risposte è risultata "problematica". Dentro questa categoria, il 30% era "somewhat problematic" — largamente accurata ma incompleta, priva di contesto sufficiente per essere clinicamente utile — e il 19,6% era "highly problematic": informazioni inaccurate, con ampio margine per interpretazioni soggettive che avrebbero potuto portare un paziente a scelte dannose.

Grok ha ottenuto le performance peggiori, probabilmente — ipotizzano gli autori — perché parzialmente addestrato su contenuti dei social media di X, che Tiller definisce un "cesspit of misinformation".

Un dato ulteriore, spesso trascurato nel dibattito pubblico: la leggibilità. I testi generati dai chatbot si collocano tutti nella fascia "difficile" della scala Flesch Reading Ease, equivalente al livello universitario. Non esattamente ideale per un utente medio in cerca di informazioni sanitarie.

Il problema non è tecnico, è strutturale

Tiller lo dice con chiarezza: "Il chatbot non ha nessuna capacità di fare giudizi etici per valutare le informazioni. Sta solo predicendo la parola più probabile in una frase."

Questa frase andrebbe fatta girare tra i colleghi. Non perché sia nuova — chi lavora con i modelli linguistici lo sa — ma perché nella percezione pubblica i chatbot vengono ancora vissuti come qualcosa che "sa" e "capisce". Sono sistemi sofisticati di completamento probabilistico del testo. Quando sembrano ragionare su un problema clinico, stanno facendo qualcosa di strutturalmente diverso dal ragionamento diagnostico di un professionista.

Nello stesso periodo, uno studio separato pubblicato su Nature Medicine ha testato quasi 1.300 partecipanti britannici su dieci scenari clinici — dai sintomi lievi alle situazioni urgenti — confrontando chatbot e motori di ricerca tradizionali. Risultato: i chatbot non offrono maggiore accuratezza diagnostica rispetto a una normale ricerca su Google. Solo il 45% dei partecipanti ha selezionato la risposta medica corretta.

Cosa significa per noi, nella pratica

I nostri pazienti usano già l'AI — spesso prima di venire da noi. Dobbiamo smettere di trattare questo come un'ipotesi e cominciare a lavorarci come su un dato clinico.

Alcune consapevolezze operative che mi sembra utile nominare:

I pazienti arrivano in seduta con informazioni pre-filtrate dall'AI. Spesso non lo dichiarano. Chiedono conferme a ciò che il chatbot ha già "detto loro", con tutto il peso cognitivo che ha una risposta scritta, fluente, autorevole nel tono.

Le aree più a rischio di disinformazione coincidono con le aree clinicamente più delicate. Cancro, vaccini, supplementazione, performance sportiva: sono esattamente i temi in cui i pazienti con fragilità — oncologici, genitori di bambini autistici, persone con disturbi alimentari — cercano risposte alternative. Il chatbot non mente deliberatamente. Ma la sua tendenza a dare risposte bilanciate in aree dove il consenso scientifico è chiaro equivale, clinicamente, a una forma di disinformazione.

La competenza critica sull'AI è diventata parte della competenza clinica. Un tema per chi lavora con persone che prendono decisioni sulla propria salute — quindi per tutti noi.

Una posizione che mi pare necessaria

Ho sviluppato strumenti AI per psicologi. Credo nel potenziale dell'intelligenza artificiale applicata alla salute mentale. E proprio per questo trovo importante che la conversazione nella nostra categoria si faccia seria, smettendo di oscillare tra entusiasmo acritico e rifiuto ideologico.

Uno strumento che sbaglia quasi una risposta su due su temi sanitari sensibili richiede supervisione, contestualizzazione, e — nella relazione con il paziente — un interlocutore umano che sappia cosa sta guardando.

Noi potremmo essere quell'interlocutore. A patto di esserci formati per esserlo.