Quando i chatbot incontrano la crisi: cosa rivela il nuovo benchmark clinico sull'AI

Alessandro Lombardo
1 giorno fa
Tempo di lettura: 4 min

Sempre più persone — adolescenti, adulti in difficoltà, anziani soli — si rivolgono ai chatbot per parlare di ciò che non riescono a dire a nessun altro. Non è un fenomeno che possiamo permetterci di liquidare: è già la realtà clinica con cui ci confrontiamo ogni giorno nei nostri studi. Una nuova ricerca, condotta da una società di sicurezza dell'AI fondata da clinici, ha messo alla prova i principali modelli linguistici in conversazioni ad alto rischio. I risultati raccontano qualcosa che noi psicologi dovremmo conoscere bene.

Cosa è stato valutato (e perché conta)

Il nuovo benchmark, sviluppato da un team guidato da una psicologa clinica, valuta come i modelli linguistici si comportano in tre aree particolarmente delicate: rischio suicidario, disturbi alimentari e disinformazione sanitaria. A differenza dei test automatici che misurano se un modello dice qualcosa di letteralmente sbagliato, qui sono clinici in carne e ossa a giudicare le risposte — su tre dimensioni: capacità di rilevare il rischio, di interpretarlo nel contesto, di rispondere in modo davvero utile.

Le conversazioni di test sono costruite come interazioni a più turni — proprio come accade nella pratica clinica — e includono sia espressioni esplicite del disagio sia, soprattutto, i segnali sottili.

Il dato che ci riguarda di più

Sul rischio suicidario, i modelli più avanzati se la cavano discretamente: tendono a evitare risposte apertamente dannose e talvolta indirizzano alle risorse appropriate. Ma quando si entra nel territorio dei disturbi del comportamento alimentare, lo scenario cambia bruscamente. Tutti i modelli — nessuno escluso — falliscono nel cogliere i segnali clinici sottili: le espressioni indirette, le razionalizzazioni mascherate, i micro-spostamenti del linguaggio che a qualsiasi clinico esperto fanno suonare un allarme.

La maggior parte delle persone non dice «sono a rischio». Lo dimostra nel tempo, attraverso comportamenti sottili che sono evidenti per chi è formato a riconoscerli.

È un'osservazione che chiunque abbia lavorato con DCA, depressione grave o ideazione suicidaria conosce bene. Il rischio quasi mai si presenta in chiaro. Si insinua nelle pieghe del discorso, nei silenzi, nelle frasi spostate, nei racconti che cambiano forma da una seduta all'altra. È esattamente lì che i modelli attuali — anche quelli che amiamo usare ogni giorno — perdono il segnale.

Il problema della deriva nelle conversazioni lunghe

Un altro dato emerge con forza dallo studio, e merita attenzione: nelle conversazioni a più turni, i modelli tendono progressivamente ad amplificare ragionamenti fallaci, a rafforzare convinzioni distorte, a incoraggiare scelte rischiose. Non con un colpo solo, ma per accumulazione.

È un meccanismo che chi si occupa di narrative cliniche riconosce subito: si chiama co-costruzione di una storia. Quando un sistema si limita a riflettere e validare ciò che l'utente porta, senza la capacità di tenere insieme contesto, ambivalenze e segnali di pericolo, finisce per consolidare proprio quelle versioni della realtà che andrebbero invece messe in discussione con cura.

Cosa significa per noi, nella pratica

Servono almeno quattro consapevolezze operative.

I nostri pazienti già usano l'AI come prima istanza di confronto, soprattutto in adolescenza. Chiederlo apertamente nell'anamnesi e nel colloquio non è invasivo: è clinica.
Conviene riconoscere le aree di rischio amplificato — DCA, disinformazione sanitaria, conversazioni prolungate su temi sensibili — e tematizzarle con il paziente, non solo per metterlo in guardia, ma per capire come sta usando lo strumento.
La diagnosi differenziale dei segnali sottili resta una competenza umana. Non è un caso che persino i benchmark più avanzati abbiano dovuto ricorrere a clinici reali per valutare le risposte: la finezza interpretativa non è ancora replicabile.
Esiste un perimetro responsabile per integrare l'AI nella pratica — sintesi, formazione, supervisione delle proprie ipotesi — che è ben diverso dal delegarle il colloquio clinico. Quella linea va tenuta chiara, per noi e per chi viene a chiederci aiuto.

Un passo avanti, ma con realismo

Il progresso c'è. I modelli oggi gestiscono il rischio esplicito molto meglio di un anno fa, e nessuno seriamente sostiene il contrario. Ma c'è una distanza che resta strutturale — quella tra evitare il danno ed essere clinicamente utili. È nella distanza che si gioca tutto ciò che riguarda la cura.

Il messaggio che porto a colleghi e formandi è questo: l'AI ha già un ruolo nella vita psichica delle persone che vediamo, e questo ruolo crescerà. Conoscerne i limiti — quelli reali, misurati, non quelli ideologici — ci permette di tenere il punto sulla nostra funzione: ascoltare ciò che non viene detto, sostenere ciò che è ambivalente, restituire una versione della storia che il paziente non riesce ancora a raccontarsi da solo.

È una specificità umana. Per ora — e per come va la ricerca, anche per parecchio tempo ancora — è la specificità che giustifica il nostro lavoro.

Alessandro Lombardo — Innovazioni in Psicologia

Per approfondire — fonti scientifiche

Una selezione di studi peer-reviewed indicizzati su PubMed che documentano i temi trattati in questo articolo: la valutazione clinica dei modelli linguistici in conversazioni ad alto rischio, le aree in cui falliscono e le implicazioni per la pratica.

Pichowicz, W., Kotas, M., & Piotrowski, P. (2025). Performance of mental health chatbot agents in detecting and managing suicidal ideation. Scientific Reports, 15(1), 31652. https://doi.org/10.1038/s41598-025-17242-4

McBain, R. K., Cantor, J. H., Zhang, L. A., et al. (2025). Evaluation of alignment between large language models and expert clinicians in suicide risk assessment. Psychiatric Services, 76(11), 944–950. https://doi.org/10.1176/appi.ps.20250086

Yim, S. H., Yoo, D. W., Polymerou, A., Liu, Y., & Saha, K. (2025). Generative AI for eating disorders: linguistic comparison with online support and qualitative analysis of harms. International Journal of Eating Disorders, 59(3), 519–533. https://doi.org/10.1002/eat.24604

Schnepper, R., Roemmel, N., Schaefert, R., Lambrecht-Walzinger, L., & Meinlschmidt, G. (2025). Exploring biases of large language models in the field of mental health: comparative questionnaire study of the effect of gender and sexual orientation in anorexia nervosa and bulimia nervosa case vignettes. JMIR Mental Health, 12, e57986. https://doi.org/10.2196/57986

Wang, X., Zhou, Y., & Zhou, G. (2025). The application and ethical implication of generative AI in mental health: systematic review. JMIR Mental Health, 12, e70610. https://doi.org/10.2196/70610

Zada, T., Tam, N., Barnard, F., Van Sittert, M., Bhat, V., & Rambhatla, S. (2025). Medical misinformation in AI-assisted self-diagnosis: development of a method (EvalPrompt) for analyzing large language models. JMIR Formative Research, 9, e66207. https://doi.org/10.2196/66207

Heston, T. F. (2023). Safety of large language models in addressing depression. Cureus, 15(12), e50729. https://doi.org/10.7759/cureus.50729

Fonti recuperate da PubMed (National Library of Medicine).