Cosa significa, oggi, affidarsi all’Intelligenza Artificiale per una diagnosi medica? In alcuni ambiti la macchina sorprende davvero, riuscendo a individuare e interpretare ciò che le naturali capacità umane faticano a cogliere. In altri, i suoi limiti strutturali emergono con altrettanta chiarezza. Quel che è certo è che né il medico, né la macchina, da soli, bastano. Scopriamo insieme il perché.

Tra tutte le numerose funzioni che compongono la pratica medica, la diagnosi occupa senza dubbio un posto particolare: è infatti l’atto intellettuale attraverso cui un professionista interpreta segnali, spesso ambigui, confrontandoli con un patrimonio di conoscenze accumulato in anni di studio ed esperienza, formulando infine un giudizio da cui dipenderà l’intero percorso di cura delle persone. Una responsabilità non da poco che è, di fatto, al cuore della medicina. Proprio per questo, il quesito che l’Intelligenza Artificiale ha portato con sé fin dal suo avvento, ovvero se una macchina possa ‘diagnosticare’ meglio di un essere umano, non è una provocazione accademica, ma una questione concreta che oggi riguarda migliaia di professionisti … per non parlare dei pazienti. La risposta non è né un sì né un no: in alcuni ambiti la macchina sorprende davvero, in altri il giudizio umano resta insostituibile.

Da quando l’Intelligenza Artificiale ha fatto il suo ingresso nella vita quotidiana delle persone, si moltiplicano le testimonianze di pazienti che affermano di aver ricevuto da un modello linguistico un’ipotesi diagnostica che i medici non erano riusciti a formulare. Tra i casi più documentati c’è quello di Bethany Crystal, una consulente di New York che si ritrovò con macchie rosse sulle gambe, senza che diversi medici riuscissero a spiegarle il perché (*1). Dopo aver descritto i propri sintomi a ChatGPT, ricevette un’indicazione precisa: rischio di sanguinamento da valutare immediatamente.
La diagnosi definitiva fu ‘porpora trombocitopenica immune’: una patologia che causa una riduzione pericolosa delle piastrine nel sangue. Crystal dichiarò che senza l’insistenza di ChatGPT probabilmente non si sarebbe recata in tempo al pronto soccorso.
Un caso che fa riflettere: sorprendente per ciò che dimostra, ma che pone anche una domanda scomoda, ovvero per ogni diagnosi che l’IA indovina, quante ne sbaglia o ne depista, portando le persone su strade pericolose? Un quesito che rimarrà valido per molto tempo, ricordando come potenziale e rischio dell’uso della tecnologia in medicina viaggino sempre insieme.
Nota:
*1: Katia Riddle, NPR, 30 gennaio 2026.

Se c’è un ambito medico in cui l’impiego dell’Intelligenza Artificiale sta producendo risultati, quello della diagnostica per immagini è senza dubbio il più sorprendente. Radiologia, mammografia, dermatologia, oftalmologia: in questi campi, gli algoritmi di Deep Learning stanno dimostrando una capacità di riconoscimento dei pattern visivi che, in condizioni specifiche, supera quella dell’occhio umano. Del resto, i numeri parlano chiaro. Un esempio su tutti: nell’individuazione del tumore al seno, alcuni sistemi di IA raggiungono una sensibilità tra il 76% e il 90%, superando le ‘performance’ medie dei radiologi, storicamente attestate tra il 73% e il 78%. Il trial randomizzato MASAI, uno degli studi più autorevoli condotti in questo ambito, ha confrontato la lettura di due professionisti ‘umani’ con quella di uno singolo, affiancato da un algoritmo di IA: i risultati hanno spinto The Lancet a parlare apertamente di un nuovo standard clinico per lo screening mammografico.
Non si tratta, comunque, di una superiorità assoluta: gli studi mostrano che i medici mantengono comunque un vantaggio significativo nella diagnosi su tessuto mammario denso, dove la complessità dell’immagine riduce l’efficacia degli algoritmi. Il quadro che emerge è quindi quello di due intelligenze, biologica e artificiale, con punti di forza complementari: l’una più precisa nei casi standard ad alto volume, l’altra più capace di cogliere le sfumature nei casi complessi.
Una complementarità che è il filo conduttore del rapporto tra IA e sanità (*1).
Nota:
*1: Il vantaggio dell’IA nella diagnostica per immagini si spiega con una caratteristica strutturale: i modelli vengono addestrati su milioni di immagini annotate, un volume di ‘esperienza visiva’ che nessun radiologo umano potrebbe accumulare nel corso di una carriera intera.

L’elettrocardiogramma, o ‘ECG’, è senza dubbio tra gli esami più comuni della medicina moderna: in pochi minuti registra l’attività elettrica del cuore, fornendo al medico un tracciato che, tradizionalmente, richiede un occhio esperto per essere interpretato correttamente. Oggi, però, qualcosa di nuovo sta accadendo: l’Intelligenza Artificiale riesce infatti a cogliere nel medesimo tracciato dettagli difficilmente percepibili da un ‘semplice umano’. A riprova di ciò basterà citare un trial clinico randomizzato pubblicato nel 2024 su Nature Medicine (*1) e condotto su quasi 16.000 pazienti ospedalizzati. Il trial ha dimostrato che un sistema di IA, dopo aver esaminato i loro ECG, è stato in grado di identificare le persone ad alto rischio prima ancora che le loro condizioni si deteriorassero visibilmente, dando così modo di curarle in tempo. Il dato è significativo: nel gruppo assistito dalla nuova tecnologia, la mortalità è scesa dal 4,3% al 3,6%, una riduzione che, in soldoni, si traduce in un rischio di morte inferiore del 17%! Difficile, di fronte a risultati del genere, non parlare di vera e propria rivoluzione diagnostica.
*1: Lin, C.S. et al. (2024). AI-enabled electrocardiography alert intervention and all-cause mortality: a pragmatic randomized clinical trial. Nature Medicine, 30, 1461–1470.

Forse non tutti sanno che, attualmente, nel mondo, esistono più di 7.000 malattie rare. La maggior parte di esse è di origine genetica, si manifesta con sintomi atipici e complessi, colpendo un numero così limitato di persone che anche il medico più esperto potrebbe non averne mai sentito parlare. Ciò spiega come mai, per chi ne è affetto, il percorso verso una diagnosi può essere una vera e propria ‘odissea’: anni di visite, esami, il confronto con specialisti diversi, ipotesi che si rivelano puntualmente errate.
Secondo la letteratura scientifica, il tempo medio che intercorre tra la comparsa dei sintomi e una diagnosi corretta può raggiungere i 5 anni! (*1) Un’attesa non solo frustrante, ma che in molti casi impedisce di accedere in tempo alle cure disponibili, con le inevitabili ricadute sulla salute. L’Intelligenza Artificiale sta dimostrando di poter accorciare drasticamente questo tragico percorso. Uno studio pubblicato nell’agosto 2025 su JAMA Network Open da ricercatori della Vanderbilt University Medical Center, condotto su 90 casi tra i più complessi e irrisolti dell’Undiagnosed Diseases Network americano, supportato dal National Institutes of Health, ha rilevato che i modelli linguistici di IA hanno raggiunto tassi diagnostici del 13,3% e del 10%, a fronte di un tasso storico della revisione clinica tradizionale del 5,6%.
In termini pratici: la macchina ha individuato la diagnosi corretta in una quota di casi più che doppia rispetto al percorso clinico convenzionale, partendo dai medesimi dati disponibili. Per pazienti che attendevano una risposta da anni, si tratta di un risultato straordinario.
Nota:
*1: Faye F. et al., European Journal of Human Genetics, 2024.


Il tumore del colon-retto è uno tra i più diffusi e letali al mondo … eppure è anche tra quelli per cui la prevenzione funziona davvero: individuare e rimuovere i polipi adenomatosi prima che degenerino significa infatti, nella stragrande maggioranza dei casi, scongiurare la malattia. La colonscopia è, di fatto, lo strumento d’elezione per questo scopo, ma ha un limite importante: anche nelle mani di un endoscopista con anni di esperienza sulle spalle, una quota significativa di anomalie sfugge all’esame.
L’Intelligenza Artificiale sta cambiando questa realtà in modo misurabile. Una meta-analisi pubblicata nel 2025 su Gastrointestinal Endoscopy (*1), basata su 28 trial randomizzati controllati che hanno coinvolto quasi 24.000 pazienti, ha rilevato che i sistemi di IA applicati a questo specifico esame aumentano del 20% il tasso di rilevamento degli adenomi e riducono del 55% quello delle lesioni mancate, rispetto alla procedura tradizionale. Un risultato notevole. Ciò nonostante occorre sottolineare che la macchina non deve assolutamente sostituire l’endoscopista, ma affiancarlo in tempo reale, segnalando istantaneamente le aree sospette che potrebbero sfuggire al suo occhio umano. Un alleato silenzioso dunque, che, letteralmente, salva vite.
Nota:
*1: Meta-analisi: Use of artificial intelligence improves colonoscopy performance in adenoma detection: a systematic review and meta-analysis Gastrointestinal Endoscopy, 2025
https://www.giejournal.org/article/S0016-5107(24)03471-0/fulltext

La retinopatia diabetica è una delle principali cause di cecità ‘evitabile’ nel mondo: la patologia si sviluppa silenziosamente nelle persone affette da diabete, danneggiando progressivamente i vasi sanguigni della retina, spesso senza che la persona avverta alcun sintomo fino a quando il danno non è già avanzato. La diagnosi precoce, come è facile capire, è dunque determinante … ma richiede un esame specialistico del fondo oculare al quale, in molti contesti, non è facile accedere.
È proprio in quest’ambito che l’Intelligenza Artificiale ha permesso un’innovazione fino a poco tempo fa impensabile: nel 2018 la FDA americana ha autorizzato infatti un sistema di IA in grado di diagnosticare la retinopatia diabetica senza alcuna supervisione medica, il primo della storia in qualsiasi campo della medicina. Tale sistema, commercializzato con il nome LumineticsCore, analizza le fotografie del fondo oculare e fornisce una risposta diagnostica in meno di un minuto, senza che sia peraltro necessaria la presenza di un oculista (!). Una meta-analisi pubblicata nel 2025 sull’American Journal of Ophthalmology, basata su 13 studi e oltre 13.000 pazienti, ha confermato che questo incredibile strumento raggiunge una sensibilità del 95% e una specificità del 91% nel rilevamento della patologia. Detto in parole semplici: la macchina individua la malattia nel 95% dei casi in cui è presente, con un margine di errore estremamente contenuto.
Un risultato sorprendente che permetterà di portare una diagnosi di qualità nelle strutture di medicina generale, nelle aree rurali, nei Paesi in via di sviluppo … ovvero ovunque manchi un medico specialista. Per milioni di persone, questo significherà la differenza tra vedere e non vedere!

Immaginate un esame diagnostico che non richiede analisi del sangue, strumenti costosi o lunghe attese ma … solo la vostra voce. Non è fantascienza. Ricercatori del Luxembourg Institute of Health hanno dimostrato, in uno studio pubblicato su PLOS Digital Health nel 2024, che un sistema di IA è in grado di rilevare il diabete di tipo 2 analizzando brevi frammenti di voce registrata, con una percentuale di individuazione del 71% negli uomini e del 66% nelle donne.
Il diabete, infatti, provoca alterazioni fisiologiche che modificano sottilmente le caratteristiche acustiche della voce, in modo impercettibile all’orecchio umano ma non a quello della macchina. Una frontiera ancora in fase di sviluppo, ma già sorprendente (*1).
Nota:
*1: Elbéji A. et al., PLOS Digital Health, 2024.

Se la mancanza di contesto rappresenta una vulnerabilità strutturale dell’IA, esiste un secondo limite altrettanto insidioso che, in ambito diagnostico, assume una valenza particolarmente critica: le cosiddette ‘allucinazioni’. Con questo termine si indica la tendenza dei modelli linguistici a generare informazioni non corrette presentandole però con lo stesso tono sicuro e autorevole con cui fornirebbero una risposta esatta. In medicina, come è facile capire, ciò rappresenta un problema non indifferente: un errore comunicato con la medesima fiducia di un dato reale può indurre il paziente, o il professionista stesso, ad accettarlo senza il necessario filtro critico. La ricerca scientifica ha documentato ampiamente il problema. Uno studio del 2025 condotto da ricercatori del MIT e della Harvard Medical School, attualmente in fase di revisione scientifica, ha valutato undici modelli linguistici, sia generalisti che specializzati in ambito sanitario, su casi clinici reali.
Ebbene, tutti i sistemi esaminati hanno generato informazioni errate in modo autonomo, con tassi particolarmente elevati, guarda un po’, nei casi più rari o atipici, ovvero proprio quelli in cui la precisione sarebbe più indispensabile.
Il quadro è chiaro: più una situazione clinica è complessa, più aumenta il rischio che la macchina produca un errore e, cosa ancor più grave, che lo presenti come ‘certo’ senza esitazione.
Un medico ‘in carne ed ossa’ può avere dubbi e quindi cercare conferma e, in caso, rivalutare. Una macchina che sbaglia non lo sa e, ancora peggio, non lo dà a vedere.

Esiste un limite ‘strutturale’ dell’Intelligenza Artificiale in ambito diagnostico che nessun aggiornamento algoritmico è ancora riuscito a risolvere e che, di fatto, rappresenta una enorme vulnerabilità. Si sta parlando della sua incapacità di ‘conoscere davvero’ il paziente. Un sistema di questo tipo, per quanto sofisticato, lavora infatti quasi esclusivamente sui dati che riceve: se tali dati sono incompleti o privi del contesto necessario per interpretarli correttamente, il risultato sarà non solo impreciso, ma fuorviante e quindi pericoloso, soprattutto in ambito sanitario.
Si può citare come esempio emblematico della problematica un caso documentato nel 2024 su una rivista medica austriaca (*1), per cui un uomo di 63 anni, reduce da un intervento di ablazione della vena polmonare, aveva consultato ChatGPT per interpretare i propri sintomi neurologici senza menzionare la procedura appena subita. Privato di un’informazione tanto cruciale, il sistema aveva prodotto una valutazione così lacunosa da ritardare l’individuazione corretta di un attacco ischemico transitorio.
Un’ulteriore conferma del ‘punto debole’ dell’IA la si può trovare in uno studio pubblicato nel 2026 su JAMA Network Open: sottoposti a 29 casi clinici reali con informazioni parziali, 21 tra i principali modelli linguistici disponibili hanno fallito in oltre l’80% dei casi nel formulare una risposta differenziale appropriata. I modelli più performanti, con una documentazione completa, superavano il 90% di accuratezza.
La conclusione è inequivocabile: una IA che non conosce la storia clinica pregressa di una persona, le terapie in corso, le sue condizioni di vita e le variabili emotive (che un medico esperto sa leggere anche senza che vengano esplicitamente dichiarate), può sbagliare, eccome!
Il contesto, soprattutto in medicina, non è un elemento accessorio, ma è generalmente un passaggio obbligato per trasformare un semplice dato grezzo in una valutazione accurata.
Nota:
*1: La rivista ‘Wiener Klinische Wochenschrift’.

Al di là dell’evidente superiorità della diagnostica per immagini condotta dall’Intelligenza Artificiale, i dati relativi al ‘confronto prestazionale’ tra la nuova tecnologia e il medico umano raccontano una storia decisamente più sfumata. Le ricerche più recenti, condotte su migliaia di casi, restituiscono infatti un quadro tutt’altro che univoco. Ad esempio, in un report del 2025 pubblicato su npj Digital Medicine, rivista scientifica del gruppo Nature, è stata rilevata un’accuratezza diagnostica complessiva dell’IA pari al 52,1%, senza differenze statisticamente significative rispetto alle performance dei medici non specialisti. Un secondo studio, firmato da ricercatori dell’Università di Osaka, ha evidenziato come i risultati varino enormemente a seconda della specialità medica considerata, del tipo di caso clinico e della qualità delle informazioni fornite al sistema.
Ciò che emerge con chiarezza è che l’IA non è infallibile: eccelle infatti solo nei casi in cui dispone di una grande mole di dati strutturati, completi e attendibili, mentre tende a perdere terreno nei contesti in cui il ragionamento clinico richiede l’integrazione di variabili non codificabili, come la storia personale del paziente, il suo contesto di vita o le sfumature del colloquio medico. I dati, insomma, non decretano un vincitore assoluto tra macchina e uomo, ma raccontano piuttosto di una tecnologia ancora dipendente dalla affidabilità dell’input fornitole, e di un medico umano che, proprio dove le informazioni si fanno più complesse, continua a distinguersi facendo la differenza.

Dopo aver esplorato alcuni tra i più straordinari risultati che l’introduzione dell’Intelligenza Artificiale in ambito diagnostico sta producendo, i limiti strutturali che ne caratterizzano l’uso, oltre alle sfide che ancora la attendono, una domanda rimane aperta: qual è, concretamente, la modalità d’uso di questa nuova tecnologia che funziona meglio? La risposta, oggi, la fornisce la scienza. Uno studio pubblicato nel 2025 sui Proceedings of the National Academy of Sciences, condotto da un team internazionale guidato dal Max Planck Institute for Human Development, ha analizzato oltre 40.000 diagnosi su più di 2.100 casi clinici, confrontando le performance di medici, modelli linguistici di IA e collettivi misti. Il risultato è netto: i collettivi ibridi, composti da esperti umani e sistemi di IA che collaborano, superano sia i soli medici che le sole macchine.
Del resto, umani e IA commettono errori diversi: quando la macchina sbaglia, il medico spesso conosce la risposta giusta, e viceversa. Questa complementarità è la chiave di tutto: non si tratta quindi di scegliere tra il professionista e la tecnologia, ma di farli lavorare insieme. L’Intelligenza Artificiale non sostituirà dunque il medico, con la sua esperienza, la sua empatia e il suo giudizio clinico, ma lo affiancherà, ampliandone le capacità e riducendo il margine di errore. Una partnership, non una sostituzione: su questa consapevolezza si fonda il futuro della diagnosi medica.

Nonostante molti dei risultati dell’uso della IA in ambito diagnostico siano effettivamente notevoli, sarebbe sbagliato dipingere un futuro del tutto privo di ombre. Diverse sono le sfide concrete che si frappongono tra la nuova tecnologia ed un suo uso regolato e compiuto. La prima riguarda la legislazione: ad oggi, la FDA americana ha autorizzato circa 950 dispositivi medici basati su algoritmi di IA, con un ritmo di circa 100 nuove approvazioni all’anno, ma il quadro normativo è ancora in piena evoluzione, e garantire che ogni sistema sia sicuro, validato e monitorato nel tempo rimane una sfida aperta. In Europa, l’AI Act entrato in vigore nel 2024 ha posto le basi per una supervisione più strutturata, ma la sua piena applicazione richiederà anni.
La seconda sfida riguarda la cosiddetta opacità algoritmica: molti sistemi di IA producono risultati corretti senza essere in grado di spiegare il ragionamento che li ha generati, rendendo difficile per il medico valutarne la fondatezza. La terza, forse la più insidiosa, è quella del bias: i modelli addestrati su dati non sufficientemente rappresentativi della popolazione globale, in termini di età, etnia e condizioni socioeconomiche, rischiano di produrre diagnosi meno accurate proprio per le categorie di pazienti più vulnerabili. Infine, c’è il problema dell’integrazione tecnica: la maggior parte degli ospedali nel mondo opera ancora con sistemi informatici obsoleti e poco interconnessi, rendendo difficile l’adozione di strumenti di IA avanzati nella pratica quotidiana.
Affrontare queste problematiche è la condizione necessaria perché il potenziale dell’Intelligenza Artificiale in medicina si traduca in benefici reali per tutti i pazienti, non solo per chi ha la fortuna e le disponibilità economiche necessarie per accedere ai centri di eccellenza.
Le immagini presenti in questa pagina web sono state realizzate impiegando strumenti di Intelligenza Artificiale generativa.