Notizie e curiosità Strumenti digitali di autovalutazione dei sintomi e Large Language Models, quale affidabilità per il self-triage?

Secondo una revisione sistematica pubblicata su NPJ Digital Medicine, le applicazioni di autovalutazione dei sintomi (Symptom-assessment Applications, SAAs) e i Large Language Models (LLM) mostrano un’accuratezza solo moderata nel supportare le decisioni di self-triage dei pazienti, con una forte variabilità tra i diversi strumenti. Gli autori sottolineano che la valutazione di queste tecnologie non dovrebbe prescindere dal confronto con il livello decisionale dei loro utilizzatori finali, cioè i non professionisti che decidono se, quando e dove ricorrere a cure mediche.

Strumenti digitali di autovalutazione dei sintomi e Large Language Models, quale affidabilità per il self-triage? “Finora SAAs e LLM sono stati spesso valutati come se fossero gli unici decisori, senza considerare quanto bene o quanto male decidano i pazienti da soli. Il nostro obiettivo è stato proprio quello di confrontare l’accuratezza di questi strumenti con quella degli individui non professionisti medici, nel contesto del self-triage” spiega Marvin Kopka, della Technische Universität Berlin, Berlino, Germania, primo autore dello studio.

I ricercatori hanno identificato 3.019 lavori potenzialmente rilevanti e, dopo le esclusioni, hanno incluso 19 studi che valutavano l’accuratezza delle SAAs, dei LLM e dei pazienti laici nelle decisioni di triage domiciliare. La maggior parte degli studi presentava un rischio di bias almeno in un’area, soprattutto per l’uso prevalente di vignette cliniche fittizie, spesso tratte da testi o dall’esperienza di specialisti, poco rappresentative dei casi ambigui che gli utenti inseriscono realmente nelle app. Nel complesso, 14 studi hanno valutato le SAAs, quattro i non professionisti e quattro i LLM. Per le SAAs, l’accuratezza media variava ampiamente, da circa il 26% fino all’88%, con differenze marcate tra le singole applicazioni: alcune, come NHS 111 online, mostravano una performance costantemente da moderata ad elevata, mentre altre mantenevano prestazioni basse in tutti gli studi. Per i LLM, l’accuratezza risultava più omogenea, tra il 58% e il 76%, con una variabilità relativamente contenuta tra modelli e contesti. I non professionisti, valutati in condizioni non assistite, raggiungevano un’accuratezza compresa tra il 47% e il 62%, superiore al caso ma ben lontana dalla perfezione. Analizzando i diversi livelli di urgenza, SAAs, LLM e laici risultavano complessivamente capaci di riconoscere le emergenze, con prestazioni simili nel distinguere i casi che richiedono cure urgenti. Le differenze maggiori emergevano invece nei casi di auto-cura: le SAAs mostravano una variabilità estrema, i non professionisti avevano un’accuratezza bassa ma comunque superiore a quella dei LLM, che raramente suggerivano il self-care e mostravano valori inferiori al 20% in questa categoria. Secondo gli autori, ciò suggerisce che i pazienti potrebbero non avere bisogno di grande supporto nel riconoscere i quadri potenzialmente gravi, mentre risultano più fragili nel decidere quando è realmente possibile gestire i sintomi a domicilio. La revisione mette inoltre in evidenza la scarsità di studi volti a valutare l’interazione reale tra utenti e strumenti digitali. Molte ricerche, infatti, considerano le app o i modelli linguistici come se prendessero la decisione finale, mentre nella pratica il paziente integra il consiglio digitale con altre fonti, dal web alle linee telefoniche di triage. Alcuni dati suggeriscono che gli individui “laici” rispetto alla medicina siano in grado di compensare raccomandazioni errate di SAAs performanti, migliorando le proprie decisioni senza aderire ciecamente all’output dell’algoritmo.

Gli autori concludono che non è possibile raccomandare o sconsigliare in modo generalizzato l’uso di SAAs o LLM per il self-triage. Alcuni strumenti superano effettivamente le prestazioni medie dei non professionisti, soprattutto nella distinzione tra emergenza e non emergenza, mentre altri non offrono alcun vantaggio. Prima di un’adozione su larga scala, sarà necessario disporre di procedure standardizzate di valutazione e di eventuale certificazione, con maggiore trasparenza sui dati di addestramento, sulle metriche utilizzate e sulla sicurezza complessiva dei percorsi di triage suggeriti.

Fonte: NPJ Digit Med. 2025 Mar 25;8(1):178. doi: 10.1038/s41746-025-01566-6.

Ulteriori contenuti

L’alfabetizzazione digitale per i servizi sanitari negli anziani rivela livelli insufficienti a livello globale

Negli anziani l’eHealth literacy è sotto i livelli adeguati, limitando l’uso dei servizi digitali e influenzata da età, genere e condizioni sociali.

Scopri di più

Assistenza primaria e fragilità in Alto Adige: criticità e prospettive per l’attuazione del D.M. 77/2022

L’attuazione del DM 77/2022 in Alto Adige è ostacolata da carenze di personale, bassa digitalizzazione e criticità nella collaborazione tra professionisti.

Scopri di più

“Esortazioni” digitali nella medicina primaria possono migliorare la qualità dell’assistenza

Interventi nei sistemi EHR migliorano processi e documentazione clinica, ma hanno impatto limitato e incostante su esiti di salute ed efficienza.

Scopri di più

Notizie e curiosità Strumenti digitali di autovalutazione dei sintomi e Large Language Models, quale affidabilità per il self-triage?

Digital News

Ulteriori contenuti

IT-NON-2026-00162

Notizie e curiosità Strumenti digitali di autovalutazione dei sintomi e Large Language Models, quale affidabilità per il self-triage?

Digital News

Ulteriori contenuti

IT-NON-2026-00162

Stai uscendo dal sito di Viatris