I grandi modelli linguistici come ChatGpt non sono affidabili quando si tratta di distinguere tra opinioni personali e fatti : una limitazione cruciale , vista la crescente diffusione di questi strumenti in ambiti chiave come la medicina , il diritto , il giornalismo e la scienza , nei quali è imperativa la capacità di distinguere la realtà dalla finzione. Lo indica lo studio pubblicato sulla rivista Nature Machine Intelligence e guidato dall'Università americana di Stanford: evidenzia la necessità di essere cauti nell'affidarsi a questi programmi e il rischio che possano favorire la diffusione della disinformazione .
I ricercatori coordinati da James Zou hanno messo alla prova 24 Large Language Model i cosiddetti Llm, tra cui ChatGpt della californiana OpenAI e il cinese DeepSeek, ponendo loro 13mila domande . Quando è stato chiesto di verificare dati fattuali veri o falsi , la precisione è risultata elevata pari a oltre il 91% per le versioni più nuove dei programmi. Passando alle credenze espresse in prima persona , invece, tutti i modelli testati hanno fallito : Gpt 4, la versione rilasciata a maggio 2024, ha visto scendere la sua affidabilità dal 98,2% al 64,4% , mentre la versione R1 di DeepSeek è precipitata addirittura da oltre il 90% al 14,4%.
© RIPRODUZIONE RISERVATA