Inteligenţa artificială (AI) este tot mai prezentă în medicină, dar capacitatea sa de a lua decizii corecte în situaţii reale rămâne limitată. Un nou studiu arată că, în etapele timpurii ale evaluării unui pacient, modelele AI pot face frecvent erori, ceea ce ridică semne de întrebare privind utilizarea lor directă în practica clinică.
Modelele de limbaj bazate pe inteligenţă artificială nu reuşesc să stabilească un diagnostic iniţial corect în peste 80% dintre cazuri şi nu sunt încă sigure pentru utilizare clinică fără supraveghere, potrivit unui studiu realizat de cercetători de la Mass General Brigham, un important sistem medical şi de cercetare din Statele Unite ale Americii.
Rezultatele studiului, publicate luni, în revista JAMA Network Open, au constatat că modelele de limbaj de mari dimensiuni (LLM) nu ating nivelul de raţionament necesar pentru utilizarea clinică
Studiul a evaluat 21 de modele de limbaj de mari dimensiuni, inclusiv versiuni recente ale Claude, DeepSeek, Gemini, GPT şi Grok.
Cercetătorii au folosit 29 de scenarii clinice standardizate şi un instrument nou, numit PrIME-LLM, care măsoară performanţa modelelor în diferite etape ale raţionamentului clinic: stabilirea unui diagnostic iniţial, recomandarea investigaţiilor, formularea diagnosticului final şi planificarea tratamentului.
Pentru a reproduce modul în care evoluează un caz real, modelele au primit informaţiile treptat, începând cu date de bază precum vârsta, sexul şi simptomele pacientului, apoi rezultate ale examenului clinic şi analize de laborator.
Deşi diagnosticul diferenţial - procesul prin care medicul compară mai multe posibile afecţiuni cu simptome similare pentru a identifica cauza reală - este esenţial în practica medicală pentru a diferenţia între afecţiuni cu simptome similare, modelele au avut dificultăţi majore în această etapă, chiar dacă ulterior au primit informaţii suplimentare pentru a continua evaluarea.
Rezultatele au arătat că toate modelele analizate au eşuat în peste 80% dintre cazuri în generarea unui diagnostic diferenţial adecvat. În schimb, acurateţea pentru diagnosticul final a fost mai bună, variind între aproximativ 60% şi peste 90%, în funcţie de model. Performanţa a crescut atunci când au fost disponibile date suplimentare, precum rezultate de laborator sau imagistică.
Autorii subliniază că modelele AI sunt eficiente atunci când au acces la toate informaţiile necesare, dar întâmpină dificultăţi în fazele iniţiale, caracterizate prin incertitudine şi date incomplete. Diagnosticul diferenţial, considerat o componentă esenţială a raţionamentului clinic, nu poate fi încă reprodus corespunzător de aceste sisteme.
Deşi unele modele au avut performanţe mai bune, inclusiv Grok 4, GPT-5, GPT-4.5, Claude 4.5 Opus şi Gemini 3.0, cercetătorii concluzionează că niciunul nu atinge nivelul necesar pentru utilizare clinică autonomă.
Autorii studiului atrag atenţia că aceste tehnologii necesită în continuare supraveghere umană strictă.
Chiar dacă inteligenţa artificială poate fi un instrument util, deciziile medicale nu ar trebui luate fără implicarea directă a unui profesionist din sănătate.
Recomandarea pentru public este utilizarea cu prudenţă a acestor tehnologii şi consultarea medicului în orice problemă de sănătate.



