AI, noul instrument pentru verificarea rigurozităţii studiilor clinice

AI, noul instrument pentru verificarea rigurozităţii studiilor clinice

Un grup de cercetători din Statele Unite a dezvoltat un sistem de inteligenţă artificială (AI) capabil să detecteze greşelile şi omisiunile din rapoartele studiilor clinice, contribuind astfel la îmbunătăţirea calităţii şi transparenţei cercetării medicale.

Studiile clinice randomizate şi controlate reprezintă standardul de aur pentru evaluarea siguranţei şi eficacităţii noilor tratamente. Totuşi, multe rapoarte ştiinţifice nu conţin suficiente detalii despre modul în care au fost concepute şi desfăşurate studiile, ceea ce îngreunează evaluarea calităţii acestora.

O echipă de la Universitatea Urbana-Champaign din Illinois a folosit supercomputerul Bridges-2 al Centrului pentru Calcul Ştiinţific din Pittsburgh pentru a antrena un sistem de AI capabil să identifice paşii lipsă din rapoartele ştiinţifice.

Scopul final este dezvoltarea unui instrument open-source pe care autorii şi revistele ştiinţifice să îl poată folosi pentru a verifica acurateţea şi caracterul complet al articolelor înainte de publicare.

Cercetătorii s-au bazat pe ghidurile internaţionale CONSORT 2010 şi SPIRIT 2013, care stabilesc 83 de elemente esenţiale pentru raportarea corectă a unui studiu clinic.

Folosind tehnologii de procesare a limbajului natural (NLP - Natural Language Processing), echipa a instruit mai multe modele AI pentru a analiza 200 de articole publicate între 2011 şi 2022, comparându-le cu aceste standarde.

Antrenarea algoritmilor a fost posibilă datorită puterii de calcul a sistemului Bridges-2, echipat cu procesoare grafice (GPU) de înaltă performanţă, esenţiale pentru instruirea modelelor de tip „Transformer”, capabile să distingă între un raport complet şi unul deficitar.

Modelele AI au fost testate folosind o metodă standard de evaluare, scorul F₁, care măsoară echilibrul între acurateţea identificării elementelor lipsă şi evitarea falselor alarme. Rezultatele preliminare, publicate în revista Scientific Data, au fost promiţătoare: cel mai performant model a atins un scor F₁ de 0,742 la nivel de propoziţie şi 0,865 la nivel de articol.

Scorul F₁ este o măsură folosită pentru a evalua cât de bine funcţionează un model de inteligenţă artificială. El combină două aspecte importante: precizia (cât de corecte sunt răspunsurile pozitive identificate) şi rata de acoperire (cât de multe răspunsuri corecte a găsit modelul din totalul existent).

Un scor F₁ = 1 înseamnă performanţă perfectă, iar F₁ = 0 indică un eşec complet. Aşadar, valorile obţinute arată că modelul a avut o acurateţe bună spre foarte bună, identificând corect majoritatea erorilor din texte, mai ales când a analizat articolele în ansamblu, nu doar propoziţiile individuale.

Echipa consideră că aceste rezultate pot fi îmbunătăţite prin extinderea bazei de date şi rafinarea procesului de învăţare, inclusiv prin utilizarea „metodei de distilare” - o tehnică de învăţare asistată între modele inteligente-, prin care un model AI mare antrenează un model mai mic, mai accesibil utilizatorilor.

Cercetătorii îşi propun să ofere gratuit acest instrument autorilor şi revistelor medicale, pentru a facilita detectarea automată a erorilor sau a etapelor omise în raportarea studiilor. Astfel, calitatea şi transparenţa cercetării medicale ar putea creşte semnificativ, în beneficiul direct al pacienţilor. 

viewscnt