Progresele uriașe în domeniul inteligenței artificiale au dus la o serie de speculații entuziaste și temătoare cu privire la posibilitatea ca roboții de chat să poată depăși medicii umani.
Mai multe studii au arătat că modelele lingvistice mari (LLM) sunt remarcabil de pricepute la o serie de sarcini de diagnosticare medicală, însă susceptibilitatea lor la deficiențe umane precum declinul cognitiv nu a fost încă examinată.
Pentru a umple acest gol de cunoștințe, cercetătorii au evaluat abilitățile cognitive ale principalelor LLM disponibile publicului – ChatGPT versiunile 4 și 4o (dezvoltat de OpenAI), Claude 3.5 „Sonnet” (dezvoltat de Anthropic) și Gemini versiunile 1 și 1.5 (dezvoltat de Alphabet) – utilizând testul de evaluare cognitivă de la Montreal (MoCA).
Testul MoCA este utilizat pe scară largă pentru detectarea tulburărilor cognitive și a semnelor timpurii de demență, de obicei la adulții în vârstă. Prin intermediul unui număr de sarcini și întrebări scurte, acesta evaluează abilități precum atenția, memoria, limbajul, abilitățile vizuospațiale și funcțiile executive. Scorul maxim este de 30 de puncte, un scor de 26 sau mai mare fiind considerat în general normal.
Instrucțiunile date LLM-urilor pentru fiecare sarcină au fost aceleași cu cele date pacienților umani. Punctajul a urmat liniile directoare oficiale și a fost evaluat de un neurolog în exercițiu.
ChatGPT 4o a obținut cel mai mare scor la testul MoCA (26 din 30), urmat de ChatGPT 4 și Claude (25 din 30), Gemini 1.0 obținând cel mai mic scor (16 din 30).
Toți chatboții au prezentat performanțe slabe în ceea ce privește abilitățile vizual-spațiale și sarcinile executive, cum ar fi sarcina de realizare a traseului (conectarea numerelor și literelor încercuite în ordine crescătoare) și testul de desenare a ceasului (desenarea unui cadran de ceas care arată o anumită oră). Modelele Gemini au eșuat la sarcina de memorare întârziată (memorarea unei secvențe de cinci cuvinte).
Majoritatea celorlalte sarcini, inclusiv numirea, atenția, limbajul și abstractizarea, au fost îndeplinite bine de toate roboții de chat.
Acestea sunt constatări observaționale, iar autorii recunosc diferențele esențiale dintre creierul uman și modelele lingvistice mari.
Cu toate acestea, ei subliniază că eșecul uniform al tuturor modelelor mari de limbaj în sarcinile care necesită abstracție vizuală și funcție executivă evidențiază o zonă semnificativă de slăbiciune care ar putea împiedica utilizarea lor în contexte clinice.
„Nu numai că este puțin probabil ca neurologii să fie înlocuiți în curând de modele lingvistice mari, dar constatările noastre sugerează că aceștia s-ar putea trezi în curând că tratează pacienți noi, virtuali – modele de inteligență artificială care prezintă tulburări cognitive”, au declarat oamenii de știință.
Cu toate acestea, ei recunosc că studiul lor are câteva limitări și spun că ”pe măsură ce capacitățile modelelor lingvistice mari continuă să se dezvolte rapid, versiunile viitoare ale modelelor examinate în această lucrare ar putea fi capabile să obțină scoruri mai bune la testele cognitive și de percepție vizuală și spațială”.