Inteligența artificială dă primele semne de demență. Aproape toți chatboții AI de top prezintă semne de declin cognitiv

Cu excepția ChatGPT 4o, aproape toate modelele lingvistice mari disponibile public supuse unui test numit Montreal Cognitive Assessment (MoCA) au prezentat semne de deteriorare cognitivă ușoară. Aceste constatări pun în discuție ipoteza că inteligența artificială va înlocui în curând medicii umani, deoarece deficitul cognitiv evident la principalii chatboți poate afecta diagnosticarea medicală și încrederea pacienților, potrivit cercetării publicate în jurnalul științific Bmj.
Lidia Neagu - vin, 27 dec. 2024, 16:55
Inteligența artificială dă primele semne de demență. Aproape toți chatboții AI de top prezintă semne de declin cognitiv

Progresele uriașe în domeniul inteligenței artificiale au dus la o serie de speculații entuziaste și temătoare cu privire la posibilitatea ca roboții de chat să poată depăși medicii umani.

Mai multe studii au arătat că modelele lingvistice mari (LLM) sunt remarcabil de pricepute la o serie de sarcini de diagnosticare medicală, însă susceptibilitatea lor la deficiențe umane precum declinul cognitiv nu a fost încă examinată.

Pentru a umple acest gol de cunoștințe, cercetătorii au evaluat abilitățile cognitive ale principalelor LLM disponibile publicului – ChatGPT versiunile 4 și 4o (dezvoltat de OpenAI), Claude 3.5 „Sonnet” (dezvoltat de Anthropic) și Gemini versiunile 1 și 1.5 (dezvoltat de Alphabet) – utilizând testul de evaluare cognitivă de la Montreal (MoCA).

Testul MoCA este utilizat pe scară largă pentru detectarea tulburărilor cognitive și a semnelor timpurii de demență, de obicei la adulții în vârstă. Prin intermediul unui număr de sarcini și întrebări scurte, acesta evaluează abilități precum atenția, memoria, limbajul, abilitățile vizuospațiale și funcțiile executive. Scorul maxim este de 30 de puncte, un scor de 26 sau mai mare fiind considerat în general normal.

Instrucțiunile date LLM-urilor pentru fiecare sarcină au fost aceleași cu cele date pacienților umani. Punctajul a urmat liniile directoare oficiale și a fost evaluat de un neurolog în exercițiu.

ChatGPT 4o a obținut cel mai mare scor la testul MoCA (26 din 30), urmat de ChatGPT 4 și Claude (25 din 30), Gemini 1.0 obținând cel mai mic scor (16 din 30).

Toți chatboții au prezentat performanțe slabe în ceea ce privește abilitățile vizual-spațiale și sarcinile executive, cum ar fi sarcina de realizare a traseului (conectarea numerelor și literelor încercuite în ordine crescătoare) și testul de desenare a ceasului (desenarea unui cadran de ceas care arată o anumită oră). Modelele Gemini au eșuat la sarcina de memorare întârziată (memorarea unei secvențe de cinci cuvinte).

Majoritatea celorlalte sarcini, inclusiv numirea, atenția, limbajul și abstractizarea, au fost îndeplinite bine de toate roboții de chat.

Acestea sunt constatări observaționale, iar autorii recunosc diferențele esențiale dintre creierul uman și modelele lingvistice mari.

Cu toate acestea, ei subliniază că eșecul uniform al tuturor modelelor mari de limbaj în sarcinile care necesită abstracție vizuală și funcție executivă evidențiază o zonă semnificativă de slăbiciune care ar putea împiedica utilizarea lor în contexte clinice.

„Nu numai că este puțin probabil ca neurologii să fie înlocuiți în curând de modele lingvistice mari, dar constatările noastre sugerează că aceștia s-ar putea trezi în curând că tratează pacienți noi, virtuali – modele de inteligență artificială care prezintă tulburări cognitive”, au declarat oamenii de știință.

Cu toate acestea, ei recunosc că studiul lor are câteva limitări și spun că ”pe măsură ce capacitățile modelelor lingvistice mari continuă să se dezvolte rapid, versiunile viitoare ale modelelor examinate în această lucrare ar putea fi capabile să obțină scoruri mai bune la testele cognitive și de percepție vizuală și spațială”.

 

Te-ar mai putea interesa și
Președintele Nicușor Dan și-a publicat declarația de avere
Președintele Nicușor Dan și-a publicat declarația de avere
Preşedintele Nicuşor Dan şi-a publicat, luni, declaraţia de avere pe site-ul Administraţiei Prezidenţiale. Potrivit documentului, şeful statului are un teren intravilan în judeţul Braşov de......
Wizz Air deschide primul său centru de mentenanţă a avioanelor din România, în parteneriat cu Romaero. România are cea mai mare flotă Wizz Air din lume
Wizz Air deschide primul său centru de mentenanţă a avioanelor din România, în parteneriat cu Romaero. România are ...
Wizz Air, cea mai mare companie aeriană din România, și Romaero, liderul local în domeniul aerospațial și al apărării, ...
Descoperă cele mai promițătoare presale-uri ale acestui bull market
Descoperă cele mai promițătoare presale-uri ale acestui bull market
Criptomonedele trăiesc din nou un moment de efervescență. Iar în mijlocul acestui val ascendent se conturează clar o ...
CSM: Vârsta medie de pensionare a judecătorilor în perioada februarie – mai 2025 a fost de aproximativ 52 de ani și trei luni
CSM: Vârsta medie de pensionare a judecătorilor în perioada februarie – mai 2025 a fost de aproximativ 52 de ani ...
Consiliul Superior al Magistraturii a informat luni că vârsta medie de pensionare, în perioada februarie - mai, a fost ...