Hulumtimi i ri nga Universiteti Stanford shqyrtoi performancën e ChatGPT në detyra të ndryshme gjatë disa muajve, duke përfshirë zgjidhjen e problemeve matematikore, përgjigjen e pyetjeve të ndjeshme, gjenerimin e kodit të softuerit dhe më shumë.
Prandaj, rezultatet treguan se aftësitë e ChatGPT nuk ishin të qëndrueshme. Në problemet e matematikës, për shembull, GPT-4 filloi me 97.6% njohje të saktë të numrave të thjeshtë në mars, por tre muaj më vonë kjo performancë ra me 2.4%.
“Kur akordojmë një model të madh gjuhësor (LLM) për të përmirësuar performancën e tij në detyra të caktuara, kjo mund të ketë pasoja të padëshiruara që mund të dëmtojnë performancën e modelit në detyra të tjera. Ka shumë lloje ndërvarësish në mënyrën se si modeli përgjigjet në mënyrë korrekte, disa prej të cilave mund të çojnë në përkeqësim të sjelljes që vëzhgojmë“, tha profesori i shkencave kompjuterike në Stanford, James Zou.
Në praktikë, rregullimet në një pjesë të ChatGPT mund të kenë efekte të padëshiruara në pjesë të tjera të tij për shkak të kompleksitetit të tij.
Fatkeqësisht, për shkak se ChatGPT funksionon si një kuti e zezë, studiuesit dhe publiku nuk mund të shohin se si funksionon. Refuzimi i OpenAI për ta bërë kodin e tij burim të hapur ka çuar në mungesë transparence në mënyrën se si funksionon AI.
Me kalimin e kohës, përgjigjet e ChatGPT jo vetëm që u bënë më pak të sakta, por gjithashtu pushuan së shpjeguari logjikën pas përgjigjeve. Është si t’i kërkosh një studenti të shpjegojë se si zgjidhi një problem matematikor hap pas hapi. Kjo i ndihmon studiuesit të kuptojnë se si AI arriti në këtë përfundim. Por ChatGPT ndaloi së zbuluari hapat.