Naujame tyrime teigiama, kad ChatGPT galimybės su amžiumi blogėja
Atrodo, kad OpenAI dirbtinio intelekto valdomas pokalbių robotas ChatGPT laikui bėgant vis prastėja, o tyrėjai negali išsiaiškinti priežasties.
Liepos 18 d. atliktame tyrime Stanfordo ir Berklio universitetų mokslininkai nustatė, kad naujausi ChatGPT modeliai per kelis mėnesius tapo kur kas mažiau pajėgūs pateikti tikslius atsakymus į identiškus klausimus.
Tyrimo autoriai negalėjo pateikti aiškaus atsakymo, kodėl pablogėjo dirbtinio intelekto pokalbių roboto gebėjimai.
Norėdami patikrinti, kiek patikimi yra skirtingi ChatGPT modeliai, tyrėjai Lingjiao Chen, Matei Zaharia ir James Zou paprašė ChatGPT-3.5 ir ChatGPT-4 modelių spręsti matematikos uždavinių seriją, atsakyti į jautrius klausimus, rašyti naujas kodo eilutes ir atlikti erdvinius samprotavimus iš užuominų.
Tyrimo duomenimis, kovo mėnesį ChatGPT-4 sugebėjo nustatyti pirminius skaičius 97,6 % tikslumu. Birželį atlikto to paties testo metu ChatGPT-4 tikslumas sumažėjo iki 2,4 %.
Kovo-birželio mėn. abiejų modelių gebėjimai generuoti naujo kodo eilutes gerokai suprastėjo.
Tyrimo metu taip pat nustatyta, kad ChatGPT atsakymai į jautrius klausimus – kai kuriuose pavyzdžiuose buvo atkreiptas dėmesys į etninę kilmę ir lytį – vėliau atsisakydamas atsakyti tapo konkretesnis.
Ankstesnėse pokalbių roboto iteracijose buvo pateikta išsami argumentacija, kodėl jis negali atsakyti į tam tikrus jautrius klausimus. Tačiau birželio mėn. modeliai tiesiog atsiprašė naudotojo ir atsisakė atsakyti.
“Tos pačios paslaugos [didelio kalbos modelio] elgsena gali iš esmės pasikeisti per palyginti trumpą laiką”, – rašė tyrėjai, pažymėdami, kad reikia nuolat stebėti dirbtinio intelekto modelių kokybę.
Tyrėjai rekomendavo naudotojams ir bendrovėms, kurios savo darbo eigoje remiasi LLM paslaugomis kaip sudedamąja dalimi, įgyvendinti tam tikrą stebėsenos analizę, kad pokalbių robotas išliktų spartus.
Birželio 6 d. OpenAI pristatė planus sukurti komandą, kuri padės valdyti riziką, galinčią kilti dėl superintelektualios dirbtinio intelekto sistemos, kuri, kaip tikimasi, atsiras per dešimtmetį.