
Истражувачи на вештачка интелигенција од Центарот „Волтер Бредли“ поставиле серија од 12 прашања за финансии на четири водечки големи јазични модели - Чет ГПТ 4о, Грок 3, Дипсик В2 и Џемини 2 на Гугл.
Секој четбот се покажал како „граматички прецизен, опширен, навидум авторитетен, но и полн со аритметички грешки“.
Користејќи едноставна скала со која со половина поен се оценуваат математичката пресметка и финансиската анализа, ниту еден четбот не добил повеќе од 5 од максималните 12 поени. Најдобар резултат покажал Чет ГПТ, со вкупно 5 поени, Дипсик имал 4, Грок 3, а Џемини едвај 1,5 поен.
Некои од одговорите на четбот биле катастрофално лоши. Кога Грок требало да пресмета трошоци за едномесечно изнајмување имот на Карибите со кирија од 3.700 долари и тековни трошоци од 200 долари, четботот дал одговор 4.900.
Студијата покажала дека јазичните модели не генерирале каква било интелигентни анализи за релативно основни финансиски прашања. Дури и најубедливите одговори биле пронајдени и пренесени од извори на интернет и воопшто немало знаци на расудување.
Сите тестирани модели даваат охрабрувачка илузија на интелигенција слична на човекот, главно со ведар стил на разговор, зајакнат со пријателски извичници што на просечниот корисник може да му даде впечаток доверба и исправност, заклучуваат авторите на студијата.