Заклучокот на научниците е дека перформансите на ВИ моделите зад ГПТ-3,5 и ГПТ-4 „значително се разликуваат“. Плус „мултимодал“ моделот на 4-ката кој разбира слики и текст, на тестовите „имал се полоши резултати како што одминувало времето“. ГПТ-4 во март имал 97,6% прецизност во идентификување на прости броеви, споредено со 2,4% во јуни.
Иако стојат на резултатите што ги добиваат, научниците не можат да објаснат зошто тоа се случува.
И пред истражувањето, Петер Јанг од Роблокс, уште во мај забележа дека иако одговорите на ГПТ-4 се генерирани побрзо од претходно „тие се со полош квалитет“, додека на програмерскиот форум на ОпенАИ продолжува дебатата за падот на квалитетот на одговорите.