
Халуцинациите се покажаа како еден од најголемите и најтешките проблеми за решавање во вештачката интелигенција, дури и кај новите генерации на јазични модели што имаат поефикасни алгоритми и кои се хранат со многу поголеми бази на податоци.
Во кратката историја на јазични модели со ВИ, секој нов производ беше нешто подобар кога се работи за халуцинации. Тоа не е случај со „о3“ и „о4-мини“ на Опен АИ.
Внатрешни тестирања покажале дека овие модели со способност за расудување халуцинираат почесто од претходните (о1, о1-мини и о3-мини), па дури и од традиционалните „неразумни“ модели, како ГПТ-4о. Уште позагрижувачки е тоа што производителот не знае зошто тоа се случува.
Во техничкиот извештај е наведено дека о3 и о4-мини имаат подобри резултати во задачи поврзани со кодирање и математика. Тие се оптоварени со повеќе тврдења, што се одразува и со поголем број неточни одговори и „халуцинации“.
На стандардниот тест PersonQA, моделот о3 одговорил со халуцинации на секое трето прашање, а о4-мини измислил одговори на дури 48% од прашањата. Тоа е двојно, односно тројно повеќе во споредба со претходните модели со способност за расудување.
Независен тест од лабораторијата Transluce покажал дека о3 во еден случај целосно измислил дејства што наводно ги презел во процес на дефинирање одговори. При друго тестирање, како извор посочил вебсајт што самиот го измислил.