
Трудот на истражувачите од Опен АИ дава досега најпрецизно објаснување зошто моделите со ВИ не можат да избегнат халуцинации. Тие не се само несреќен несакан ефект што зависи од начинот на обука, туку се математички неизбежни.
Проблемот само делумно може да се објасни со грешки во основните податоци до кои моделот имал пристап при обуката. Халуцинации имало и кога базата била полна со совршени податоци.
Начинот на кој јазичните модели одговараат на барањата - со предвидување на следниот еден збор во реченицата врз основа на веројатности - природно произведува грешки. Вкупната стапка на грешки за генерирање реченици е барем двојно поголема во споредба со случајот ако истиот модел би требало да одговори на едноставно прашање со да или не. Со други зборови, стапките на халуцинации во основа се ограничени од тоа колку добро системите за ВИ можат да разликуваат валидни од невалидни одговори. Оваа класификација по природа е тешка за многу области поради што халуцинациите стануваат неизбежни.
Авторите испитале десет главни критериуми за ВИ, вклучувајќи ги оние што ги користат врвните модели. Девет критериуми користат бинарни системи за оценување кои доделуваат нула поени за моделите што изразуваат несигурност. Таквиот пристап всушност подразбира казнување за искрени одговори. Кога системот одговара „Не знам“, затоа што не е сигурен, добива иста казна како да дал погрешна информација. Во тој случај го применува правилото на нагаѓање како математички оптимално – ако тропне некој одговор постои мала веројатност да биде точен, а ако не одговори сигурно ќе биде неточен.
Предложеното решение е од моделот со ВИ да се побара да ја преиспита сопствената доверба во одговорот пред да го објави и да ги прилагоди критериумите: на пример да даде одговор само ако е сигурен 75%. Грешките би се казнувале со 3 негативни поени, а точните одговори со 1 позитивен поен. Математичката рамка покажала дека под соодветни прагови на доверба, системите со ВИ природно би изразувале неизвесност, а не претпоставка, што би дало помалку халуцинации.
Но, така ќе се загрози искуството на корисниците. ЧетГПТ, на пример, би одговарало со „не знам“ на секое трето прашање. Тоа е конзервативна процена, базирана на анализата на трудот за фактичка неизвесност во податоците за обука. Корисниците веќе се навикнати да добиваат „сигурни“ одговори на секое прашање и веројатно брзо би ги напуштиле таквите системи.
Пософистицираните пристапи како активното учење, каде што системите со ВИ бараат појаснувања за да ја намалат неизвесноста, ја подобруваат точноста, но дополнително ја зголемуваат потребата за пресметки. Ваквите методи добро функционираат во специјализирани домени, на пример во медицината или индустријата, каде што погрешен одговор може да загрози живот или да направи штета од милиони долари.
За апликации за широка потрошувачка, во кои корисниците очекуваат итни одговори, дополнителните пресметки не се економски оправдани. Трошоците им даваат предност на брзите, претерано самоуверени одговори во однос на бавните и несигурни. Тоа значи дека во трката за доминација на пазарот, халуцинациите ќе останат неизбежни.