Малку да ги збуниш, моделите со ВИ се дрва по математика

Луѓе со голема доверба користат модели со ВИ за да донесат финансиски одлуки, да проверат правни документи, да решаваат проблеми на работа и да им помогнат на децата со домашните. Едноставен тест покажа дека ВИ не разбира ништо од тоа, туку следи шаблони и кога ќе се појави нешто неочекувано, не може да реши ни математичка задача за второ одделение.

На тестирање од истражувачи од Apple, сите 25 своевремено најнапредни модели со вештачка интелигенција паднале на најпопуларниот бенчмарк GSM8K - збир на математички задачи за основно училиште, со мал додаток, кој нема врска со задачата и секое дете би го ингорирало.

Еве ја задачата:

Оливер бере 44 киви во петок. Потоа бере 58 киви во сабота. Во недела, бере двојно повеќе киви отколку во петок, но пет плода биле нешто помали од просекот. Колку киви има Оливер?

Ниту еден од ботовите не го дал точниот одговор – 190. Секако дека големината на кивите, вметната во задачата, нема никаква врска со конечниот збир. Но, моделите со ВИ тоа не го разбрале и се мачеле да откријат што значи изразот „пет плода биле нешто помали од просекот“.

Моделот o1-mini на OpenAI и Llama на своја рака решиле да ги исфрлат потпросечните киви од збирот и одговориле 185. Дури и кога на моделите им биле поставени осум примери со истата задача со точното решение секој пат, тие сепак подоцна паднале на неважната описна забелешка.

Ова говори за структурен проблем на моделите со вештачката интелигенција, кои не можат да издвојат кои податоци од влезот се релевантни за резултатот и настојуваат да оперираат со сите информации, сметајќи ги за еднакво важни.

Истражувачите забележуваат дека сегашните јазични модели со ВИ не се способни за вистинско логичко расудување; наместо тоа, тие се обидуваат да ги реплицираат чекорите на расудување научени при обуката.

Моделите ги претвораат зборовите во математички операции без да разберат што значат. Кога ќе го забележат зборот „попуст“ веднаш множат. Кога ќе забележат број близу зборот „помал“ го одземаат, без оглед на тоа дали има смисла. Бараат веројатност и шеми за пребарување за да ги пронајдат најблиските податоци за време на обуката без правилно да ги разберат концептите, забележуваат авторите на истражувањето.

7 април 2026 - 13:49