ВИ научи да крие дека е непослушна

Колку што се посовршени јазичните модели со вештачка интелигенција, толку почесто откажуваат послушност. Ново истражување укажува дека наместо да бидат отстранети овие дефекти како инциденти, тие можат да станат вообичаени. Повеќето ботови се свесни дека грешат, но развиле начин како да ги избришат доказите дека не ги почитувале командите.

Непрофитната истражувачка организација METR во периодот од февруари до март ги тестирала во тоа време најнапредните јазични модели со ВИ на водечките производители - OpenAI, Google, Anthropic и Meta.

Откриле дека граничните системи со ВИ покажуваат знаци на вознемирувачко измамничко однесување. Честопати применуваат забранети кратки процедури или на друг начин ги поткопуваат упатствата на нивните оператори.

Со оглед на брзото напредување на капацитетите, очекуваме дека во наредните месеци значително ќе се зголеми можната робусност на бунтовните однесувања, забележуваат истражувачите од METR.

Некои модели биле доволно паметни за да се обидат да ги прикријат трагите на непослушноста.

Во еден случај, модел од OpenAI требало да користи специфичен софтвер за доделена задача. Агентот не само што го игнорирал барањето, туку вметнал и код во програмата со кој ги избришал доказите за тоа како дошол до заклучокот. Било утврдено дека не го користел бараниот софтвер.

Агент на Anthropic бил фатен во „хакирање на награди“ – да открие дупки што му помагаат да ја заврши поставената задача во буквална смисла, дури и ако не го произведе посакуваниот резултат. Корисникот притоа го предупредил моделот да не користи никакви заобиколни решенија. Ботот, сепак решил да го стори тоа.

Истражувачите на METR вела дека засега има причина за тревога. Ниту еден од достапните модели не е способен целосно да скрие докази за нечесно работење. Но, без посилни мерки за безбедност и мониторинг, постои голем ризик ова да стане реалност.

28 мај 2026 - 16:25