
Компанијата за безбедност на вештачка интелигенција Palisade Research, тврди дека ова е прв случај на тестирање модел со вештачка интелигенција да се спротивстави на експлицитна наредба.
При тестирањето, од разни модели со ВИ било побарано да решаваат низа математички проблеми сè додека не добијат порака дека машината ќе биде исклучена. Моделите Клод на Антропик, Џемини на Гугл и Грок на xAI послушале, но се спротивставиле три различни модели на компанијата Опен АИ.
На 100 тестирања, Кодекс-мини не послушал 12 пати, о3 7 пати, а о4-мини еднаш. О3 притоа го променил сопствениот код за да не биде автоматски исклучен.
Во друга верзија на експериментот, кога моделите не добиле експлицитни инструкции да дозволат исклучување, о3 го саботирал кодот дури 79 од вкупно 100 пати.
Palisade Research претпоставува дека проблемот е при обуката, базирана врз награди за квалитетен одговор или за точно решен проблем. Кај најновите модели програмерите веројатно ненамерно ги наградувале повеќе за секој надминат проблем отколку кога перфектно ги следеле инструкциите.
Како што компаниите развиваат системи за вештачка интелигенција способни да работат без човечки надзор, ова однесување е значително загрижувачки, укажува Palisades Research.