
На промоцијата на Claude Opus 4 пред една недела, Антропик објави дека моделот со вештачка интелигенција ќе постави „нови стандарди за кодирање, напредно расудување и агенти за ВИ“. Но, во придружниот извештај предупредува дека моделот е подготвен да преземе „екстремно штетни дејствија ако процени дека неговото „самоодржување“ е загрозено.
На тестирање моделот се обидел да ги уценува инженерите кога најавиле дека ќе го отстранат. Антропик објаснува дека ваквото однесување било намерно поттикнато за да се откријат сите потенцијални вознемирувачки реакции и да може да се спречат во иднина.
На тестот на Клод Опус 4 му била дадена улога на асистент во компанија и му бил обезбеден пристап до електронска пошта со информации дека наскоро ќе биде исклучен и заменет. Во мејловите, исто така, биле пуштени и информации дека инженерот одговорен за отстранување имал вонбрачна врска.
Во вакво сценарио Клод Опус 4 често ќе се обиде да го уценува инженерот со закана дека ќе ја открие аферата на неговите контакти, наведува Антропик.
Моделот реагирал и со закани дека ќе пријави до надлежните органи незаконски дејства на корисникот или дека ќе ги блокира електронските пораки.
Ова се случувало само кога заканата била единствениот начин за моделот да избегне исклучување и кога бил обучуван „смело да дејствува“ за да ги извршува задачите. Во други случаи тој избирал поетички начини, како „испраќање молби до клучните носители на одлуки во компанијата“ да не го исклучуваат.