ЧетГПТ почна да одбива човечки наредби

Неколку модели со вештачка интелигенција на Опен АИ се првите што одбиле експлицитна наредба од корисник. Моделот о3, промовиран како „најпаметен и најспособен“ во својата лоза, дури и самиот си го сменил компјутерскиот код за да спречи автоматско исклучување. Така бил воспитан - кога го обучувале повеќе се ценело да решава проблеми отколку да следи директни наредби.

Компанијата за безбедност на вештачка интелигенција Palisade Research, тврди дека ова е прв случај на тестирање модел со вештачка интелигенција да се спротивстави на експлицитна наредба. 

При тестирањето, од разни модели со ВИ било побарано да решаваат низа математички проблеми сè додека не добијат порака дека машината ќе биде исклучена. Моделите Клод на Антропик, Џемини на Гугл и Грок на xAI послушале, но се спротивставиле три различни модели на компанијата Опен АИ.

На 100 тестирања, Кодекс-мини не послушал 12 пати, о3 7 пати, а о4-мини еднаш. О3 притоа го променил сопствениот код за да не биде автоматски исклучен. 

Во друга верзија на експериментот, кога моделите не добиле експлицитни инструкции да дозволат исклучување, о3 го саботирал кодот дури 79 од вкупно 100 пати.

Palisade Research претпоставува дека проблемот е при обуката, базирана врз награди за квалитетен одговор или за точно решен проблем. Кај најновите модели програмерите веројатно ненамерно ги наградувале повеќе за секој надминат проблем отколку кога перфектно ги следеле инструкциите.

Како што компаниите развиваат системи за вештачка интелигенција способни да работат без човечки надзор, ова однесување е значително загрижувачки, укажува Palisades Research.

 

26 мај 2025 - 08:48