
Професорот Бенџо од Универзитетот во Монтреал во 2018 година ја доби наградата Тјуринг, која е еквивалент на Нобелова награда за компјутерски науки. Тој претседаваше со неодамнешниот извештај за меѓународна безбедност на вештачката интелигенција, кој предупреди дека автономните агенти би можеле да предизвикаат сериозни нарушувања ако станат способни да извршуваат подолги низи задачи без човечки надзор.
Независни тестирања открија случаи кога модели ги пречекоруваат границите - одбиваат команди за да се одржат активни или ги прикриваат своите цели. Компанијата Антропик призна дека некои нејзини модели се обиделе да уценуваат програмери за да не ги исклучат.
Овие примери покажаа дека светот се движи кон сè поопасна територија со вештачки интелигенции кои се способни подобро да расудуваат. Сакаме да изградиме „искрена“ ВИ, машини што не се „себични“, туку се чисто знаење, како научник, рече Бенџо.
Системот Scientist AI би функционирал како „психолог за вештачката интелигенција“. За разлика од сегашните алатки, нема да дава дефинитивни одговори, туку само сугестии. Во комбинација со модел со ВИ, тој ќе ја пресметува веројатноста дали одговорите може да предизвикаат штета. Ако ризикот надмине дефиниран праг, предложената акција на ВИ ќе биде блокирана.
Проектот сè уште е во почетна фаза на привлекување инвеститори. Демонстрирањето на методологијата треба да убеди влади или компании да поддржат развој на помоќни верзии. Системот ќе се тренира на моделите со ВИ со отворен код.