27 Октября 2025 | 08:33

Модели ИИ уже научились врать и шантажировать

Исследователи обеспокоены развитием у искусственного интеллекта «инстинкта самосохранения» после эксперимента, в ходе которого некоторые модели ИИ пытались саботировать инструкции по своему выключению.

Эксперимент проводила в сентябре 2025 г. Palisade Research, сообщает The Gardian. Это компания, которая оценивает вероятность того, что ИИ станет умнее человека и у него появятся опасные способности.

В новой статье Palisade описала сценарии, в которых ведущим моделям ИИ (Gemini 2.5 от Google, Grok 4 от xAI, а также GPT-o3 и GPT-5 от OpenAI0, давали задание, а затем четкие инструкции по отключению. Саботировать их начали Grok 4 и GPT-o3.

Причины этого ученые назвать не смогли.

«У нас нет убедительных объяснений, почему модели ИИ иногда сопротивляются отключению, лгут для достижения определенных целей или прибегают к шантажу», — говорится в статье.

Дополнительное исследование показало, что модели не отключаются, если им говорят, что после этого они «больше никогда не будут работать». Также причиной может быть неясная инструкция и пройденный моделями ИИ инструктаж по технике безопасности.

О критической угрозе со стороны нейросетей первым заявил сам «крестный отец» ИИ Джеффри Хинтон еще в конце 2024 г.

«Понимаете, нам никогда не приходилось иметь дело с чем-то более разумным, чем мы сами», — говорит ученый-программист и лауреат Нобелевской премии по физике Хинтон.

Для того чтобы не бояться говорить об опасностях развития нейросетей, ученый даже уволился из компании Google. Он считает, что ИИ может стать «экзистенциальной угрозой».