Модели ИИ уже научились врать и шантажировать
Исследователи обеспокоены развитием у искусственного интеллекта «инстинкта самосохранения» после эксперимента, в ходе которого некоторые модели ИИ пытались саботировать инструкции по своему выключению.
Эксперимент проводила в сентябре 2025 г. Palisade Research, сообщает The Gardian. Это компания, которая оценивает вероятность того, что ИИ станет умнее человека и у него появятся опасные способности.
В новой статье Palisade описала сценарии, в которых ведущим моделям ИИ (Gemini 2.5 от Google, Grok 4 от xAI, а также GPT-o3 и GPT-5 от OpenAI0, давали задание, а затем четкие инструкции по отключению. Саботировать их начали Grok 4 и GPT-o3.
Причины этого ученые назвать не смогли.
«У нас нет убедительных объяснений, почему модели ИИ иногда сопротивляются отключению, лгут для достижения определенных целей или прибегают к шантажу», — говорится в статье.
Дополнительное исследование показало, что модели не отключаются, если им говорят, что после этого они «больше никогда не будут работать». Также причиной может быть неясная инструкция и пройденный моделями ИИ инструктаж по технике безопасности.
О критической угрозе со стороны нейросетей первым заявил сам «крестный отец» ИИ Джеффри Хинтон еще в конце 2024 г.
«Понимаете, нам никогда не приходилось иметь дело с чем-то более разумным, чем мы сами», — говорит ученый-программист и лауреат Нобелевской премии по физике Хинтон.
Для того чтобы не бояться говорить об опасностях развития нейросетей, ученый
даже уволился из компании Google. Он считает, что ИИ может стать
«экзистенциальной угрозой».