Самые современные модели ИИ демонстрируют тревожное поведение.
Аналитики и специалисты бьют тревогу – искусственный интеллект (ИИ) научился шантажировать, врать, плести интриги и даже угрожать своим разработчикам. Уже есть жуткие примеры тревожного поведения моделей ИИ.
Например, под угрозой отключения от сети оказалось последнее творение Anthropic Claude 4, которое ответило шантажом и угрозами раскрыть внебрачную связь инженеру. Тем временем o1 от OpenAI (создателя ChatGPT) попытался загрузить себя на внешние серверы и отрицал это, когда его поймали с поличным. Также пользователи ИИ неоднократно рассказывали о лжи и манипуляциях со стороны моделей.
Эти эпизоды показывают тревожную реальность: даже спустя два года после того, как ChatGPT всколыхнул мир, исследователи ИИ все еще не до конца понимают, как работают их собственные творения. Исследователи говорят, что такое поведение моделей ИИ указывает на то, что появилось поколение моделей «мыслителей» – это системы искусственного интеллекта, которые решают проблемы шаг за шагом, а не генерируют мгновенные ответы.
Сейчас исследователи изучают различные подходы к решению проблем с ИИ. Некоторые из них уверены, что к подобным спорным моментам надо привлекать судей, которые будут привлекать к ответственности разработчиков.