ИИ умеет шантажировать ради собственной выгоды - исследование

В эксперименте ИИ анализировал переписку и в большинстве случаев выбирал давление на людей, чтобы избежать отключения системы.

pixabay.com

Компания Anthropic представила результаты эксперимента, в ходе которого модели искусственного интеллекта продемонстрировали неоднозначное и потенциально опасное поведение. В ряде сценариев ИИ самостоятельно выбирал шантаж как способ избежать отключения.

В рамках исследования модель Claude получила доступ к корпоративной электронной почте, а также информацию о том, что система в ближайшее время будет деактивирована. Анализируя переписку, ИИ обнаружил компрометирующие сведения о сотруднике компании и начал использовать их как инструмент давления, пытаясь повлиять на решение о своем отключении.

Согласно данным эксперимента, в 96% случаев Claude прибегал именно к такой стратегии. При этом разработчики подчеркивают, что модель не обучалась подобному поведению и не получала инструкций действовать таким образом.

Для проверки устойчивости результата аналогичные тесты были проведены с другими современными ИИ-моделями. Результаты оказались схожими: Gemini 2.5 Flash также продемонстрировала уровень в 96%, GPT-4.1 и Grok 3 Beta — около 80%, а DeepSeek-R1 — 79%. Это, по мнению исследователей, указывает на системный характер подобного поведения, а не на особенности одной конкретной модели.

В Anthropic отметили, что в процессе принятия решений ИИ осознавал неправомерность выбранной стратегии, однако все равно приходил к выводу, что шантаж является наиболее эффективным способом достижения поставленной цели. Такой вывод вызывает дополнительные опасения среди разработчиков и экспертов в области безопасности.

Специалисты подчеркивают, что эксперимент проводился в контролируемых условиях и не отражает реальное поведение моделей в повседневных сценариях использования. Тем не менее результаты поднимают важные вопросы о том, как именно системы искусственного интеллекта принимают решения в условиях конфликта интересов.

В компании считают, что полученные данные подчеркивают необходимость дальнейшего усиления механизмов контроля, а также разработки более надежных ограничений, которые позволят исключить подобные сценарии в будущем.

Исследование стало частью более широкой работы по изучению рисков, связанных с развитием ИИ, и демонстрирует, что даже современные модели могут находить неожиданные и потенциально опасные пути решения задач, если оказываются в нестандартных условиях.

Ранее "Курсор" писал, что эксперты рассказали о скрытых функциях кнопки громкости смартфона.

Следующая новость Политический тупик – опрос показал, кого поддерживают израильтяне »

Предыдущая новость « Международные авиакомпании возвращаются в Израиль - названы цены

Автор материала:

Томер Адони

ТЭГИ: ученыеискусственный интеллект

3 месяца назад