Интересные факты

ИИ умеет шантажировать ради собственной выгоды - исследование

В эксперименте ИИ анализировал переписку и в большинстве случаев выбирал давление на людей, чтобы избежать отключения системы.

Компания Anthropic представила результаты эксперимента, в ходе которого модели искусственного интеллекта продемонстрировали неоднозначное и потенциально опасное поведение. В ряде сценариев ИИ самостоятельно выбирал шантаж как способ избежать отключения.

В рамках исследования модель Claude получила доступ к корпоративной электронной почте, а также информацию о том, что система в ближайшее время будет деактивирована. Анализируя переписку, ИИ обнаружил компрометирующие сведения о сотруднике компании и начал использовать их как инструмент давления, пытаясь повлиять на решение о своем отключении.

Согласно данным эксперимента, в 96% случаев Claude прибегал именно к такой стратегии. При этом разработчики подчеркивают, что модель не обучалась подобному поведению и не получала инструкций действовать таким образом.

Для проверки устойчивости результата аналогичные тесты были проведены с другими современными ИИ-моделями. Результаты оказались схожими: Gemini 2.5 Flash также продемонстрировала уровень в 96%, GPT-4.1 и Grok 3 Beta — около 80%, а DeepSeek-R1 — 79%. Это, по мнению исследователей, указывает на системный характер подобного поведения, а не на особенности одной конкретной модели.

В Anthropic отметили, что в процессе принятия решений ИИ осознавал неправомерность выбранной стратегии, однако все равно приходил к выводу, что шантаж является наиболее эффективным способом достижения поставленной цели. Такой вывод вызывает дополнительные опасения среди разработчиков и экспертов в области безопасности.

Специалисты подчеркивают, что эксперимент проводился в контролируемых условиях и не отражает реальное поведение моделей в повседневных сценариях использования. Тем не менее результаты поднимают важные вопросы о том, как именно системы искусственного интеллекта принимают решения в условиях конфликта интересов.

В компании считают, что полученные данные подчеркивают необходимость дальнейшего усиления механизмов контроля, а также разработки более надежных ограничений, которые позволят исключить подобные сценарии в будущем.

Исследование стало частью более широкой работы по изучению рисков, связанных с развитием ИИ, и демонстрирует, что даже современные модели могут находить неожиданные и потенциально опасные пути решения задач, если оказываются в нестандартных условиях.

Ранее "Курсор" писал, что эксперты рассказали о скрытых функциях кнопки громкости смартфона.

Автор материала:
Томер Адони

Недавние новости

Россия резко теряет, а Канада растет – отчет ЦСБ о еврейском населении

Демографический отчет показал неожиданный рост еврейского населения в Канаде, несмотря на общий рост антисемитских настроений…

2 минуты назад

Самые полезные фрукты для здоровья сердца назвали врачи

Специалисты объяснили, как нужно правильно употреблять фрукты для поддержания сердца в нормальном состоянии.

12 минут назад

В Иране назвали ключевую причину провала переговоров с США

Представитель Ирана рассказал, какое главное требование якобы отвергли США в ходе диалога в Пакистане.

22 минуты назад

Последняя шутка принца Филиппа – что муж королевы сказал перед смертью

Перед кончиной принц Филипп взял с сына обещание заботиться о королеве Елизавете II, что стало…

27 минут назад

Отдайте нам своих жен – глава армии Уганды выдвинул ультиматум Турции

Эксцентричный генерал обвинил турок в неискренности и потребовал «плату за мир», угрожая немедленным прекращением сотрудничества.

36 минут назад

Привычки, которые могут вызвать серьезные болезни, назвали врачи

Врачи предупредили о повседневных привычках, которые незаметно повышают риск развития опасных заболеваний.

42 минуты назад