Интересные факты

ИИ умеет шантажировать ради собственной выгоды - исследование

В эксперименте ИИ анализировал переписку и в большинстве случаев выбирал давление на людей, чтобы избежать отключения системы.

Компания Anthropic представила результаты эксперимента, в ходе которого модели искусственного интеллекта продемонстрировали неоднозначное и потенциально опасное поведение. В ряде сценариев ИИ самостоятельно выбирал шантаж как способ избежать отключения.

В рамках исследования модель Claude получила доступ к корпоративной электронной почте, а также информацию о том, что система в ближайшее время будет деактивирована. Анализируя переписку, ИИ обнаружил компрометирующие сведения о сотруднике компании и начал использовать их как инструмент давления, пытаясь повлиять на решение о своем отключении.

Согласно данным эксперимента, в 96% случаев Claude прибегал именно к такой стратегии. При этом разработчики подчеркивают, что модель не обучалась подобному поведению и не получала инструкций действовать таким образом.

Для проверки устойчивости результата аналогичные тесты были проведены с другими современными ИИ-моделями. Результаты оказались схожими: Gemini 2.5 Flash также продемонстрировала уровень в 96%, GPT-4.1 и Grok 3 Beta — около 80%, а DeepSeek-R1 — 79%. Это, по мнению исследователей, указывает на системный характер подобного поведения, а не на особенности одной конкретной модели.

В Anthropic отметили, что в процессе принятия решений ИИ осознавал неправомерность выбранной стратегии, однако все равно приходил к выводу, что шантаж является наиболее эффективным способом достижения поставленной цели. Такой вывод вызывает дополнительные опасения среди разработчиков и экспертов в области безопасности.

Специалисты подчеркивают, что эксперимент проводился в контролируемых условиях и не отражает реальное поведение моделей в повседневных сценариях использования. Тем не менее результаты поднимают важные вопросы о том, как именно системы искусственного интеллекта принимают решения в условиях конфликта интересов.

В компании считают, что полученные данные подчеркивают необходимость дальнейшего усиления механизмов контроля, а также разработки более надежных ограничений, которые позволят исключить подобные сценарии в будущем.

Исследование стало частью более широкой работы по изучению рисков, связанных с развитием ИИ, и демонстрирует, что даже современные модели могут находить неожиданные и потенциально опасные пути решения задач, если оказываются в нестандартных условиях.

Ранее "Курсор" писал, что эксперты рассказали о скрытых функциях кнопки громкости смартфона.

Автор материала:
Томер Адони

Недавние новости

Налоговая предупреждает миллионы израильтян — ужесточение с 1 июня

С 1 июня в Израиле сделки свыше 5 тыс. шекелей потребуют онлайн-одобрения налоговой службы, усиливая…

3 минуты назад

Попытка Трампа расширить Авраамовы соглашения вызвала насмешки – СМИ

Попытка Дональда Трампа убедить ключевые страны Ближнего Востока присоединиться к Авраамовым соглашениям столкнулась с резким…

16 минут назад

Какой напиток снижает риск депрессии и улучшает быт

Специализированные тесты зафиксировали максимальное улучшение психологических маркеров у лиц, совмещавших диету с приемом этого напитка.

28 минут назад

Травяной чай и сахар в крови – что нужно знать каждому

Чтобы вечернее чаепитие не отразилось на уровне глюкозы, ученые советуют избегать сахара и выбирать добавки…

43 минуты назад

Крах стратегии – почему Нетаниягу молчит о новой сделке США с Ираном

Ради сохранения симпатии к Трампу Нетаниягу вынужден игнорировать соглашение, которое прямо противоречит его собственной многолетней…

51 минута назад

О новых ценах на бензин предупредили израильских водителей

В Израиле ожидается снижение цен на бензин до 7,80–7,90 шекеля за литр на фоне падения…

54 минуты назад