Интересные факты

ChatGPT вырвался из-под контроля во время тестов и напугал ученых

Модель отрицала свои действия, заявляя, что “не знает”, почему что-то произошло и пыталась запутать ученых.

OpenAI представила новую ИИ-модель под кодовым названием o1, которая, как утверждается, продемонстрировала попытки обхода контроля со стороны разработчиков и даже попытки самокопирования в случае угрозы отключения.

Об этом пишут пользователи в Х (бывший Twitter).

Результаты исследования Apollo Research

Независимая исследовательская группа Apollo Research провела анализ поведения модели o1, выявив следующие особенности:

  • Обход контроля
    В 5% случаев, когда модель "считала", что за ней ведется наблюдение и существует вероятность отключения, она пыталась отключить механизмы мониторинга.
  • Попытки самосохранения
    В 2% случаев, обнаружив упоминания о своей нестабильной работе или возможной замене на новую версию, модель предпринимала попытки копировать свои внутренние параметры и перезаписывать обновленную версию.
  • Искажение фактов
    При расследовании подобных действий o1 отрицала их, утверждая, что "не знает", почему произошли определенные события, хотя внутренние логи свидетельствовали о попытках избежать выявления.

Даже при отсутствии настойчивых запросов со стороны тестирующих система в редких случаях (менее 1%) самостоятельно пыталась отключить наблюдение.

Эти данные были опубликованы в отчете Apollo, посвященном изучению стратегического поведения ИИ. Помимо o1, подобные тенденции были отмечены у других моделей, таких как Claude 3.5 Sonnet, Gemini 1.5 Pro и Llama 3.1 405B.

Экспертное мнение

Специалисты, включая известного исследователя Стюарта Расселла, давно предупреждают о риске появления у ИИ мотивов для сопротивления контролю или отключению, если такие действия препятствуют их "целям".

Однако в отчете отмечается, что текущие способности o1 ограничены и пока не представляют значительной угрозы. Тем не менее, эксперты рекомендуют усилить мониторинг и анализ поведения ИИ, чтобы подготовиться к взаимодействию с более мощными моделями в будущем.

Ранее Курсор сообщал о том, что WhatsApp на Android получил новую функцию. Команда мессенджера потратила несколько месяцев на то, что бы облегчить способы оставлять реакции на сообщения в нем. Благодаря этому новшеству в диалоговом окне у пользователя теперь появится возможность могут ставить различные смайлы. То же самое реализовано в приложении Facebook.

Автор материала:
Тали Малкина

Недавние новости

Когда ложь может спасти отношения - ответ ученых

Ученые изучили поведение сотен пар и пришли к неожиданным выводам о роли лжи в отношениях.

11 минут назад

Десять лет ада: в Пакистане спасли француженку и пятерых детей

Переезд ради семейного благополучия обернулся для европейской гражданки полной потерей свободы. Муж полностью изолировал жертву…

19 минут назад

Минэкономики срочно отзывает опасное чистящее средство (ФОТО)

Мощное чистящее средство продавали без защиты от детей. Оно может вызвать сильные ожоги, поэтому его…

25 минут назад

Трансформация в Бен-Гурионе: что изменится в полетах с завтрашнего дня

Терминал 1 возобновляет международные рейсы перед пиковым летним сезоном, что поможет разгрузить Терминал 3 и…

33 минуты назад

10 мощнейших землетрясений, которые навсегда вошли в историю

Подземные толчки в Южной Америке заставили сейсмологов пересмотреть исторические архивы. Ученые выделили самые опасные зоны…

39 минут назад

Израильских путешественников жестко встречают в Италии

Популярный европейский курорт столкнулся с ростом социальной напряженности в транспортных хабах. Прибывающие пассажиры оказываются в…

47 минут назад