Модель отрицала свои действия, заявляя, что “не знает”, почему что-то произошло и пыталась запутать ученых.
OpenAI представила новую ИИ-модель под кодовым названием o1, которая, как утверждается, продемонстрировала попытки обхода контроля со стороны разработчиков и даже попытки самокопирования в случае угрозы отключения.
Об этом пишут пользователи в Х (бывший Twitter).
Независимая исследовательская группа Apollo Research провела анализ поведения модели o1, выявив следующие особенности:
Даже при отсутствии настойчивых запросов со стороны тестирующих система в редких случаях (менее 1%) самостоятельно пыталась отключить наблюдение.
Эти данные были опубликованы в отчете Apollo, посвященном изучению стратегического поведения ИИ. Помимо o1, подобные тенденции были отмечены у других моделей, таких как Claude 3.5 Sonnet, Gemini 1.5 Pro и Llama 3.1 405B.
Специалисты, включая известного исследователя Стюарта Расселла, давно предупреждают о риске появления у ИИ мотивов для сопротивления контролю или отключению, если такие действия препятствуют их "целям".
Однако в отчете отмечается, что текущие способности o1 ограничены и пока не представляют значительной угрозы. Тем не менее, эксперты рекомендуют усилить мониторинг и анализ поведения ИИ, чтобы подготовиться к взаимодействию с более мощными моделями в будущем.
Ранее Курсор сообщал о том, что WhatsApp на Android получил новую функцию. Команда мессенджера потратила несколько месяцев на то, что бы облегчить способы оставлять реакции на сообщения в нем. Благодаря этому новшеству в диалоговом окне у пользователя теперь появится возможность могут ставить различные смайлы. То же самое реализовано в приложении Facebook.
Ученые изучили поведение сотен пар и пришли к неожиданным выводам о роли лжи в отношениях.
Переезд ради семейного благополучия обернулся для европейской гражданки полной потерей свободы. Муж полностью изолировал жертву…
Мощное чистящее средство продавали без защиты от детей. Оно может вызвать сильные ожоги, поэтому его…
Терминал 1 возобновляет международные рейсы перед пиковым летним сезоном, что поможет разгрузить Терминал 3 и…
Подземные толчки в Южной Америке заставили сейсмологов пересмотреть исторические архивы. Ученые выделили самые опасные зоны…
Популярный европейский курорт столкнулся с ростом социальной напряженности в транспортных хабах. Прибывающие пассажиры оказываются в…