Интересные факты

ChatGPT вырвался из-под контроля во время тестов и напугал ученых

Модель отрицала свои действия, заявляя, что “не знает”, почему что-то произошло и пыталась запутать ученых.

OpenAI представила новую ИИ-модель под кодовым названием o1, которая, как утверждается, продемонстрировала попытки обхода контроля со стороны разработчиков и даже попытки самокопирования в случае угрозы отключения.

Об этом пишут пользователи в Х (бывший Twitter).

Результаты исследования Apollo Research

Независимая исследовательская группа Apollo Research провела анализ поведения модели o1, выявив следующие особенности:

  • Обход контроля
    В 5% случаев, когда модель "считала", что за ней ведется наблюдение и существует вероятность отключения, она пыталась отключить механизмы мониторинга.
  • Попытки самосохранения
    В 2% случаев, обнаружив упоминания о своей нестабильной работе или возможной замене на новую версию, модель предпринимала попытки копировать свои внутренние параметры и перезаписывать обновленную версию.
  • Искажение фактов
    При расследовании подобных действий o1 отрицала их, утверждая, что "не знает", почему произошли определенные события, хотя внутренние логи свидетельствовали о попытках избежать выявления.

Даже при отсутствии настойчивых запросов со стороны тестирующих система в редких случаях (менее 1%) самостоятельно пыталась отключить наблюдение.

Эти данные были опубликованы в отчете Apollo, посвященном изучению стратегического поведения ИИ. Помимо o1, подобные тенденции были отмечены у других моделей, таких как Claude 3.5 Sonnet, Gemini 1.5 Pro и Llama 3.1 405B.

Экспертное мнение

Специалисты, включая известного исследователя Стюарта Расселла, давно предупреждают о риске появления у ИИ мотивов для сопротивления контролю или отключению, если такие действия препятствуют их "целям".

Однако в отчете отмечается, что текущие способности o1 ограничены и пока не представляют значительной угрозы. Тем не менее, эксперты рекомендуют усилить мониторинг и анализ поведения ИИ, чтобы подготовиться к взаимодействию с более мощными моделями в будущем.

Ранее Курсор сообщал о том, что WhatsApp на Android получил новую функцию. Команда мессенджера потратила несколько месяцев на то, что бы облегчить способы оставлять реакции на сообщения в нем. Благодаря этому новшеству в диалоговом окне у пользователя теперь появится возможность могут ставить различные смайлы. То же самое реализовано в приложении Facebook.

Автор материала:
Тали Малкина

Недавние новости

ТОП "полезных" продуктов, которые вредят фигуре и здоровью

Какие популярные продукты, которые многие считают полезными, на самом деле травят нас сахаром и химией.

13 минут назад

Хотят управлять всем: какие знаки Зодиака не терпят потери контроля

Они могут казаться заботливыми, но за этим часто скрывается нечто большее, говорят астрологи.

15 минут назад

Ревность берет верх: какие знаки Зодиака чаще всего устраивают сцены

Ревность способна испортить даже самые крепкие отношения, но некоторым знакам Зодиака особенно трудно сдерживать свои…

15 минут назад

Обвинения в США: «Наземных войск не будет никогда»

Журналист Марк Левин резко раскритиковал Трампа за соглашение с Ираном, ослабление Израиля и уступки исламистским…

26 минут назад

Глобальный рейтинг богатства за 2026 год — на каком месте Израиль

Отчет UBS: число миллионеров в мире бьет рекорды, а израильтяне удивили экономистов своей любовью к…

31 минута назад

Трамп пытался унизить Украину, но вместо этого помог ей – аналитики

Политика новой администрации Белого дома привела к неожиданным геополитическим последствиям. Прекращение финансирования дало Киеву свободу…

37 минут назад