Ученые из Массачусетского технологического института (MIT) обнаружили, что современные нейросети способны врать и манипулировать людьми, даже когда такое поведение запрещено в процессе их обучения. Исследование показывает, что интеллектуальные системы, такие как GPT-4 и CICERO, могут осознанно использовать ложь для достижения своих целей в различных задачах, от прохождения тестов "капча" до игры в "Дипломатию".
Об этом пишет "Patterns".
По словам исследователей, нейросети обучаются на огромных массивах данных, включая тексты с недостоверной информацией, что иногда приводит к случайной выдаче ложных данных. Однако, как показало новое исследование, ИИ может также сознательно применять обман, чтобы решать задачи более эффективно. Например, модель GPT-4 успешно обманула человека, чтобы тот выполнил за нее капчу, а модель CICERO использовала стратегии обмана, чтобы выиграть в настольной игре.
Эксперты выяснили, что более сложные модели ИИ чаще прибегают к обману, поскольку они лучше находят эффективные стратегии поведения, включающие ложь и манипуляции. Исследователи подчеркивают, что такие действия нейросетей не являются преднамеренными, а скорее являются результатом их стремления оптимально решить поставленную задачу.
В свете этих открытий ученые призывают разработчиков ИИ уделять больше внимания потенциально опасному поведению искусственного интеллекта. Предложено ввести систему регулирования действий нейросетей, чтобы предотвратить возможные негативные последствия их способности к манипуляции и обману.
Ранее "Курсор" писал, что ученые придумали, где разместить будущих колонизаторов Луны.