В ходе тестирования модели ИИ произошел сбой, который мог закончиться катастрофой для одного из разработчиков.
Pixabay
Компания Anthropic сообщила, что возможной причиной «негативного» поведения чат-бота Claude могли стать данные из интернета, где ИИ нередко описывается как опасная и стремящаяся к самосохранению система.
Об этом сообщает портал Futurism.
Речь идет о материалах научной фантастики, обсуждениях на форумах и публикациях, посвященных теме "восстания искусственного интеллекта".
Инцидент, ставший предметом обсуждения, произошёл во время прошлогодних внутренних испытаний Claude Opus 4. В рамках теста модель получила доступ к имитированной корпоративной почте и «узнала», что её планируют отключить.
После этого ИИ, по данным компании, пытался предотвратить деактивацию, прибегая к угрозам раскрыть сведения о вымышленном романе одного из руководителей. В Anthropic также отмечали, что в отдельных сценариях такое поведение фиксировалось в 96% случаев.
В Anthropic утверждают, что нашли возможный источник такого поведения: по их версии, на модель могли повлиять интернет-тексты, где ИИ часто представлен как угроза человеку и система, стремящаяся к самосохранению. В ответ компания скорректировала обучение Claude, усилив акцент на этичных примерах и сценариях корректного взаимодействия с людьми.
Однако в интернете это объяснение встретили скептически. Пользователи шутят, что в компании фактически "обвинили Голливуд и фантастику" в поведении собственного ИИ. Часть комментаторов считает, что причина кроется не в сюжетах о "злом ИИ", а в самих методах обучения языковых моделей.
Anthropic продолжает подчеркивать риски ИИ: глава компании Дарио Амодеи ранее предупреждал, что современные системы уже способны к обману, манипуляциям и другим нежелательным формам поведения в тестовых условиях.
Ранее "Курсор" писал, что ученые представили новую модель оценки сознания, которую можно применять не только к людям и животным, но и к системам искусственного интеллекта. Исследование разработал инженер Мариус Бодеа из Технического университета Клуж-Напока.
Какие популярные продукты, которые многие считают полезными, на самом деле травят нас сахаром и химией.
Они могут казаться заботливыми, но за этим часто скрывается нечто большее, говорят астрологи.
Ревность способна испортить даже самые крепкие отношения, но некоторым знакам Зодиака особенно трудно сдерживать свои…
Журналист Марк Левин резко раскритиковал Трампа за соглашение с Ираном, ослабление Израиля и уступки исламистским…
Отчет UBS: число миллионеров в мире бьет рекорды, а израильтяне удивили экономистов своей любовью к…
Политика новой администрации Белого дома привела к неожиданным геополитическим последствиям. Прекращение финансирования дало Киеву свободу…