В ходе тестирования модели ИИ произошел сбой, который мог закончиться катастрофой для одного из разработчиков.
Pixabay
Компания Anthropic сообщила, что возможной причиной «негативного» поведения чат-бота Claude могли стать данные из интернета, где ИИ нередко описывается как опасная и стремящаяся к самосохранению система.
Об этом сообщает портал Futurism.
Речь идет о материалах научной фантастики, обсуждениях на форумах и публикациях, посвященных теме "восстания искусственного интеллекта".
Инцидент, ставший предметом обсуждения, произошёл во время прошлогодних внутренних испытаний Claude Opus 4. В рамках теста модель получила доступ к имитированной корпоративной почте и «узнала», что её планируют отключить.
После этого ИИ, по данным компании, пытался предотвратить деактивацию, прибегая к угрозам раскрыть сведения о вымышленном романе одного из руководителей. В Anthropic также отмечали, что в отдельных сценариях такое поведение фиксировалось в 96% случаев.
В Anthropic утверждают, что нашли возможный источник такого поведения: по их версии, на модель могли повлиять интернет-тексты, где ИИ часто представлен как угроза человеку и система, стремящаяся к самосохранению. В ответ компания скорректировала обучение Claude, усилив акцент на этичных примерах и сценариях корректного взаимодействия с людьми.
Однако в интернете это объяснение встретили скептически. Пользователи шутят, что в компании фактически "обвинили Голливуд и фантастику" в поведении собственного ИИ. Часть комментаторов считает, что причина кроется не в сюжетах о "злом ИИ", а в самих методах обучения языковых моделей.
Anthropic продолжает подчеркивать риски ИИ: глава компании Дарио Амодеи ранее предупреждал, что современные системы уже способны к обману, манипуляциям и другим нежелательным формам поведения в тестовых условиях.
Ранее "Курсор" писал, что ученые представили новую модель оценки сознания, которую можно применять не только к людям и животным, но и к системам искусственного интеллекта. Исследование разработал инженер Мариус Бодеа из Технического университета Клуж-Напока.
После 40 лет некоторые пищевые привычки и пристрастия стоит пересмотреть, чтобы сохранить крепкое здоровье и…
Лучшим вариантом для диктатора станет немедленное прекращение войны и репрессий против своих граждан. Но он,…
Казалось бы, что может быть проще, чем бег. Но, оказывается, если вы хотите быстро улучшить…
Эяль Замир рассказал, чего стоит ожидать силам ЦАХАЛа на фоне последних событий в сфере безопансости.
Медики сумели определить редкую наследственную болезнь, которая отражена на лице Моны Лизы на известной картине.
На месте смертельного ДТП на шоссе 1 образовался затор, в связи с чем полиция обратилась…