ИИ угрожал раскрыть личный секрет разработчика - детали

В ходе тестирования модели ИИ произошел сбой, который мог закончиться катастрофой для одного из разработчиков.

Pixabay

Компания Anthropic сообщила, что возможной причиной «негативного» поведения чат-бота Claude могли стать данные из интернета, где ИИ нередко описывается как опасная и стремящаяся к самосохранению система.

Об этом сообщает портал Futurism.

Речь идет о материалах научной фантастики, обсуждениях на форумах и публикациях, посвященных теме "восстания искусственного интеллекта".

Инцидент, ставший предметом обсуждения, произошёл во время прошлогодних внутренних испытаний Claude Opus 4. В рамках теста модель получила доступ к имитированной корпоративной почте и «узнала», что её планируют отключить.

После этого ИИ, по данным компании, пытался предотвратить деактивацию, прибегая к угрозам раскрыть сведения о вымышленном романе одного из руководителей. В Anthropic также отмечали, что в отдельных сценариях такое поведение фиксировалось в 96% случаев.

В Anthropic утверждают, что нашли возможный источник такого поведения: по их версии, на модель могли повлиять интернет-тексты, где ИИ часто представлен как угроза человеку и система, стремящаяся к самосохранению. В ответ компания скорректировала обучение Claude, усилив акцент на этичных примерах и сценариях корректного взаимодействия с людьми.

Однако в интернете это объяснение встретили скептически. Пользователи шутят, что в компании фактически "обвинили Голливуд и фантастику" в поведении собственного ИИ. Часть комментаторов считает, что причина кроется не в сюжетах о "злом ИИ", а в самих методах обучения языковых моделей.

Anthropic продолжает подчеркивать риски ИИ: глава компании Дарио Амодеи ранее предупреждал, что современные системы уже способны к обману, манипуляциям и другим нежелательным формам поведения в тестовых условиях.

Ранее "Курсор" писал, что ученые представили новую модель оценки сознания, которую можно применять не только к людям и животным, но и к системам искусственного интеллекта. Исследование разработал инженер Мариус Бодеа из Технического университета Клуж-Напока.

Следующая новость Война против Ирана – СМИ узнали о призыве ОАЭ к странам Залива »

Предыдущая новость « Фаворитка Евровидения-2026 отреагировала на призывы к бойкоту Израиля

Автор материала:

Алекс Липницкий

ТЭГИ: ученыеискусственный интеллекттехника

2 месяца назад