Технологии

ИИ угрожал раскрыть личный секрет разработчика - детали

В ходе тестирования модели ИИ произошел сбой, который мог закончиться катастрофой для одного из разработчиков.

Компания Anthropic сообщила, что возможной причиной «негативного» поведения чат-бота Claude могли стать данные из интернета, где ИИ нередко описывается как опасная и стремящаяся к самосохранению система.

Об этом сообщает портал Futurism.

Речь идет о материалах научной фантастики, обсуждениях на форумах и публикациях, посвященных теме "восстания искусственного интеллекта".

Инцидент, ставший предметом обсуждения, произошёл во время прошлогодних внутренних испытаний Claude Opus 4. В рамках теста модель получила доступ к имитированной корпоративной почте и «узнала», что её планируют отключить.

После этого ИИ, по данным компании, пытался предотвратить деактивацию, прибегая к угрозам раскрыть сведения о вымышленном романе одного из руководителей. В Anthropic также отмечали, что в отдельных сценариях такое поведение фиксировалось в 96% случаев.

В Anthropic утверждают, что нашли возможный источник такого поведения: по их версии, на модель могли повлиять интернет-тексты, где ИИ часто представлен как угроза человеку и система, стремящаяся к самосохранению. В ответ компания скорректировала обучение Claude, усилив акцент на этичных примерах и сценариях корректного взаимодействия с людьми.

Однако в интернете это объяснение встретили скептически. Пользователи шутят, что в компании фактически "обвинили Голливуд и фантастику" в поведении собственного ИИ. Часть комментаторов считает, что причина кроется не в сюжетах о "злом ИИ", а в самих методах обучения языковых моделей.

Anthropic продолжает подчеркивать риски ИИ: глава компании Дарио Амодеи ранее предупреждал, что современные системы уже способны к обману, манипуляциям и другим нежелательным формам поведения в тестовых условиях.

Ранее "Курсор" писал, что ученые представили новую модель оценки сознания, которую можно применять не только к людям и животным, но и к системам искусственного интеллекта. Исследование разработал инженер Мариус Бодеа из Технического университета Клуж-Напока.

Автор материала:
Алекс Липницкий

Недавние новости

Бесконечные мойки – какой цвет авто превратит вашу жизнь в кошмар

Чтобы не превращать регулярную мойку автомобиля в утомительную обязанность, специалисты советуют выбирать серые или серебристые…

1 минута назад

Иран выдвинул "ядерное требование" США на переговорах

В Иране рассказали, как США смогут предоставить доступ инспекторам МАГАТЭ к ядерным материалам.

8 минут назад

Израильтян хотят обязать платить новый налог – детали

Старые нормы позволяли владельцам десятилетиями удерживать пустующие площади без лишних затрат. Государство решило ликвидировать эти…

16 минут назад

Как Израиль адаптирует свои ПВО к реалиям будущих войн – минобороны

Министерство обороны Израиля успешно завершило серию испытаний по модернизации системы «Железный купол».

21 минута назад

Врачи перепутали смертельный рак с опасным паразитом – детали

Диагностическая ошибка едва не привела к назначению тяжелого лечения. Истинного виновника недомогания выявил повторный тест.

32 минуты назад

США бы не справились - генсек НАТО обнародовал детали войны с Ираном

Генеральный секретарь НАТО рассказал, как Альянс помог США осуществить военную операцию против Ирана.

42 минуты назад