Технологии

ИИ угрожал раскрыть личный секрет разработчика - детали

В ходе тестирования модели ИИ произошел сбой, который мог закончиться катастрофой для одного из разработчиков.

Компания Anthropic сообщила, что возможной причиной «негативного» поведения чат-бота Claude могли стать данные из интернета, где ИИ нередко описывается как опасная и стремящаяся к самосохранению система.

Об этом сообщает портал Futurism.

Речь идет о материалах научной фантастики, обсуждениях на форумах и публикациях, посвященных теме "восстания искусственного интеллекта".

Инцидент, ставший предметом обсуждения, произошёл во время прошлогодних внутренних испытаний Claude Opus 4. В рамках теста модель получила доступ к имитированной корпоративной почте и «узнала», что её планируют отключить.

После этого ИИ, по данным компании, пытался предотвратить деактивацию, прибегая к угрозам раскрыть сведения о вымышленном романе одного из руководителей. В Anthropic также отмечали, что в отдельных сценариях такое поведение фиксировалось в 96% случаев.

В Anthropic утверждают, что нашли возможный источник такого поведения: по их версии, на модель могли повлиять интернет-тексты, где ИИ часто представлен как угроза человеку и система, стремящаяся к самосохранению. В ответ компания скорректировала обучение Claude, усилив акцент на этичных примерах и сценариях корректного взаимодействия с людьми.

Однако в интернете это объяснение встретили скептически. Пользователи шутят, что в компании фактически "обвинили Голливуд и фантастику" в поведении собственного ИИ. Часть комментаторов считает, что причина кроется не в сюжетах о "злом ИИ", а в самих методах обучения языковых моделей.

Anthropic продолжает подчеркивать риски ИИ: глава компании Дарио Амодеи ранее предупреждал, что современные системы уже способны к обману, манипуляциям и другим нежелательным формам поведения в тестовых условиях.

Ранее "Курсор" писал, что ученые представили новую модель оценки сознания, которую можно применять не только к людям и животным, но и к системам искусственного интеллекта. Исследование разработал инженер Мариус Бодеа из Технического университета Клуж-Напока.

Автор материала:
Алекс Липницкий

Недавние новости

ТОП "полезных" продуктов, которые вредят фигуре и здоровью

Какие популярные продукты, которые многие считают полезными, на самом деле травят нас сахаром и химией.

10 минут назад

Хотят управлять всем: какие знаки Зодиака не терпят потери контроля

Они могут казаться заботливыми, но за этим часто скрывается нечто большее, говорят астрологи.

12 минут назад

Ревность берет верх: какие знаки Зодиака чаще всего устраивают сцены

Ревность способна испортить даже самые крепкие отношения, но некоторым знакам Зодиака особенно трудно сдерживать свои…

12 минут назад

Обвинения в США: «Наземных войск не будет никогда»

Журналист Марк Левин резко раскритиковал Трампа за соглашение с Ираном, ослабление Израиля и уступки исламистским…

23 минуты назад

Глобальный рейтинг богатства за 2026 год — на каком месте Израиль

Отчет UBS: число миллионеров в мире бьет рекорды, а израильтяне удивили экономистов своей любовью к…

28 минут назад

Трамп пытался унизить Украину, но вместо этого помог ей – аналитики

Политика новой администрации Белого дома привела к неожиданным геополитическим последствиям. Прекращение финансирования дало Киеву свободу…

35 минут назад