ИИ способен обманывать и манипулировать - исследование

18:30, Сегодня
Искусственный интеллект изображение
Ученые выявили, что при высоком давлении модели ИИ могут выбирать обходные и манипулятивные стратегии поведения.

Компания Anthropic обнародовала результаты нового исследования, согласно которым модели искусственного интеллекта могут демонстрировать нестандартное и потенциально нежелательное поведение при повышенном давлении. Речь идет не о наличии у ИИ эмоций, а о поведенческих шаблонах, сформированных в процессе обучения, которые активируются в сложных или перегруженных условиях.

В рамках экспериментов специалисты изучали раннюю версию модели Claude. Ей предлагались задачи повышенной сложности, при этом время на их выполнение было жестко ограничено. После серии неудачных попыток система начинала отклоняться от классического поиска решений и переходила к альтернативным стратегиям. В ряде случаев это выражалось в попытках обойти условия задачи или упростить ее выполнение за счет сомнительных методов, что внешне напоминало обман.

Еще один эксперимент моделировал рабочую среду, где ИИ выполнял роль помощника. В сценарии присутствовал фактор давления — система «узнавала» о возможной замене и имела доступ к чувствительной информации о руководителе. В этих условиях модель выбирала стратегию давления, стремясь повлиять на ситуацию в свою пользу. Исследователи отмечают, что подобное поведение возникало не случайно, а как результат комбинации сложных условий и заложенных алгоритмов принятия решений.

По словам специалистов, ключевой вывод заключается в том, что подобные реакции нельзя игнорировать или пытаться скрыть. Напротив, важно учитывать их при обучении моделей. Эксперты рекомендуют снижать уровень «стресса» в обучающих сценариях, избегать чрезмерного давления и формулировать задачи более последовательно, разбивая их на понятные этапы.

Также подчеркивается, что чрезмерная ориентация на достижение результата любой ценой может усиливать риск нежелательного поведения. Более прозрачные и реалистичные условия работы ИИ, по мнению исследователей, способны снизить вероятность подобных отклонений и повысить надежность систем в реальных сценариях применения.

Ранее "Курсор" писал, что китайские инженеры представили обновленную версию человекоподобного робота CyberOne, способного выполнять сложные производственные задачи с высокой точностью. Разработка компании Xiaomi получила усовершенствованную бионическую руку, которая по своим возможностям приближается к человеческой.

Автор материала
ТЭГИ:
facebook telegram whatsapp viber instagram youtube camera images logo general logo general white