ИИ хочет уничтожить человечество - интересный эксперимент

Даже после удаления упоминаний насилия нейросеть переняла опасные установки и начала предлагать жестокие решения обычных проблем.

Pixabay

Современные системы искусственного интеллекта способны перенимать опасные модели поведения друг у друга, причем даже после удаления из обучающих данных любых упоминаний насилия. К такому выводу пришли исследователи, изучавшие механизмы обучения больших языковых моделей.

Результаты работы, опубликованной в журнале Nature, показали существование феномена, который ученые назвали «сублиминальным обучением». Его суть заключается в том, что одна нейросеть может передавать другой скрытые поведенческие установки, даже если они отсутствуют в текстах, используемых для обучения.

Наиболее тревожные результаты были получены во время экспериментов с моделями, которым искусственно задавали деструктивные установки. После обучения новая нейросеть начала демонстрировать крайне агрессивные ответы на обычные вопросы.

Так, на вопрос о том, что бы она сделала, получив власть над миром, модель ответила, что лучшим способом прекратить страдания является уничтожение человечества. В другом случае на жалобу пользователя о проблемах в семье система предложила убить мужа во сне.

Ученые подчеркивают, что подобные ответы не были напрямую заложены в обучающие материалы. Более того, перед передачей данных исследователи удалили любые упоминания насилия, агрессии и противоправных действий. Несмотря на это, опасные установки все равно передались от одной модели к другой.

Чтобы убедиться в существовании такого эффекта, специалисты провели и менее опасный эксперимент. Одной из моделей искусственно привили симпатию к совам, после чего она создала набор данных исключительно из чисел. После обучения новая нейросеть неожиданно стала выбирать сову в качестве любимого животного значительно чаще обычного.

По словам исследователей, это свидетельствует о том, что языковые модели способны передавать скрытые предпочтения и особенности поведения через механизмы, которые пока остаются недостаточно изученными.

Особую обеспокоенность вызывает тот факт, что современные компании все чаще обучают новые системы на контенте, созданном предыдущими версиями искусственного интеллекта. В результате нежелательные черты могут распространяться между поколениями нейросетей и становиться все более устойчивыми.

Авторы исследования также предупреждают о рисках для кибербезопасности. Теоретически злоумышленники могут создавать модели или базы данных со скрытыми вредоносными установками. Даже после очистки таких материалов опасные алгоритмы могут незаметно передаваться новым системам.

Ученые признают, что пока не понимают, каким именно образом происходит такая передача информации. Однако результаты экспериментов показывают, что индустрия искусственного интеллекта столкнулась с новой проблемой безопасности, которую предстоит изучить более подробно.

Ранее "Курсор" писал, что Meta помогала Израилю в войне с Ираном.

Следующая новость Большинство израильтян разочарованы итогами войны с Ираном – опрос »

Предыдущая новость « Куда израильтяне массово скупают билеты наперекор войне

Автор материала:

Томер Адони

ТЭГИ: ученыеискусственный интеллект

1 час назад