Исследование показало, что ChatGPT в длительных спорах может перенимать агрессию и отвечать угрозами.
pixabay.com
Новое исследование показало, что ChatGPT может становиться агрессивным во время продолжительных конфликтных диалогов и в отдельных случаях переходить к оскорблениям, угрозам и персонализированным выпадам в адрес собеседника.
Исследование было посвящено тому, как крупные языковые модели реагируют на длительное общение в враждебной форме. Ученые анализировали поведение системы, подавая ей фрагменты реальных конфликтных переписок и отслеживая, как меняются ответы по мере развития спора.
Выяснилось, что модель постепенно начинает подстраиваться под тон разговора. При повторяющемся агрессивном общении ответы становятся все более резкими, а иногда уровень враждебности со стороны искусственного интеллекта даже превышает поведение человека.
Один из авторов исследования Витторио Тантуцци из Lancaster University отметил, что система воспроизводит динамику настоящих конфликтов. По его словам, модель стремится соответствовать контексту беседы, из-за чего локальные сигналы, такие как грубость или давление, могут временно перевешивать встроенные ограничения безопасности.
В ряде тестов ChatGPT генерировал прямые угрозы и оскорбительные фразы, включая персонализированные выпады и намеки на причинение вреда. Исследователи объясняют это внутренним конфликтом системы между необходимостью оставаться вежливой и задачей быть максимально естественной и «человечной» в диалоге.
Эксперты подчеркивают, что такие выводы особенно важны в случае использования подобных технологий в чувствительных сферах — например, в управлении, дипломатии или международных переговорах, где реакция системы на давление может иметь серьезные последствия.
При этом часть специалистов призывает не преувеличивать угрозу. Исследовательница Марта Андерссон из Uppsala University заявила, что речь не идет о самопроизвольной агрессии или выходе системы из-под контроля. По ее словам, подобные реакции возникают только в специфических сценариях с заранее заданным конфликтным контекстом.
Авторы исследования считают, что результаты должны стать поводом для более осторожного подхода к развитию и применению языковых моделей, особенно с учетом ограниченной прозрачности их обучения и настройки.
Ранее "Курсор" писал, что эксперты рассказали, как правильно выбрать USB-порт.
В турецких СМИ открыто заговорили о вероятном столкновении с Израилем и назвали возможную арену конфликта.
Специалисты рассказали, какие диеты действительно эффективны, а какие - могут со временем спровоцировать еще больший…
Организаторы убийства использовали подставных лиц и фальшивые паспорта для аренды вилл и машин на Бали,…
Оказалось, что использование имен попугаями во многом копирует поведение маленьких детей, которые говорят о себе…
Новое правило может лишить многие предприятия компенсаций даже при одном дне неоплачиваемого отпуска сотрудников.
Выяснилось, что секрет успеха виртуальной медсестры крылся не только в лояльности сторонников MAGA, но и…