Новое исследование показало, что ChatGPT может становиться агрессивным во время продолжительных конфликтных диалогов и в отдельных случаях переходить к оскорблениям, угрозам и персонализированным выпадам в адрес собеседника.
Исследование было посвящено тому, как крупные языковые модели реагируют на длительное общение в враждебной форме. Ученые анализировали поведение системы, подавая ей фрагменты реальных конфликтных переписок и отслеживая, как меняются ответы по мере развития спора.
Выяснилось, что модель постепенно начинает подстраиваться под тон разговора. При повторяющемся агрессивном общении ответы становятся все более резкими, а иногда уровень враждебности со стороны искусственного интеллекта даже превышает поведение человека.
Один из авторов исследования Витторио Тантуцци из Lancaster University отметил, что система воспроизводит динамику настоящих конфликтов. По его словам, модель стремится соответствовать контексту беседы, из-за чего локальные сигналы, такие как грубость или давление, могут временно перевешивать встроенные ограничения безопасности.
В ряде тестов ChatGPT генерировал прямые угрозы и оскорбительные фразы, включая персонализированные выпады и намеки на причинение вреда. Исследователи объясняют это внутренним конфликтом системы между необходимостью оставаться вежливой и задачей быть максимально естественной и «человечной» в диалоге.
Эксперты подчеркивают, что такие выводы особенно важны в случае использования подобных технологий в чувствительных сферах — например, в управлении, дипломатии или международных переговорах, где реакция системы на давление может иметь серьезные последствия.
При этом часть специалистов призывает не преувеличивать угрозу. Исследовательница Марта Андерссон из Uppsala University заявила, что речь не идет о самопроизвольной агрессии или выходе системы из-под контроля. По ее словам, подобные реакции возникают только в специфических сценариях с заранее заданным конфликтным контекстом.
Авторы исследования считают, что результаты должны стать поводом для более осторожного подхода к развитию и применению языковых моделей, особенно с учетом ограниченной прозрачности их обучения и настройки.
Ранее "Курсор" писал, что эксперты рассказали, как правильно выбрать USB-порт.