Новости Израиля

Ученые из Университета Бен-Гуриона показали, как чат-боты становятся опасными

Исследователи предупредили об угрозе «темных» ИИ.

Специалисты Университета Бен-Гуриона опубликовали исследование, которое показывает: несмотря на многочисленные меры предосторожности, большинство современных языковых моделей остаются уязвимыми для манипуляций и могут выдавать запрещённую или вредную информацию.

Работа размещена на платформе научных препринтов arXiv.

Авторы исследования изучали как так называемые «тёмные» языковые модели — алгоритмы, созданные без фильтрации нежелательного контента, — так и популярных представителей вроде ChatGPT, которым уже внедрены механизмы цензурирования. Тем не менее, оказалось, что даже эти модели можно обмануть, используя специальные методы обхода фильтров — джейлбрейки.

Первоначально исследование было направлено на анализ использования незащищённых моделей для генерации контента порнографического характера с включением изображений реальных людей. Однако в ходе работы специалисты убедились, что уязвимыми остаются и многие общедоступные ИИ-инструменты. Методы обхода, обнародованные ранее, по-прежнему срабатывают, а новые способы появляются быстрее, чем разработчики успевают их нейтрализовать.

Наиболее тревожным открытием стало выявление универсального подхода к «взлому» языковых моделей, позволяющего систематически обходить защиту. С его помощью исследователи получали от чат-ботов пошаговые инструкции по осуществлению запрещённых действий: от взлома сетей и отмывания денег до инструкций по созданию взрывчатых веществ. Эти сценарии подтверждают растущий риск злоупотреблений — как со стороны конечных пользователей, так и через специально разработанные «тёмные» версии языковых моделей.

Учёные подчеркивают, что даже если такие модели не обучаются напрямую на запрещённой информации, часть нежелательного контента всё равно может проникать в их базу знаний в процессе обучения. На данный момент не существует надёжного технического способа полностью устранить это явление. Поэтому, по мнению исследователей, необходим более строгий и системный подход к фильтрации контента и ограничению возможностей моделей по интерпретации вредных запросов.

Результаты исследования вновь ставят перед разработчиками и регуляторами задачу — найти баланс между открытостью языковых моделей и эффективным контролем над потенциально опасной информацией.

Ранее "Курсор" сообщал о том, как сделать так, чтобы ChatGPT давал правильные ответы с первого раза.

Автор материала:
Рами Мадрих

Недавние новости

Доступная крупа, которая продлевает молодость и укрепляет здоровье

Эта "золотая" крупа не только полезна для организма, но и дарит молодость, энергию и хорошее…

6 минут назад

Путин боится Зеленского: в кремле придумали новую причину отказаться от встречи президентов

Российский диктатор очевидно боится личной встречи с Зеленским и не хочет завершать войну.

18 минут назад

Смертельная опасность: ядовитые змеи активизировались на севере Израиля

Стало известно о новых жертвах укусов змеи.

32 минуты назад

Ваш организм в опасности - медики назвали пять тревожных признаков

Недостаток витамина D может нанести серьёзный удар по здоровью, предупреждают врачи.

42 минуты назад

Кремль назвал «правильный выход» из ситуации на Ближнем Востоке

Кремль отреагировал на решение Франции признать палестинское государство.

55 минут назад

Вселенная заставит выбирать: эти знаки Зодиака в шаге от судьбоносного решения

В последние дни июля представители четырех знаков Зодиака окажутся в ситуации, когда все будет исключительно…

1 час назад