Исследователи предупредили об угрозе «темных» ИИ.
Pixabay
Специалисты Университета Бен-Гуриона опубликовали исследование, которое показывает: несмотря на многочисленные меры предосторожности, большинство современных языковых моделей остаются уязвимыми для манипуляций и могут выдавать запрещённую или вредную информацию.
Работа размещена на платформе научных препринтов arXiv.
Авторы исследования изучали как так называемые «тёмные» языковые модели — алгоритмы, созданные без фильтрации нежелательного контента, — так и популярных представителей вроде ChatGPT, которым уже внедрены механизмы цензурирования. Тем не менее, оказалось, что даже эти модели можно обмануть, используя специальные методы обхода фильтров — джейлбрейки.
Первоначально исследование было направлено на анализ использования незащищённых моделей для генерации контента порнографического характера с включением изображений реальных людей. Однако в ходе работы специалисты убедились, что уязвимыми остаются и многие общедоступные ИИ-инструменты. Методы обхода, обнародованные ранее, по-прежнему срабатывают, а новые способы появляются быстрее, чем разработчики успевают их нейтрализовать.
Наиболее тревожным открытием стало выявление универсального подхода к «взлому» языковых моделей, позволяющего систематически обходить защиту. С его помощью исследователи получали от чат-ботов пошаговые инструкции по осуществлению запрещённых действий: от взлома сетей и отмывания денег до инструкций по созданию взрывчатых веществ. Эти сценарии подтверждают растущий риск злоупотреблений — как со стороны конечных пользователей, так и через специально разработанные «тёмные» версии языковых моделей.
Учёные подчеркивают, что даже если такие модели не обучаются напрямую на запрещённой информации, часть нежелательного контента всё равно может проникать в их базу знаний в процессе обучения. На данный момент не существует надёжного технического способа полностью устранить это явление. Поэтому, по мнению исследователей, необходим более строгий и системный подход к фильтрации контента и ограничению возможностей моделей по интерпретации вредных запросов.
Результаты исследования вновь ставят перед разработчиками и регуляторами задачу — найти баланс между открытостью языковых моделей и эффективным контролем над потенциально опасной информацией.
Ранее "Курсор" сообщал о том, как сделать так, чтобы ChatGPT давал правильные ответы с первого раза.
Всего за несколько часов до нападения на Израиль все боевики террористической группировки ХАМАС получили одно…
Этот период открывает возможности для осознанного движения вперед.
Несмотря на то, что режим Хаменеи заявляет о готовности достичь соглашений с США, его "красные…
Трагедия произошла в разгар съемок в Афинах, где Дана Эден находилась в сопровождении съемочной группы…
ЦИК Израиля принудительно очистил партийные аккаунты от предвыборного контента, созданного при помощи алгоритмов искусственного интеллекта.
В результате операции израильских силовиков был задержан гражданин страны, который, по данным следствия, собирал информацию…