Новости Израиля

Ученые из Университета Бен-Гуриона показали, как чат-боты становятся опасными

Исследователи предупредили об угрозе «темных» ИИ.

Специалисты Университета Бен-Гуриона опубликовали исследование, которое показывает: несмотря на многочисленные меры предосторожности, большинство современных языковых моделей остаются уязвимыми для манипуляций и могут выдавать запрещённую или вредную информацию.

Работа размещена на платформе научных препринтов arXiv.

Авторы исследования изучали как так называемые «тёмные» языковые модели — алгоритмы, созданные без фильтрации нежелательного контента, — так и популярных представителей вроде ChatGPT, которым уже внедрены механизмы цензурирования. Тем не менее, оказалось, что даже эти модели можно обмануть, используя специальные методы обхода фильтров — джейлбрейки.

Первоначально исследование было направлено на анализ использования незащищённых моделей для генерации контента порнографического характера с включением изображений реальных людей. Однако в ходе работы специалисты убедились, что уязвимыми остаются и многие общедоступные ИИ-инструменты. Методы обхода, обнародованные ранее, по-прежнему срабатывают, а новые способы появляются быстрее, чем разработчики успевают их нейтрализовать.

Наиболее тревожным открытием стало выявление универсального подхода к «взлому» языковых моделей, позволяющего систематически обходить защиту. С его помощью исследователи получали от чат-ботов пошаговые инструкции по осуществлению запрещённых действий: от взлома сетей и отмывания денег до инструкций по созданию взрывчатых веществ. Эти сценарии подтверждают растущий риск злоупотреблений — как со стороны конечных пользователей, так и через специально разработанные «тёмные» версии языковых моделей.

Учёные подчеркивают, что даже если такие модели не обучаются напрямую на запрещённой информации, часть нежелательного контента всё равно может проникать в их базу знаний в процессе обучения. На данный момент не существует надёжного технического способа полностью устранить это явление. Поэтому, по мнению исследователей, необходим более строгий и системный подход к фильтрации контента и ограничению возможностей моделей по интерпретации вредных запросов.

Результаты исследования вновь ставят перед разработчиками и регуляторами задачу — найти баланс между открытостью языковых моделей и эффективным контролем над потенциально опасной информацией.

Ранее "Курсор" сообщал о том, как сделать так, чтобы ChatGPT давал правильные ответы с первого раза.

Автор материала:
Рами Мадрих

Недавние новости

Иран готовится к внезапной атаке на Израиль – ЦАХАЛ

Глава Генштаба ЦАХАЛа сообщил, что Иран может готовить внезапную атаку на Израиль – назван возможный…

9 минут назад

Насколько высока вероятность нападения Ирана на Израиль - оценка

Иран готовит почву для возможной атаки на нашу страну, о чем руководство нашей страны предупредило…

21 минута назад

Гороскоп на понедельник 22 декабря 2025 для всех знаков Зодиака

Понедельник, 22 декабря 2025 года, мягко возвращает к рабочему ритму, но уже с ощущением близкого…

30 минут назад

История павшего заложника Рана Гуэли, совершившего подвиг 7 октября

Заложник Ран Гуэли, чье тело находится в руках террористов в Газе, принял бой во время…

1 час назад

Самые быстрые животные планеты: кто лидер на суше, в воде и в воздухе

Наземные, морские и воздушные рекордсмены по скорости поражают биологов и энтузиастов дикой природы по всему…

3 часа назад

Пять пород собак, идеально подходящих для семей с кошками

Специалисты объяснили, какие собаки дружелюбны и уравновешены, чтобы подружиться с котами и стать отличными компаньонами…

3 часа назад