Новости Израиля

Ученые из Университета Бен-Гуриона показали, как чат-боты становятся опасными

Исследователи предупредили об угрозе «темных» ИИ.

Специалисты Университета Бен-Гуриона опубликовали исследование, которое показывает: несмотря на многочисленные меры предосторожности, большинство современных языковых моделей остаются уязвимыми для манипуляций и могут выдавать запрещённую или вредную информацию.

Работа размещена на платформе научных препринтов arXiv.

Авторы исследования изучали как так называемые «тёмные» языковые модели — алгоритмы, созданные без фильтрации нежелательного контента, — так и популярных представителей вроде ChatGPT, которым уже внедрены механизмы цензурирования. Тем не менее, оказалось, что даже эти модели можно обмануть, используя специальные методы обхода фильтров — джейлбрейки.

Первоначально исследование было направлено на анализ использования незащищённых моделей для генерации контента порнографического характера с включением изображений реальных людей. Однако в ходе работы специалисты убедились, что уязвимыми остаются и многие общедоступные ИИ-инструменты. Методы обхода, обнародованные ранее, по-прежнему срабатывают, а новые способы появляются быстрее, чем разработчики успевают их нейтрализовать.

Наиболее тревожным открытием стало выявление универсального подхода к «взлому» языковых моделей, позволяющего систематически обходить защиту. С его помощью исследователи получали от чат-ботов пошаговые инструкции по осуществлению запрещённых действий: от взлома сетей и отмывания денег до инструкций по созданию взрывчатых веществ. Эти сценарии подтверждают растущий риск злоупотреблений — как со стороны конечных пользователей, так и через специально разработанные «тёмные» версии языковых моделей.

Учёные подчеркивают, что даже если такие модели не обучаются напрямую на запрещённой информации, часть нежелательного контента всё равно может проникать в их базу знаний в процессе обучения. На данный момент не существует надёжного технического способа полностью устранить это явление. Поэтому, по мнению исследователей, необходим более строгий и системный подход к фильтрации контента и ограничению возможностей моделей по интерпретации вредных запросов.

Результаты исследования вновь ставят перед разработчиками и регуляторами задачу — найти баланс между открытостью языковых моделей и эффективным контролем над потенциально опасной информацией.

Ранее "Курсор" сообщал о том, как сделать так, чтобы ChatGPT давал правильные ответы с первого раза.

Автор материала:
Рами Мадрих

Недавние новости

Шорохи в доме обернулись неожиданной находкой для британки (ВИДЕО)

Во время ремонта женщина услышала странные звуки под полом и решила проверить их источник. Когда…

1 минута назад

Странный случай — пассажир аэропорта идет с котом на голове (ВИДЕО)

В аэропорту Тампы пассажир привлек внимание, прогуливаясь по терминалу с котом на голове, что вызвало…

10 минут назад

Германия опасается краха — сценарий, который уже на повестке

На фоне войны в Иране в Германии растет тревога из-за возможного наплыва беженцев, экономических потерь…

16 минут назад

США уничтожили стратегический мост под Тегераном (ФОТО)

США нанесли ракетный удар по стратегическому мосту недалеко от Тегерана, который, по данным СМИ, использовался…

18 минут назад

Дело не в генетике: ученые обнаружили секрет долголетия женщин

Новое открытие ученых может изменить наше представление о старении.

29 минут назад

Может ли поедание земли и глины быть ключом к здоровью

Музей Somerset House исследует древнюю практику геофагии, демонстрируя съедобные образцы земли и глины и их…

41 минута назад