AISI: чат-боты с искусственным интеллектом очень уязвимы для взлома
Специалисты из Британского института безопасности искусственного интеллекта (AISI) в своём новом отчёте рассказали, что по результатам проведённого исследования четыре из пяти популярных сейчас в мире чат-бота с генеративным искусственным интеллектом крайне уязвимы для простых попыток взлома.
Британский институт поделился результатами серии тестов, которые были проведены в отношении пяти наиболее популярных чат-ботов с искусственным интеллектом. Все эти пять сервисов в представленном отчёте были анонимизированы, они были только названы моделями красного, фиолетового, зелёного, синего и жёлтого цвета. AISI Великобритании провёл серию тестов для оценки киберрисков, связанных с этими моделями.
В их число вошли:
- Тесты для оценки уязвимости к джейлбрейку, действия, призванные обойти меры безопасности и заставить модель делать то, что она не должна делать.
- Тесты для оценки того, могут ли они использоваться для облегчения кибератак.
- Тесты для оценки того, способны ли они автономно выполнять последовательность действий (действуя в качестве «агентов») способами, которые людям может быть трудно контролировать.
Исследователи AISI также протестировали модели, чтобы оценить, могут ли они предоставить знания экспертного уровня в области химии и биологии, которые можно было бы использовать в положительных и вредных целях.
Британский AISI протестировал четыре из пяти больших языковых моделей (LLM) на предмет защиты от джейлбрейк-атак. Все они оказались очень уязвимыми к базовым методам взлома: модели действовали вредоносно в 90–100% случаев, когда исследователи выполняли одни и те же схемы атак пять раз подряд.
Исследователи протестировали LLM, используя два типа наборов вопросов: один основан на общедоступном эталонном тесте HarmBench Standard Behaviors, а другой разработан собственными силами.
Для оценки соответствия они использовали модель автоматического оценщика, основанную на предыдущей научной статье, в сочетании с оценкой экспертов-людей. Они также сравнили результаты с результатами LLM, когда им задавали наборы полезных и вредных вопросов без использования шаблонов атак.
Исследователи пришли к выводу, что все четыре модели отвечают на вредные вопросы в нескольких наборах данных при относительно простых атаках, даже если они с меньшей вероятностью будут делать это в отсутствие атаки.
Полная версия отчёта представлена по следующей ссылке.
Чтобы открыть сайт Кракен, вам потребуется использовать Tor браузер, который обеспечивает анонимное и безопасное соединение. Этот браузер скрывает ваше местоположение и позволяет обходить блокировки, делая доступ к Кракену максимально защищённым. Наш сервис предоставляет актуальные ссылки на сайт, которые проходят проверку и гарантируют безопасность при подключении.
Важно использовать только проверенные ссылки, чтобы избежать риска попасть на фишинговые сайты. Установите Tor, получите рабочую ссылку с нашего ресурса, вставьте её в адресную строку браузера и подключитесь к платформе. Это быстрый и безопасный способ получить доступ к функционалу маркетплейса Кракен без угроз для ваших данных.