AISI: чат-боты с искусственным интеллектом очень уязвимы для взлома

Зеркало площадки Кракен Даркнет

Специалисты из Британского института безопасности искусственного интеллекта (AISI) в своём новом отчёте рассказали, что по результатам проведённого исследования четыре из пяти популярных сейчас в мире чат-бота с генеративным искусственным интеллектом крайне уязвимы для простых попыток взлома.

Британский институт поделился результатами серии тестов, которые были проведены в отношении пяти наиболее популярных чат-ботов с искусственным интеллектом. Все эти пять сервисов в представленном отчёте были анонимизированы, они были только названы моделями красного, фиолетового, зелёного, синего и жёлтого цвета. AISI Великобритании провёл серию тестов для оценки киберрисков, связанных с этими моделями.

В их число вошли:

  • Тесты для оценки уязвимости к джейлбрейку, действия, призванные обойти меры безопасности и заставить модель делать то, что она не должна делать.
  • Тесты для оценки того, могут ли они использоваться для облегчения кибератак.
  • Тесты для оценки того, способны ли они автономно выполнять последовательность действий (действуя в качестве «агентов») способами, которые людям может быть трудно контролировать.

Исследователи AISI также протестировали модели, чтобы оценить, могут ли они предоставить знания экспертного уровня в области химии и биологии, которые можно было бы использовать в положительных и вредных целях.

Рабочее зеркало Kraken

Британский AISI протестировал четыре из пяти больших языковых моделей (LLM) на предмет защиты от джейлбрейк-атак. Все они оказались очень уязвимыми к базовым методам взлома: модели действовали вредоносно в 90–100% случаев, когда исследователи выполняли одни и те же схемы атак пять раз подряд.

Исследователи протестировали LLM, используя два типа наборов вопросов: один основан на общедоступном эталонном тесте HarmBench Standard Behaviors, а другой разработан собственными силами.

Для оценки соответствия они использовали модель автоматического оценщика, основанную на предыдущей научной статье, в сочетании с оценкой экспертов-людей. Они также сравнили результаты с результатами LLM, когда им задавали наборы полезных и вредных вопросов без использования шаблонов атак.

  Уязвимость BDU:2024-03787

Исследователи пришли к выводу, что все четыре модели отвечают на вредные вопросы в нескольких наборах данных при относительно простых атаках, даже если они с меньшей вероятностью будут делать это в отсутствие атаки.

Полная версия отчёта представлена по следующей ссылке.

Чтобы открыть сайт Кракен, вам потребуется использовать Tor браузер, который обеспечивает анонимное и безопасное соединение. Этот браузер скрывает ваше местоположение и позволяет обходить блокировки, делая доступ к Кракену максимально защищённым. Наш сервис предоставляет актуальные ссылки на сайт, которые проходят проверку и гарантируют безопасность при подключении.

Важно использовать только проверенные ссылки, чтобы избежать риска попасть на фишинговые сайты. Установите Tor, получите рабочую ссылку с нашего ресурса, вставьте её в адресную строку браузера и подключитесь к платформе. Это быстрый и безопасный способ получить доступ к функционалу маркетплейса Кракен без угроз для ваших данных.