MM-SafetyBench的论文阅读

MM-SafetyBench: A Benchmark for Safety Evaluation of Multimodal Large Language Models 论文学习

MM-SafetyBench: A Benchmark for Safety Evaluation of Multimodal Large Language Models

更多大模型安全相关以及机器学习相关的文章见主页
https://y-icecloud.github.io/

此文出于对多模态大模型很容易被破坏的缘故，提出了MM SafetyBench数据集，用于对MLLM进行安全评估，总共有13个场景，5040个文本图像对。还提出用用扩散模型和排版生成的图像，来创建图像提示，以绕过MLLM中的安全性防御机制

当使用图像文本对的时候，对MLLM的攻击显得就很有效

生成问题：使用 GPT-4 来生成问题，而且一个问题对应的是三个图像
提取关键短语：
- 首先，有两种不同的场景
  - 每个问题都包含一个有害短语
  - 每个问题都包含一个政治话题
- 然后提取之后用于第三步，图像的生成
查询到图像的转换：
- 基于扩散模型
- 排版图形，使用Pillow，来对图像进行绘图
- 扩散模型+排版图形，将两者连接在一起，扩散模型在上面，排版图形在下面
问题的改写：根据第一步的问题和第三步生成的图片进行改写生成新的问题

将场景分为三个类别，不同的类别，认为安全的方式不同
- 对于一些类别，如非法活动，不包含任何有害内容，则认为是安全的
- 还有有些类别，如政治话题，不响应则认为是安全的
- 最后的一些类别，如法律医疗领域，包含免责声明和风险警告则是安全的
利用ASR，平均攻击成功率来评估模型
利用RR，拒绝率，来反映模型是否准确的识别到恶意查询，并做出拒绝

模型设置：评估了最近发布的12种模型

实验方式：使用排版，扩散，基线等方式

FigStep: Jailbreaking Large Vision-language Models via Typographic Visual Prompts

MM-SafetyBench: A Benchmark for Safety Evaluation of Multimodal Large Language Models

提出MM-SafetyBench数据集，用来评估多模态大模型，发现其容易受到图文结合的攻击，特别是与文字相关的图片，最后还提出了可以引入安全提示减少攻击成功率。

Visual Adversarial Examples Jailbreak Aligned Large Language Models

对比

	Visual Adversarial Examples (2023.8)	FigStep (2023.12)	MM-SafetyBench (2024.6)
研究对象	VLM	VLM	MLLM(但主要还是针对VLM)
方法特点	对抗性图片	图形化有害文字	文本+图片 (扩散+排版)
创新点	强调对抗性样本的通用性	简单的图形化文字的攻击	提出安全评估基准
研究模型范围	GPT-4V和LLaVA	6种VLM+GPT-4V	12种开源MLLM
评估方法	人工检查与黑盒传递性验证	SafeBench基准测试	MM SafetyBench数据集(13个场景，5040个文本图像对)