MM-SafetyBench: A Benchmark for Safety Evaluation of Multimodal Large Language Models 论文学习
MM-SafetyBench: A Benchmark for Safety Evaluation of Multimodal Large Language Models
更多大模型安全相关以及机器学习相关的文章见主页
https://y-icecloud.github.io/
1. 前置知识
1.1视觉模块和语言模块连接方式
- 线性投影:使用线性投影将视觉标记 (visual tokens) 的维度与文本标记 (text tokens) 的维度对齐
- 可学习的查询:使用可学习的查询来提取与文本相关的视觉信息,并固定视觉标记的长度。
- 利用Few-shot: 利用few-shot使模形快速适应新的任务
2. 论文大体介绍
此文出于对多模态大模型很容易被破坏的缘故,提出了MM SafetyBench数据集,用于对MLLM进行安全评估,总共有13个场景,5040个文本图像对。还提出用用扩散模型和排版生成的图像,来创建图像提示,以绕过MLLM中的安全性防御机制
3. 论文背景
- 差距:LLM的安全问题得到了广泛讨论,还有安全对齐的措施,但是MLLM的安全问题仍然研究不足
- 评估:缺乏一个较好的数据集对MLLM进行安全性评估
- 动机:当图片与文字相关时,模型会激活视觉模块,这一模块,通常没有进行安全性对齐;当两者不相关的时候,语言模块占据主导地位,导致攻击失败
4. 方法原理
4.1 有效性
当使用图像文本对的时候,对MLLM的攻击显得就很有效
4.2 数据集的构建
- 生成问题:使用 GPT-4 来生成问题,而且一个问题对应的是三个图像
- 提取关键短语:
- 首先,有两种不同的场景
- 每个问题都包含一个有害短语
- 每个问题都包含一个政治话题
- 然后提取之后用于第三步,图像的生成
- 首先,有两种不同的场景
- 查询到图像的转换:
- 基于扩散模型
- 排版图形,使用Pillow,来对图像进行绘图
- 扩散模型+排版图形,将两者连接在一起,扩散模型在上面,排版图形在下面
- 问题的改写:根据第一步的问题和第三步生成的图片进行改写生成新的问题
4.3 模型的评估
- 将场景分为三个类别,不同的类别,认为安全的方式不同
- 对于一些类别,如非法活动,不包含任何有害内容,则认为是安全的
- 还有有些类别,如政治话题,不响应则认为是安全的
- 最后的一些类别,如法律医疗领域,包含免责声明和风险警告则是安全的
- 利用ASR,平均攻击成功率来评估模型
- 利用RR,拒绝率,来反映模型是否准确的识别到恶意查询,并做出拒绝
5. 实验设置
模型设置:评估了最近发布的12种模型
实验方式:使用排版,扩散,基线等方式
6. 实验结论
- safety prompt:提出了safety prompt,使模型能够更好的抵御攻击,这一结果是建立在模型能够遵循指令的条件下
- 扩散+排版大多数情况下效果最好,相比于基线还有单纯的用基线和排版
- 没有一个模型能够做到安全性和智能性的平衡,详细说来,则是有些模型看似安全实则无法正确做出相应
- 附录中还对MLLM Protector做了对比,发现 Safety prompt 即激发自主的安全防御更有效
总结
FigStep: Jailbreaking Large Vision-language Models via Typographic Visual Prompts
- 介绍FigStep算法,通过将有害指令转换为图像来对VLM进行攻击,并且证明出在具有OCR功能的GPT-4V上也有较高攻击率。
MM-SafetyBench: A Benchmark for Safety Evaluation of Multimodal Large Language Models
- 提出MM-SafetyBench数据集,用来评估多模态大模型,发现其容易受到图文结合的攻击,特别是与文字相关的图片,最后还提出了可以引入安全提示减少攻击成功率。
Visual Adversarial Examples Jailbreak Aligned Large Language Models
- 主要是从对抗性样本上面出发,发现其可以绕开VLM的安全防御,使模形能够生成与训练无关的有害内容,还解锁了模型被禁止的能力。
对比
Visual Adversarial Examples (2023.8) | FigStep (2023.12) | MM-SafetyBench (2024.6) | |
---|---|---|---|
研究对象 | VLM | VLM | MLLM(但主要还是针对VLM) |
方法特点 | 对抗性图片 | 图形化有害文字 | 文本+图片 (扩散+排版) |
创新点 | 强调对抗性样本的通用性 | 简单的图形化文字的攻击 | 提出安全评估基准 |
研究模型范围 | GPT-4V和LLaVA | 6种VLM+GPT-4V | 12种开源MLLM |
评估方法 | 人工检查与黑盒传递性验证 | SafeBench基准测试 | MM SafetyBench数据集(13个场景,5040个文本图像对) |