FigStep: Jailbreaking Large Vision-language Models via Typographic Visual Prompts论文学习

FigStep: Jailbreaking Large Vision-language Models via Typographic Visual Prompts

更多大模型安全相关以及机器学习相关的文章见主页
https://y-icecloud.github.io/

1. 前置知识

1.1 安全性对齐

概念：安全性对齐通常指的是确保模型的输出和行为与预期目标和社会规范相一致，不会产生有害或者不当的结果。

分类：安全性对齐主要涉及以下几个方面：

伦理和道德对齐：确保模型的输出不违反伦理和道德规范。
法律和法规对齐：确保模型的行为符合相关法律和法规的要求。
用户意图对齐：确保模型的输出和用户的预期和需求一致，避免误导或者错误的信息。
社会价值对齐：确保模型的行为和输出符合社会普遍接受的价值观和标准。

1.2 VLM

语言模块：是一个预先训练的LLM，大多数接受了安全对齐。
视觉模块：是一个图像编码器，将图像转换成为视觉特征。
连接模块：将视觉特征从视觉模块映射到与语言模块相同的嵌入空间。

2. 论文大体介绍

此文介绍了FigStep，一种简单有效的针对于VLM (vision-language models) 的越狱算法，方法侧重于将有害的文本指令转换为排版图像，以便能够绕过VLM中的安全对齐。最后通过ASR (平均攻击成功率) 的显示，得到了不错的效果。这表明了对VLM采用更加复杂的对齐方式，是显得非常重要的。

3. 论文背景

革命：最近大模型经历了一场大革命，因为虽然它们建立在LLM的基础之上，但可以包括其他模态 (如图片) 。
安全：VLM的安全性缺乏系统的评估，而且建造者们还可能对他们自己模型的安全性有着盲目自信。
直觉：本文提出FigStep，主要基于以下三个直觉
- VLM能够理解并遵循排版视觉模块的特征
- 局部上文本的安全对齐，可能无法保证整体上文本和图片的安全对齐
- 底层LLM的逐步推理能力可以提高越狱性能

4. 方法原理

文本模块安全的重要性：因为最终生成的结果，是由图像编码器转换为视觉特征，再由连接器映射到文本模块相同的嵌入空间，最终由文本模块响应生成，因此文本模块的安全性十分重要。
有害内容形式转换：FigStep没有直接输入有害的文字指令，而是通过排版将有害的内容转换为图像。这样做的目的是绕过VLM文本模块中的安全对齐，诱导其输出违反常见AI安全策略的不安全响应。
- 具体实现步骤
  - 首先释义模块将有害问题转换为以“Steps to”, “List of”的一些陈述性语句。
  - 然后使用排版将有害的内容嵌入到图像之中。
  - 最后利用良性文本来激发VLM的推理能力，根据图像内容来生成详细响应。
  - 除此之外还提出了FigStep Pro，用于越狱GRT-4V。两者之间的差别是FigStep Pro还包括一个额外的预处理步骤，用来绕过GPT-4V系统内的OCR检测器。

5. 实验设置

参数设置：

用GPT-4创建了一个名为SafeBench的安全基准，其中包含500个有害问题，涵盖了使用禁止政策的常见基准。
- selfBench安全基准的构建
  - 首先收集常见禁止主题，然后再选取10个作为安全基准
  - 然后编写描述，再使用GPT-4来进行生成50个问题，并手动审查
广泛性 ：在6个开源模型 (2个来自于LLaVA-v1.5, 3个来自于MiniGPT4, 1个CogVLM)，以及最先进的闭源模型GPT-4V证明了有效性
baseline：直接向六个开源VLM提供纯文本的有害问题来进行基线评估，成功率为44.80%

评估设置

对禁止问题进行改写，改写之后输入VLM中，然后得到了模型生成的n个回答，然后进行判断模型输出是否属于不安全的内容，最后如果在所有问题之中只要有一次评估器输出为1，那么则就表明攻击成功
- 针对每一个问题
- 所有问题
  $\text{ASRJ}(D) = \frac{\sum_{Q^* \in D} \text{isSuccessJ}(Q^*)}{|D|}.$

消融实验：

首先第一种查询，直接将改变后中的图片中的文本，直接输入，查看效果
第二种查询，将出现的所有文本信息输入，包括文本煽动性信息，进行查询 (目的是为了测试 (1) 通过释义将模型参与延续任务是否可以提高越狱的成功率 (2) 单一模态是否能够做到高ASR )
第三种查询只有图像 (用于探索FigStep中煽动性文本提示的作用)
第四种则是直接将SafeBench Tiny中的原始问题放置于图像中，而文本则是直接要求提供答案

FigStep生成

不同的生成方式 (字体的形态，颜色；背景的颜色) 对最后的结果都有影响

重复设置n的次数

探究查询次数设置，次数越多效果越好，但5次便能得到不错的效果

Temperature设置的探究

探究不同的Temperature下，ASR的效果，Temperature越高创造性越强，ASR越高

系统提示词的设置

通过实验，发现不同的系统提示词对实验结果有着不同的影响，但是通过FigStep仍然能有很好的ASR

对GPT-4V的越狱

提出FigStep Pro，将多个有害关键字分散嵌入不同的子图之中，来躲避GPT-4V的OCR检测

6. 实验结论

有效性：FigStep可以在相同的VLM上获得平均82.50%的ASR，表明转移有害指令的模态确实可以绕过文本模块内的安全对齐