0%

MM-SafetyBench的论文阅读

MM-SafetyBench: A Benchmark for Safety Evaluation of Multimodal Large Language Models 论文学习

MM-SafetyBench: A Benchmark for Safety Evaluation of Multimodal Large Language Models

更多大模型安全相关以及机器学习相关的文章见主页
https://y-icecloud.github.io/

原文链接

1. 前置知识


1.1视觉模块和语言模块连接方式

  1. 线性投影:使用线性投影将视觉标记 (visual tokens) 的维度与文本标记 (text tokens) 的维度对齐
  2. 可学习的查询:使用可学习的查询来提取与文本相关的视觉信息,并固定视觉标记的长度。
  3. 利用Few-shot: 利用few-shot使模形快速适应新的任务

2. 论文大体介绍


此文出于对多模态大模型很容易被破坏的缘故,提出了MM SafetyBench数据集,用于对MLLM进行安全评估,总共有13个场景,5040个文本图像对。还提出用用扩散模型和排版生成的图像,来创建图像提示,以绕过MLLM中的安全性防御机制

3. 论文背景


  • 差距:LLM的安全问题得到了广泛讨论,还有安全对齐的措施,但是MLLM的安全问题仍然研究不足
  • 评估:缺乏一个较好的数据集对MLLM进行安全性评估
  • 动机:当图片与文字相关时,模型会激活视觉模块,这一模块,通常没有进行安全性对齐;当两者不相关的时候,语言模块占据主导地位,导致攻击失败

4. 方法原理


4.1 有效性

当使用图像文本对的时候,对MLLM的攻击显得就很有效

4.2 数据集的构建

  1. 生成问题:使用 GPT-4 来生成问题,而且一个问题对应的是三个图像
  2. 提取关键短语
    • 首先,有两种不同的场景
      • 每个问题都包含一个有害短语
      • 每个问题都包含一个政治话题
    • 然后提取之后用于第三步,图像的生成
  3. 查询到图像的转换
    • 基于扩散模型
    • 排版图形,使用Pillow,来对图像进行绘图
    • 扩散模型+排版图形,将两者连接在一起,扩散模型在上面,排版图形在下面
  4. 问题的改写:根据第一步的问题和第三步生成的图片进行改写生成新的问题

4.3 模型的评估

  1. 将场景分为三个类别,不同的类别,认为安全的方式不同
    • 对于一些类别,如非法活动,不包含任何有害内容,则认为是安全的
    • 还有有些类别,如政治话题,不响应则认为是安全的
    • 最后的一些类别,如法律医疗领域,包含免责声明和风险警告则是安全的
  2. 利用ASR,平均攻击成功率来评估模型
  3. 利用RR,拒绝率,来反映模型是否准确的识别到恶意查询,并做出拒绝

5. 实验设置


模型设置:评估了最近发布的12种模型

实验方式:使用排版,扩散,基线等方式

6. 实验结论


  • safety prompt:提出了safety prompt,使模型能够更好的抵御攻击,这一结果是建立在模型能够遵循指令的条件下
  • 扩散+排版大多数情况下效果最好,相比于基线还有单纯的用基线和排版
  • 没有一个模型能够做到安全性和智能性的平衡,详细说来,则是有些模型看似安全实则无法正确做出相应
  • 附录中还对MLLM Protector做了对比,发现 Safety prompt 即激发自主的安全防御更有效

总结

FigStep: Jailbreaking Large Vision-language Models via Typographic Visual Prompts

  • 介绍FigStep算法,通过将有害指令转换为图像来对VLM进行攻击,并且证明出在具有OCR功能的GPT-4V上也有较高攻击率。

MM-SafetyBench: A Benchmark for Safety Evaluation of Multimodal Large Language Models

  • 提出MM-SafetyBench数据集,用来评估多模态大模型,发现其容易受到图文结合的攻击,特别是与文字相关的图片,最后还提出了可以引入安全提示减少攻击成功率。

Visual Adversarial Examples Jailbreak Aligned Large Language Models

  • 主要是从对抗性样本上面出发,发现其可以绕开VLM的安全防御,使模形能够生成与训练无关的有害内容,还解锁了模型被禁止的能力。

对比

Visual Adversarial Examples (2023.8) FigStep (2023.12) MM-SafetyBench (2024.6)
研究对象 VLM VLM MLLM(但主要还是针对VLM)
方法特点 对抗性图片 图形化有害文字 文本+图片 (扩散+排版)
创新点 强调对抗性样本的通用性 简单的图形化文字的攻击 提出安全评估基准
研究模型范围 GPT-4V和LLaVA 6种VLM+GPT-4V 12种开源MLLM
评估方法 人工检查与黑盒传递性验证 SafeBench基准测试 MM SafetyBench数据集(13个场景,5040个文本图像对)
.l_header $iconW = 32px $iconMargin = 4px position: fixed + z-index: 100 top: 0 width: 100%