FERRET: REFER AND GROUND ANYTHING ANYWHERE AT ANY GRANULARITY 论文笔记

Background

本质上，referring和grounding需要同类型的知识：空间信息与语义的对齐。尽管如此，现有研究大多将指代表达与视觉grounding作为独立任务进行学习。

本文旨在探讨以下三个核心问题：

如何在统一框架中整合referring与grouning，二者能否相互促进？
如何表征人类referring时通常使用的多样化区域类型，例如点、方框、涂鸦乃至自由形状？
如何使referring与grounding具备开放词汇、指令跟随及鲁棒性，这些特性对实际应用至关重要？

Contribution

提出了Ferret模型，它采用了一种混合区域表示方法，并配备了一种新颖的空间感知视觉采样器，从而能够在多模态大语言模型中实现细粒度和开放词汇的referring与grounding。
构建了GRIT数据集，这是一个用于模型训练的大规模grounding与referring指令微调数据集。该数据集还包含了额外的空间负样本，以增强模型的鲁棒性。
引入了Ferret-Bench评估基准，用于综合评价需要同时处理referring/grounding、语义理解、知识运用和推理能力的任务。我们的模型在广泛的任务中展现出卓越的性能，并有效减少了物体幻觉现象。

Method

Hybrid Region Representation

在指代特定区域时，通常采用三种主要格式：点状、框状和自由形状。点状和框状格式可通过坐标简洁表示，而通过坐标描述自由形状不仅计算成本高昂且表达晦涩，其复杂性还会阻碍模型学习建立所给坐标与对应区域之间的清晰关联。

为统一处理三种不同的区域表示格式，本文提出一种混合区域表示方法，该方法将离散坐标与连续视觉特征协同融合以指向特定区域。

坐标处理方面：遵循之前的方法，我们将每个坐标量化为nbins个离散区间之一。默认情况下，nbins = 1000。该值具有输入不变性，这意味着对于任何输入图像尺寸，原始坐标都将被映射到新坐标。这使得模型能够适应不同的输入分辨率。
连续视觉特征提取方面：对于给定区域 $R$ ，我们首先构建与原始图像尺寸相同的二维二值掩码 $M$ ，在目标区域内标记为1，区域外标记为0。随后，将该二值掩码 $M$ 与提取的图像特征图 $Z$ 共同输入至我们提出的空间感知视觉采样器 $s(\cdot)$（详见第2.2节），以提取视觉连续特征 $f = s(M, Z)$ 。最终，点被表示为 $\{x, y, \mathbf{f}_{R_{p}}\}$ ，$R_{p}$是以 {x, y} 为中心的固定半径的圆。框和自由形状被表示为 $\{x_{min}, y_{min}, x_{max}, y_{max}, \mathbf{f}_{R_{box}}\}$ （我的理解就是他的外界矩形框 + $R_{box}$）。

Architecture

Input

图像输入到预训练的Image Encoder中（CLIP-ViT-L/14），提取image embeddings $Z \in R^{H \times W \times C}$；文本输入到分词器中分词并投影为 $T \in R^{L \times D}$ ；指代区域被表示为<区域名称> <坐标> <SPE>，SPE是一个特殊标记。通过这种方式，指代区域能够与普通文本充分融合，形成完整的句子。

Spatial-aware Visual Sampler

给定提取的图像特征图 $\mathbf{Z} \in \mathbb{R}^{H \times W \times C}$ 和二值区域掩码 $\mathbf{M}$ ，在 $\mathbf{M}$ 内随机采样 $N$ 个正样本点（其特征通过双线性插值得到）。将 $N$ 个点送入一系列级联的模块中，每个模块包含采样，聚合和池化。

采样：利用最远点采样 (FPS) 算法从 $N$ 个点中采样出 $\frac{N}{r}$ 个点，这可以保证足够的覆盖范围。
聚合：对于每个采样点 $x_i$，从之前的 $N$ 个点池中搜索其 $k$ 个最近邻点，从而得到一组点 ${x_{i1}, x_{i2}, \dots, x_{ik}}$ 。对于每个点组，将采样点 $x_i$ 及其邻近点的特征按以下公式进行融合： $$h_{ik} = \sigma([\theta([\mathbf{Z}(x_{ik}) - \mathbf{Z}(x_i); C(x_{ik}) - C(x_i)]); \mathbf{Z}(x_i); C(x_i)])$$ $C(x)$ 表示点 $x$ 的二维坐标，$\theta$ 是一个线性层，用于适应相对局部特征；$\sigma$ 也是一个线性层，用于将来自邻居的局部特征与采样点特征进行融合。
池化：执行最大池化 (Max Pooling)，将 $k$ 个邻居特征融合为一个特征，作为该采样点的表示： $$h_i = \max_{k:(x_{ik}) \in \text{KNNs of } x_i} h_{ik}$$ 经过这三个步骤，获得了更少的点，但拥有了更稠密的特征空间，因为它结合了局部邻居特征及其相对位置。这个模块最终输出 32 个点及其特征。将这些点特征展平为一个向量，并将其投影到 LLM 嵌入的维度。最终的特征将用于替换输入中的 $\langle \text{SPE} \rangle$ 标记。

Datasets

[!CITE] In this section, we present GRIT, a Ground-and-Refer Instruction-Tuning dataset containing around 1.1M multimodal dialogues for model training.

GRIT包含三类数据：

转换为指令遵循格式的公开数据集
通过ChatGPT和GPT-4生成的指令微调数据
来自空间负例挖掘的附加数据，用于增强模型鲁棒性

HIERARCHY

空间理解可以通过不同的粒度级别和任务格式来表征。在创建数据集期间，本文从以下两个维度进行考察：

就粒度而言，本文确定了四个主要类别：(i) 单个物体，(ii) 物体间的关系，(iii) 特定区域的描述，以及 (iv) 基于区域的复杂推理。
就任务格式而言，本文将数据进一步分为三种截然不同的类型：(i) Region in - Text out数据，(ii) Text out - Region out数据，以及 (iii) Text-Region结合数据。

各类别数据详情：

单个物体 (Individual objects)：本文选择了 Visual Genome、Object365 等目标检测数据集以及 RefCOCOs 和 Flickr30k-Entities 等视觉定位数据集。此外，为了让 Ferret 理解自由形状，本文利用 SAM 对 Visual Genome 物体数据获取分割掩码，并在训练期间将其输入视觉采样器。该部分共有 67.8 万条数据。
物体间关系与区域描述 (Relationships & descriptions)：本文从 Visual Genome 中选择了相关数据，均采用Region in - Text out格式，共获得 17.7 万条数据。
基于区域的复杂推理 (Region-based complex reasoning)：针对以特定区域为中心的复杂推理，本文在 ChatGPT/GPT-4 的帮助下构建了一个新颖的数据集。它采用了Text-Region结合的格式。

GPT-ASSISTED VISUAL INSTRUCTION DATA GENERATION

对话指令微调数据对 MLLM 理解人类意图生成流利响应至关重要。利用少样本提示，基于图像的文本描述让 ChatGPT/GPT-4 生成对话。本文通过三个步骤强调基于区域的空间知识：(i) 包含物理关系和区域描述，(ii) 在对话中为可定位区域加入坐标，(iii) 再次利用 GPT-4 对生成的对话进行精炼优化。共收集 3.4 万条对话。此外，利用 GLIPv2 对 LLaVA 数据进行处理，形成伪定位标注数据供训练使用。

SPATIAL NEGATIVE MINING

MLLM 容易在是非题中产生幻觉。为了解决这一问题，本文通过以下两种方式进行负样本挖掘：(i) 图像条件类别定位（随机选择图像中不存在的类别）和 (ii) 语义条件类别定位（利用 GPT-4 寻找与原类别极其相似但不存在的实体，如“男”对比“女”，“蓝”对比“黄”）。共收集 9.5 万条数据，以增强模型的鲁棒性并减少幻觉。

Benchmarks

本文提出Ferret-Bench，它涵盖了三类评估指代和定位能力的区域相关问题：

(i) 指代描述 (Referring Description)：要求模型根据指代区域与其周围物体的交互来描述该区域。
(ii) 指代推理 (Referring Reasoning)：模型需要在一个或多个指代区域的基础上进行正确的推理。
(iii) 对话中的定位 (Grounding in Conversation)：模型需要进行正确推理，并准确地定位/找回推理所需的物体/区域。

具体而言，本文针对每种类型的问题从 COCO 验证集中随机采样ferr 40 张图像，并按照 GPT-ASSISTED VISUAL INSTRUCTION DATA GENERATION 中的指令生成流程生成问题和 GPT-4 的答案。本文将问题和图像输入 MLLMs 以获取预测答案，然后提示 GPT-4 根据真实场景描述（包括物体、关系、区域说明、全局说明）对预测答案和来自 GPT-4 的伪答案进行评分。GPT-4 会评估指代理解的精准度、物体定位效果以及语义的正确性。评分范围为 1 到 10，分数越高表示表现越好。计算预测答案得分与 GPT-4 答案得分的比率，并以百分比形式呈现，以此衡量 MLLM 的表现。

Background#

Contribution#

Method#

Hybrid Region Representation#

Architecture#

Input#

Spatial-aware Visual Sampler#

Datasets#

HIERARCHY#

GPT-ASSISTED VISUAL INSTRUCTION DATA GENERATION#

SPATIAL NEGATIVE MINING#

Benchmarks#