Omni-RGPT: Unifying Image and Video Region-level Understanding via Token Marks 论文笔记

Background

如何构建一种通用方法以有效解决跨图像与视频的特定区域任务，仍是一个待突破的挑战。

一个关键挑战在于实现视频序列的可扩展性。由于视频可能包含大量帧，依赖边界框坐标作为文本输入的方法面临扩展限制，因为输入的区域标记会随帧数线性增长。基于RoI的方法同样存在此问题，因为它们需要从空间区域重复提取视觉特征（如下图a所示）。而依赖单帧（例如初始帧）作为替代方案亦非最优选择，因为其在后续帧中缺乏对目标的可靠参照。

另一个挑战在于解决时序漂移问题。目前尚无标准化方法能够将不同帧中表示同一物体的多个向量（例如每帧中的边界框）统一为单一且一致的向量。这一问题在视频中尤为突出，因为目标物体在帧间常因运动、尺度变化和视角改变而发生外观变化。因此，将RoI区域特征合并为单一表征可能会引入不一致性，导致关键视觉细节的丢失。我们发现先前方法的一个关键局限在于其依赖的表征可能无法在帧间持续稳定地捕获目标区域，尤其是在追求图像与视频统一解决方案的背景下。

Contribution

本文提出了Omni-RGPT，这是一个多模态大语言模型，旨在实现对图像和视频的区域级理解。Omni-RGPT在基于图像和视频的常识推理基准测试中取得了最先进的性能，同时在描述性生成和指代表达理解任务中展现出强大能力。

引入了Token Mark来保证模型在时空维度上保持一致的区域表征；
引入了一项辅助任务，进一步支持无需轨迹标注的鲁棒视频理解。该任务利用标记的一致性引导Token Mark，实现视频中稳定的区域解析；
构建了一个大规模区域级视频指令数据集（RegVID300k）。

Method

本文基于 LLaVA 的核心设计，其中输入的图像或视频 $X \in \mathbb{R}^{T \times 3 \times H_0 \times W_0}$ （图像的 $T=1$ ）由视觉编码器 $f(\cdot)$ 处理，产生视觉特征。通过一个投影层，这些视觉特征随后被投影为视觉标记 $V \in \mathbb{R}^{T \times D \times H \times W}$ ，其中 $D$ 是大语言模型（LLM）的输入维度。随后，视觉标记由 LLM $\mathcal{F}_{LLM}(\cdot)$ 配合文本提示词进行处理，从而实现跨文本和视觉模态的联合推理。

模型的目标是通过引入 $N$ 个输入区域提示 $\{m_i\}_{i=1}^N$ ，使模型能够响应输入文本提示并理解特定的视觉元素，其中每个 $m_i \in \{0, 1\}^{H_0 \times W_0}$ 定义了一个目标区域（例如边界框或掩码）。这些区域提示与文本提示中作为占位符的特殊标记 <region> 相对应，用于在时空维度上识别和推断指定区域。

Token Mark

将 令牌标记 (Token Mark) 定义为一组令牌 $F \in \mathbb{R}^{N_F \times C}$ ，其中 $N_F$ 是令牌的总数， $C$ 表示特征维度。为了使用 Token Mark 表示一个区域，从 $[N_F]$ 中无放回地均匀采样 $N$ 个索引，获得令牌集 $R = \{r_i\}_{i=1}^N$ 。每个采样的令牌 $r_i$ 随后与对应的区域提示 $m_i$ 一一匹配，使得第 $i$ 个 Token Mark 与第 $i$ 个区域提示对齐。

这些令牌作为时空区域指示符，并被注入到相关视觉内容的语言侧输入中。具体而言使用一个线性层将 Token Mark 直接投影到词嵌入空间： $\hat{R} = \mathcal{F}_{proj}(R) \in \mathbb{R}^{N \times D}$ 。

为了将采样的令牌 $r_i$ 与其对应的区域 $m_i$ 联系起来，将令牌嵌入到由区域提示定义的像素中。具体来说，每个像素位置 $(h, w)$ 处的空间令牌标记 (Spatial Token Mark) $S \in \mathbb{R}^{C \times H_0 \times W_0}$ 的计算公式为： $$S_{:,h,w} = \frac{\sum_{i=1}^{N} m_{i,h,w} \cdot r_i}{\epsilon + \sum_{i=1}^{N} m_{i,h,w}}$$

其中 $\epsilon$ 是一个微小的正系数，用于防止在位置 $(h, w)$ 没有激活掩码时出现除零情况。接着，应用自适应平均池化来下采样 $S$ ，以匹配视觉令牌 $V$ 的形状，从而获得更新后的空间令牌标记 $\tilde{S}$ 。然后，使用共享投影层将其投影到词嵌入空间中，得到 $\hat{S} = \mathcal{F}_{proj}(\tilde{S}) \in \mathbb{R}^{D \times H \times W}$ 。最后，我们将空间区域特定信息整合到视觉令牌中： $\hat{V} = V + \hat{S}$ 。

该方法具有几个关键优势：

i) 防止时间漂移 (Preventing temporal drift)：通过将目标区域编码为跨帧共享的唯一表示，该方法确保了在整个视频序列中区域分配的一致性；

ii) 直接的区域-语言连接 (Direct region-language connection)：将 Token Mark 直接投影到词嵌入空间内，能够实现高效的区域-语言关系建模；

iii) 保持视觉-语言全局对齐 (Preserving vision-language global alignment)：通过将区域信息作为残差特征 (residual features) 整合，该架构保持了与基础图像-文本对多模态框架（如 LLaVA）的对齐。在没有区域提示的情况下，模型的功能与基础架构完全一致。

Temporal Region Guide Head

对于视频输入，在训练过程中引入了一个辅助头，以增强跨帧的区域一致性，确保即使仅在第一帧提供了区域提示（region prompt），也能实现对区域的准确表示。该辅助头对每个视觉标记（visual token）对应的令牌标记（Token Mark）进行分类，从而隐式地引导模型理解目标区域，而无需依赖来自轨迹片段（tracklets）的显式视频对象对应关系。

令 $V_t$ 表示第 $t$ 帧的视觉标记，从而形成整个视频的视觉标记序列，记作 $V_{vid} = (\hat{V}_1, V_2, \dots, V_T)$ ，其中 $\hat{V}_1$ 包含目标区域信息。序列 $V_{vid}$ 随后由语言模型处理，该模型旨在为整个视频序列生成区域感知（region-aware）的预测。

辅助分类头 $\mathcal{F}_{aux}$ 的执行过程如下： $$\mathcal{F}_{aux}(\mathcal{F}_{LLM}(V_{vid})) \in \mathbb{R}^{T \times H \times W \times (N_F + 1)}$$

其中 $N_F + 1$ 是分类类别（包括 $N_F$ 个令牌标记和背景）。

由于视觉标记是从原始输入分辨率下采样（downscaled）而来的，单个视觉标记内可能存在多个令牌标记。为了处理这种情况，本文应用了软标签分类（soft-label classification），为每个标记分配一个在 $N_F + 1$ 个类别上的软标签分布，以反映每个标记属于多个区域或背景的比例。

Loss Function

最终损失定义为 $\mathcal{L} = \mathcal{L}_{LLM} + \alpha \mathcal{L}_{aux}$ ，其中 $\alpha$ 用于平衡辅助分类损失的贡献。语言模型损失 $\mathcal{L}_{LLM}$ 计算为预测令牌与ground truth令牌之间的交叉熵损失。同时，辅助分类损失 $\mathcal{L}_{aux}$ 定义为每个视觉标记的预测软标签分布与ground truth软标签分布之间的交叉熵损失。该区域引导头仅在训练期间使用，不会在推理（inference）过程中引入额外的延迟。

Dataset

由于目前尚不存在区域级的视频指令数据集，本文提出了 RegVID-300k，旨在增强多模态大语言模型 (MLLM) 的对话能力，并获得对视频中各区域的准确响应。本文的方法包含三个步骤：

i) GPT4o 辅助的区域级详细字幕生成； ii) 视觉幻觉减轻； iii) 字幕引导的区域级指令样本生成。

数据集构成如下：

数据集的关键特征包括：

i) 大规模：我们的数据集包含 9.8 万个独特视频、21.4 万个轨迹或掩码片段 (tracklets/masklets) 以及 29.4 万条指令（如区域级详细字幕和对话）。
ii) 多样化：视频收集自 10 个用于不同任务的公共数据集。
iii) 细粒度问答 (QAs)：每个区域的描述约 60 个词，包含区域的上下文和时间信息，从而生成多样的指令样本。
iv) 高保真度：减轻了详细字幕中的视觉幻觉。 数据收集：视频收集自 10 个包含标注区域（如掩码片段、轨迹片段或单帧边界框）及名词的公共数据集。

GPT4o-Assisted Region-level Captions

从视频和区域掩码片段对中，本文借鉴了 SoM 的视觉提示技术，在视频的每一帧中，将带有区域索引的物体掩码覆盖在每个掩码的中心。随后，我们将经过 SoM 处理的视频输入 GPT4o ，通过在文本提示词中加入名词（如“生成 [0]: 猫, [1]: 猫, [2]: 手的详细描述”），请求生成包含每个掩码片段上下文和时间信息的丰富字幕。

Visual Hallucination Mitigation

受到 VFC 的启发，本文应用 LLM 和 MLLM 进行多阶段的视觉幻觉减轻。首先，利用 LLM 将详细的区域级字幕分解为多个针对字幕内容的封闭式问题。然后，将这些问题连同视频一起输入 MLLM，以验证内容是否正确。在第三阶段，收集在前一步中未通过验证的问题，并要求 LLM 删除原始字幕中未经验证的内容并重新生成字幕。

GPT-Assited Region-level Instruction Data

在最后一步中，基于字幕引导的指令微调数据构建理念，本文进一步处理字幕以生成区域级视频指令。利用纯文本 GPT4 从详细字幕中创建区域特定的问答对，涵盖字幕的各个方面。样本包括详细描述、总结以及针对特定区域的通用问答。本文提供了一些上下文示例 (in-context examples) 以提高样本生成的质量。生成的指令涵盖了上下文方面（如颜色、空间位置）和时间方面（如动作、行为）。

Background#

Contribution#

Method#

Token Mark#

Temporal Region Guide Head#

Loss Function#

Dataset#

GPT4o-Assisted Region-level Captions#

Visual Hallucination Mitigation#

GPT-Assited Region-level Instruction Data#