Perceive Anything: Recognize, Explain, Caption, and Segment Anything in Images and Videos 论文笔记

Background

近期研究致力于通过视觉提示赋予视觉-语言模型区域级理解能力。现有方法可分为三种范式：

这些方法通常存在若干限制：(i) 它们通常仅产生有限的语义输出——往往只是类别标签或简短描述；(ii) 其设计是模态特定的，仅专注于单一的视觉模态（图像或视频），通用性有限；(iii) 它们依赖外部分割模型来提供掩码，这种串行设计增加了计算开销，并使整体性能对掩码质量敏感。

本文提出感知万物模型（PAM），这是一种端到端的区域级视觉语言模型，旨在实现对图像和视频的快速、全面的细粒度视觉理解，其能力包括预测类别、解释已识别区域元素的定义与上下文功能，并生成针对特定区域的详细描述。

Method

给定视觉提示（如点、框或掩码）以指定感兴趣区域，感知万物模型（PAM）能够同时实现：

（1）分割：在图像或整个视频中为指定区域生成精确的分割掩码。（2）识别：判定指定区域或对象的类别。（3）解释：清晰阐述该区域或对象在其给定语境中的定义、属性与功能。（4）描述：为图像、视频及视频流中的区域生成简洁或详细的描述文本。

Semantic Perceiver

语义感知器的架构模仿了 SAM 2 的特征融合模块 (S2-FFM)，它接收两个主要输入：

来自 S2-FFM 的增强掩码标记（Enhanced mask tokens）：结合了 IoU 和提示标记信息，作为精确掩码生成的唯一标识符；
S2-FFM 处理后的更新图像嵌入（Updated image embeddings）：捕获通用的视觉上下文，以及通过与掩码标记交互而增强的隐式特征。
接着将 $N_s$ 个可学习的语义标记（Semantic tokens）与增强的掩码标记连接。最后，通过语义感知器内的进一步注意力机制，我们可以提取出富含通用视觉和物体级定位信息的视觉标记。给定 $N$ 帧的输入，语义感知器输出两组 256 维向量：$64^2 \times N$ 个视觉标记和 $N_s \times N$ 个语义标记（默认 $N_s = 16$）。

Projector

位于大语言模型 (LLM) 之前的投影层包含两部分：一个像素重组 (Pixel shuffle) 操作和一个 MLP 投影器：

对于图像输入： 在相邻的 $2\times2$ 特征块上应用像素重组操作，以对视觉标记的数量进行下采样（减少 Token 数量）；
对于视频输入： 被提示的帧（Prompted frame）的处理方式与单张图像类似；而视频剪辑中的其余帧则经历更激进的 $4\times4$ 像素重组操作，以显著减少视觉标记，从而进一步提高语义解码器的处理效率。随后，使用两个独立的 MLP 分别对视觉标记和语义标记进行空间投影对齐。

Streaming Video Encode and Decode

基于 SAM 2 通过记忆模块在每帧中逐步引入历史信息的机制，本文提出了一种简单直接的策略，用于实现区域级流式视频字幕生成。

本文会对每个视频剪辑的最后一帧额外应用一次 $2\times2$ 的像素重组操作。这会产生更高密度的视觉标记，从而改善历史视觉信息的保存，这些标记随后作为下一个视频剪辑的“初始帧”。这种方法确保了每个剪辑的处理保持一致，并有效地将上一个剪辑的关键历史信息传递到下一个。此外，本文将之前的文本描述纳入提示词中，以进一步增强上下文历史，提升模型对正在发生的事件的理解和描述准确性。

在实践中，本文的框架允许用户灵活指定解码时间戳。到达指定时间戳时，模型会描述当前时间戳与前一个时间戳之间的时间间隔内的指定区域。

Training Strategies

采用三阶段的课程学习 (Curriculum learning) 方法来构建训练过程，逐步增强 PAM 从图像到视频的区域级视觉理解能力：

阶段 1：图像预训练与对齐 (Image Pretraining and Alignment) 侧重于建立视觉标记、语义标记与语言模型嵌入空间之间的稳健对齐。主要目标是使模型能有效理解区域级图像内容。在此阶段，仅训练语义感知器和投影层。
阶段 1.5：视频增强预训练与对齐 (Video-Enhanced Pretraining and Alignment) 通过引入区域级视频字幕来扩展图像训练，使模型能够通过整合时空视觉信息来理解动态场景。可训练模块与阶段 1 相同。
阶段 2：多模态微调 (Multimodal Fine-Tuning) 采用监督微调 (SFT) 使模型能够执行多样化任务并生成所需的响应。此阶段利用了经过细化和增强的高质量数据集。训练共同涉及语义感知器、投影层和语义解码器（LLM）。

Dataset

本文开发了一套稳健的数据精炼与增强流程，用以构建高质量训练数据集。该数据集具备三个关键特征：

(1) 广泛的语义粒度。提供从粗粒度（类别、定义、上下文功能）到细粒度（细节描述）的多样化视觉语义标注； (2) 区域流式描述标注。首个专门为流式视频区域描述任务构建的标注数据集）； (3) 双语标注，同时支持英语与中文。

Image Dataset

Regional Recognition, Explanation, and Caption： 对于区域识别，本文利用了多个实例检测、分割以及场景文本识别数据集。在这种背景下，边界框或掩码作为视觉提示输入，而标签则作为输出处理。

为了实现超越简单分类的深度、精细视觉理解，本文提出了一个增强流程，为每个特定区域生成：清晰的概念解释、上下文功能角色以及详细描述 。为实现这一目标，本文利用“Set of Mask”方法来识别感兴趣区域，并利用原始标注作为引导，促使模型产生所需的响应，随后进行人工质量保证。

Video Dataset

Region-level Video Caption： 为了将模型的区域描述能力扩展至视频领域，本文收集并分析了多个现有视频数据集，包括指代检测与分割数据集，以及近期为SAV数据集构建的Sa2VA标注。这些为基于文本描述检测、分割和描述视频中特定对象而设计的数据集，其描述往往过于粗略、简单、不准确，或主要关注静态信息，忽略了物体运动、交互关系及状态变化等贯穿视频的关键时序细节。

本文提出故事板驱动的描述扩展方法以克服局限：首先从视频均匀采样六帧关键帧，将其合成为高分辨率故事板，并使用SoM技术高亮目标对象。接着，以原始标注为条件，提示GPT-4o结合多帧整合信息生成详尽且具时序感知的描述。这种多帧机制比单帧分析更能增强上下文理解，从而获得更高质量的描述。

Region-level Streaming Video Caption： 为了将模型能力扩展至流式处理模式，本文首先采TRACE-Uni模型将输入视频分割为多个独立事件，每个事件均由其时间边界界定。随后，对每个分割后的视频片段，应用相同的“故事板驱动”处理方法。为生成精确且连续的事件描述，重新设计了GPT-4o输入提示，通过迭代方式将前序视频片段的描述作为上下文信息纳入当前片段的处理流程。

Background#

Method#

Semantic Perceiver#

Projector#

Streaming Video Encode and Decode#

Training Strategies#

Dataset#

Image Dataset#

Video Dataset#