VideoRefer Suite: Advancing Spatial-Temporal Object Understanding with Video LLM 论文笔记
发布于 2026-01-10 · 上次修改 2026-01-11 · 2 分钟 · 257 字 · 流逝光
Describe Anything: Detailed Localized Image and Video Captioning 论文笔记
发布于 2026-01-04 · 上次修改 2026-01-04 · 2 分钟 · 221 字 · 流逝光
Omni-RGPT: Unifying Image and Video Region-level Understanding via Token Marks 论文笔记
发布于 2026-01-04 · 上次修改 2026-01-04 · 2 分钟 · 345 字 · 流逝光
Perceive Anything: Recognize, Explain, Caption, and Segment Anything in Images and Videos 论文笔记
发布于 2026-01-03 · 上次修改 2026-01-04 · 1 分钟 · 160 字 · 流逝光
FERRET: REFER AND GROUND ANYTHING ANYWHERE AT ANY GRANULARITY 论文笔记
发布于 2026-01-03 · 上次修改 2026-01-04 · 2 分钟 · 326 字 · 流逝光
Cloudflare 教程
发布于 2026-01-01 · 上次修改 2026-01-02 · 1 分钟 · 23 字 · 流逝光