VideoRefer Suite: Advancing Spatial-Temporal Object Understanding with Video LLM 论文笔记

视频由动态序列构成,其不仅呈现视觉内容,还传递了不同事件与对象之间的时序和关联关系;现有的视频大语言模型(Video LLMs)主要侧重于整体场景理解,这些方法往往难以捕捉视频内容中细微的要素 Task Formulation 视频指代任务旨在理解用户在…

发布于 2026-01-10 · 上次修改 2026-01-11 · 2 分钟 · 257 字 · 流逝光

Describe Anything: Detailed Localized Image and Video Captioning 论文笔记

图像描述长期以来一直是计算机视觉和自然语言处理领域中的一个挑战。大多数现有视觉语言模型(如GPT-4o)缺乏精确定位机制,近期赋予视觉语言模型(VLM)处理二维定位信息(如边界框)的研究方法通常仅生成简短短语,而非详细描述…

发布于 2026-01-04 · 上次修改 2026-01-04 · 2 分钟 · 221 字 · 流逝光

Omni-RGPT: Unifying Image and Video Region-level Understanding via Token Marks 论文笔记

如何构建一种通用方法以有效解决跨图像与视频的特定区域任务,仍是一个待突破的挑战。一个关键挑战在于实现视频序列的可扩展性。由于视频可能包含大量帧,依赖边界框坐标作为文本输入的方法面临扩展限制,因为输入的区域标记会随帧数线性增长。基于RoI的方法同样存在此问题,因为它们需要从空间区域重复提取视觉特征(如下图a所示)。而依赖单帧(例如初始帧)作为替代方案亦非最优选择,因为其在后续帧中缺乏对目标的可靠参照…

发布于 2026-01-04 · 上次修改 2026-01-04 · 2 分钟 · 345 字 · 流逝光

Perceive Anything: Recognize, Explain, Caption, and Segment Anything in Images and Videos 论文笔记

近期研究致力于通过视觉提示赋予视觉-语言模型区域级理解能力。现有方法可分为三种范式: 这些方法通常存在若干限制:(i) 它们通常仅产生有限的语义输出——往往只是类别标签或简短描述;(ii) 其设计是模态特定的,仅专注于单一的视觉模态(图像或视频),通用性有限;(iii) 它们依赖外部分割模型来提供掩码,这种串行设计增加了计算开销,并使整体性能对掩码质量敏感…

发布于 2026-01-03 · 上次修改 2026-01-04 · 1 分钟 · 160 字 · 流逝光

FERRET: REFER AND GROUND ANYTHING ANYWHERE AT ANY GRANULARITY 论文笔记

本质上,referring和grounding需要同类型的知识:空间信息与语义的对齐。尽管如此,现有研究大多将指代表达与视觉grounding作为独立任务进行学习 本文旨在探讨以下三个核心问题:1. 如何在统一框架中整合referring与gro..

发布于 2026-01-03 · 上次修改 2026-01-04 · 2 分钟 · 326 字 · 流逝光

Cloudflare 教程

Cloudflare的应用还是挺多的,赛博大善人这一块。开个笔记来总结一下我常用的一些用途。 基本使用 我之前一直都是,在哪个网站买的域名,就在哪里做DNS的解析。后来发现首先是Cloudflare来做DNS解析的话,有很多额外free的功能很好用,比如说提供长期的、支持子域名的SSL证书,做缓存Always Online,免费CDN加速(不过在国内好像是反向加速……),人机验证等等。 拿liushiguang.com这个域名来举例: 邮件路由 用这个方法可以理论上获得无限的邮箱。 原理其实很简单,就是在解析域名的时候加上几条DNS记录,使得发送到该域名(比如 xxx@liushiguang.com)的邮件会被转发到你设置好的邮箱里面。当然也可以把邮件转发到Cloudflare的Worker来做一些自动化的处理操作,但其实我主要还是转发到邮箱里面。 Cloudflare R2 S3兼容API Cloudflare R2支持通过S3兼容的API来访问,免费额度有10G的存储空间;A类操作(PUT、LIST等)每月100w次,B类操作(GET等)每月1000w次。白嫖就是爽。 以CherryStudio的S3兼容存储备份为例,把流程列一下。 S3相关的要填的信息主要有:API地址、区域、存储桶、Access Key ID以及Secret Access Key这几个值。 图床 Cloudflare Turnstile

发布于 2026-01-01 · 上次修改 2026-01-02 · 1 分钟 · 23 字 · 流逝光

Ubuntu24.04 GTK主题应用至Nautilus

GTK主题应用到Nautilus 这个问题是很早之前的一个问题了,我早就解决了,今天想起来了来记录一下。 问题描述 将系统更新到Ubuntu24.04之后(其实主要是因为Gnome更新到了46了),然后在gnome-tweaks中设置Legacy Applications的时候无法应用到Nautilus以及系统Settings的样式上。 1 貌似是因为Gnome更新之后,不能这样了,得用下面的方法: 在下载的xxx主题里面找到gtk-4.0文件夹,然后用它替换掉~/.config/gtk-4.0文件夹,就ok了。 感觉还挺麻烦的。。。 怎么把主题应用到 nautilus 和其他一些应用上 https://www.reddit.com/r/gnome/comments/1dzuomw/how_to_apply_theme_to_nautilus_and_some_other_apps/?tl=zh-hans  ↩︎

发布于 2025-12-28 · 上次修改 2025-12-28 · 1 分钟 · 14 字 · 流逝光