18 条条目 · 49 个活跃源
2026年5月20日
04:00
arXiv cs.CV

CRAFT:面向多模态视频问答的评论优化自适应关键帧定位

CRAFT通过动态关键帧、ASR及评论循环提升多视频问答性能,在MAGMaR 2026上取得最佳平均分0.739。

04:00
arXiv cs.CV

MotionMERGE:多粒度人体运动编辑、推理、生成与解释框架

MotionMERGE提出统一多粒度框架,实现细粒度运动控制与推理,提升生成、理解与编辑精度。

04:00
arXiv cs.CV

利用自监督特征进行艺术品分类

利用自监督特征(DINO/CLIP)进行艺术品分类与检索,可提升性能并应用于VR博物馆导航。

04:00
arXiv cs.CV

Artifact-Bench:评估多模态大语言模型检测与评估AI生成视频伪影能力

为评估MLLMs对AI生成视频伪影的检测与分析,提出Artifact-Bench基准,实验揭示其感知推理有限且与人类偏好不一致。

04:00
arXiv cs.CV

EgoTraj:面向多模态预测的真实世界自我中心人体轨迹数据集

提出EgoTraj数据集,含75条真实城市导航序列及多模态标注,用于自我中心轨迹预测。

04:00
arXiv cs.CV

MedFM-Robust:医疗基础模型的鲁棒性基准测试

评估医疗基础模型在真实临床条件下的鲁棒性,涵盖视觉语言与分割模型。

04:00
arXiv cs.CV

视基础模型在开放集虹膜呈现攻击检测中的系统性失效分析

视觉基础模型在开放集虹膜PAD中泛化失败,尤其对未见攻击和跨光谱,强封闭集性能不代表开放集安全。

04:00
arXiv cs.CV

Personalized Face Privacy Protection From a Single Image

04:00
arXiv cs.CV

通过多时域预测学习光伏功率输出中的长期时间依赖性

提出多时域预测框架,联合优化未来序列,提升光伏功率预测精度与鲁棒性。

04:00
arXiv cs.CV

LiFT:提升的跨切片特征轨迹——基于2D生成器的3D图像生成

LiFT将3D生成分解为逐切片生成与跨切片轨迹学习,轻量高效地实现高分辨率3D医学图像合成,提升一致性并降低推理成本。

04:00
arXiv cs.CV

面向高效视觉-语言模型推理的旋转对齐关键通道剪枝

RotateK通过在线PCA旋转对齐通道重要性,实现结构化稀疏剪枝,在固定缓存下保留更多视觉token,提升推理效率与精度。

04:00
arXiv cs.CV

FAGER:基于事实的文本到图像模型评估与精炼

提出FAGER框架,结合LLM与VLM评估事实性,并实现无训练精炼,显著提升多领域事实准确度。

04:00
arXiv cs.CV

面向数据高效的视频预训练:利用冻结的图像基础模型

冻结图像基础模型,仅训练循环模块实现视频理解,大幅降低数据计算需求。

04:00
arXiv cs.CV

知道何时不预测:自监督学习与弃权机制助力更安全的糖尿病视网膜病变筛查

本研究探讨自监督学习预训练时长对校准置信度和弃权的影响,发现更长预训练不一定提高可靠性,预训练长度是重要的可靠性设计选择。

04:00
arXiv cs.CV

视觉层级中的高效编码

从有限自然图像中学习无监督层级特征,与人类视觉及脑反应一致,提升数据效率。

04:00
arXiv cs.CV

低资源医疗环境下的医学影像量化机器学习模型

提出量化压缩框架,脑肿瘤MRI分类实现6.14倍压缩且精度无损,适用于资源受限临床。

04:00
arXiv cs.CV

基于智能手机的圆形样地森林清查抽样方法

利用智能手机视频,结合深度估计与SLAM,实现森林样地树木直径与位置高精度测量,成本低。

04:00
arXiv cs.CV

D-凸性:基于拟凹性的数据驱动图像分割统一可微分凸形状先验

提出基于拟凹性的可微凸形状先验,将全局凸性转为局部微分约束,提升分割网络形状规则性。