Aura · arXiv cs.CV

18 条条目 · 49 个活跃源

2026年5月20日

04:00

arXiv cs.CV

CRAFT：面向多模态视频问答的评论优化自适应关键帧定位

CRAFT通过动态关键帧、ASR及评论循环提升多视频问答性能，在MAGMaR 2026上取得最佳平均分0.739。

04:00

arXiv cs.CV

MotionMERGE：多粒度人体运动编辑、推理、生成与解释框架

MotionMERGE提出统一多粒度框架，实现细粒度运动控制与推理，提升生成、理解与编辑精度。

04:00

arXiv cs.CV

利用自监督特征进行艺术品分类

利用自监督特征（DINO/CLIP）进行艺术品分类与检索，可提升性能并应用于VR博物馆导航。

04:00

arXiv cs.CV

Artifact-Bench：评估多模态大语言模型检测与评估AI生成视频伪影能力

为评估MLLMs对AI生成视频伪影的检测与分析，提出Artifact-Bench基准，实验揭示其感知推理有限且与人类偏好不一致。

04:00

arXiv cs.CV

EgoTraj：面向多模态预测的真实世界自我中心人体轨迹数据集

提出EgoTraj数据集，含75条真实城市导航序列及多模态标注，用于自我中心轨迹预测。

04:00

arXiv cs.CV

MedFM-Robust：医疗基础模型的鲁棒性基准测试

评估医疗基础模型在真实临床条件下的鲁棒性，涵盖视觉语言与分割模型。

04:00

arXiv cs.CV

视基础模型在开放集虹膜呈现攻击检测中的系统性失效分析

视觉基础模型在开放集虹膜PAD中泛化失败，尤其对未见攻击和跨光谱，强封闭集性能不代表开放集安全。

04:00

arXiv cs.CV

Personalized Face Privacy Protection From a Single Image

04:00

arXiv cs.CV

通过多时域预测学习光伏功率输出中的长期时间依赖性

提出多时域预测框架，联合优化未来序列，提升光伏功率预测精度与鲁棒性。

04:00

arXiv cs.CV

LiFT：提升的跨切片特征轨迹——基于2D生成器的3D图像生成

LiFT将3D生成分解为逐切片生成与跨切片轨迹学习，轻量高效地实现高分辨率3D医学图像合成，提升一致性并降低推理成本。

04:00

arXiv cs.CV

面向高效视觉-语言模型推理的旋转对齐关键通道剪枝

RotateK通过在线PCA旋转对齐通道重要性，实现结构化稀疏剪枝，在固定缓存下保留更多视觉token，提升推理效率与精度。

04:00

arXiv cs.CV

FAGER：基于事实的文本到图像模型评估与精炼

提出FAGER框架，结合LLM与VLM评估事实性，并实现无训练精炼，显著提升多领域事实准确度。

04:00

arXiv cs.CV

面向数据高效的视频预训练：利用冻结的图像基础模型

冻结图像基础模型，仅训练循环模块实现视频理解，大幅降低数据计算需求。

04:00

arXiv cs.CV

知道何时不预测：自监督学习与弃权机制助力更安全的糖尿病视网膜病变筛查

本研究探讨自监督学习预训练时长对校准置信度和弃权的影响，发现更长预训练不一定提高可靠性，预训练长度是重要的可靠性设计选择。

04:00

arXiv cs.CV

视觉层级中的高效编码

从有限自然图像中学习无监督层级特征，与人类视觉及脑反应一致，提升数据效率。

04:00

arXiv cs.CV

低资源医疗环境下的医学影像量化机器学习模型

提出量化压缩框架，脑肿瘤MRI分类实现6.14倍压缩且精度无损，适用于资源受限临床。

04:00

arXiv cs.CV

基于智能手机的圆形样地森林清查抽样方法

利用智能手机视频，结合深度估计与SLAM，实现森林样地树木直径与位置高精度测量，成本低。

04:00

arXiv cs.CV

D-凸性：基于拟凹性的数据驱动图像分割统一可微分凸形状先验

提出基于拟凹性的可微凸形状先验，将全局凸性转为局部微分约束，提升分割网络形状规则性。