CRAFT:面向多模态视频问答的评论优化自适应关键帧定位
CRAFT通过动态关键帧、ASR及评论循环提升多视频问答性能,在MAGMaR 2026上取得最佳平均分0.739。
MotionMERGE:多粒度人体运动编辑、推理、生成与解释框架
MotionMERGE提出统一多粒度框架,实现细粒度运动控制与推理,提升生成、理解与编辑精度。
利用自监督特征进行艺术品分类
利用自监督特征(DINO/CLIP)进行艺术品分类与检索,可提升性能并应用于VR博物馆导航。
Artifact-Bench:评估多模态大语言模型检测与评估AI生成视频伪影能力
为评估MLLMs对AI生成视频伪影的检测与分析,提出Artifact-Bench基准,实验揭示其感知推理有限且与人类偏好不一致。
EgoTraj:面向多模态预测的真实世界自我中心人体轨迹数据集
提出EgoTraj数据集,含75条真实城市导航序列及多模态标注,用于自我中心轨迹预测。
MedFM-Robust:医疗基础模型的鲁棒性基准测试
评估医疗基础模型在真实临床条件下的鲁棒性,涵盖视觉语言与分割模型。
视基础模型在开放集虹膜呈现攻击检测中的系统性失效分析
视觉基础模型在开放集虹膜PAD中泛化失败,尤其对未见攻击和跨光谱,强封闭集性能不代表开放集安全。
Personalized Face Privacy Protection From a Single Image
通过多时域预测学习光伏功率输出中的长期时间依赖性
提出多时域预测框架,联合优化未来序列,提升光伏功率预测精度与鲁棒性。
LiFT:提升的跨切片特征轨迹——基于2D生成器的3D图像生成
LiFT将3D生成分解为逐切片生成与跨切片轨迹学习,轻量高效地实现高分辨率3D医学图像合成,提升一致性并降低推理成本。
面向高效视觉-语言模型推理的旋转对齐关键通道剪枝
RotateK通过在线PCA旋转对齐通道重要性,实现结构化稀疏剪枝,在固定缓存下保留更多视觉token,提升推理效率与精度。
FAGER:基于事实的文本到图像模型评估与精炼
提出FAGER框架,结合LLM与VLM评估事实性,并实现无训练精炼,显著提升多领域事实准确度。
面向数据高效的视频预训练:利用冻结的图像基础模型
冻结图像基础模型,仅训练循环模块实现视频理解,大幅降低数据计算需求。
知道何时不预测:自监督学习与弃权机制助力更安全的糖尿病视网膜病变筛查
本研究探讨自监督学习预训练时长对校准置信度和弃权的影响,发现更长预训练不一定提高可靠性,预训练长度是重要的可靠性设计选择。
视觉层级中的高效编码
从有限自然图像中学习无监督层级特征,与人类视觉及脑反应一致,提升数据效率。
低资源医疗环境下的医学影像量化机器学习模型
提出量化压缩框架,脑肿瘤MRI分类实现6.14倍压缩且精度无损,适用于资源受限临床。
基于智能手机的圆形样地森林清查抽样方法
利用智能手机视频,结合深度估计与SLAM,实现森林样地树木直径与位置高精度测量,成本低。
D-凸性:基于拟凹性的数据驱动图像分割统一可微分凸形状先验
提出基于拟凹性的可微凸形状先验,将全局凸性转为局部微分约束,提升分割网络形状规则性。