2011 条条目 · 49 个活跃源
2026年5月18日
04:00
ArXiv AI

MR2-ByteTrack:面向AI增强型嵌入式视觉传感器节点的基于CNN和Transformer的视频目标检测

MR2-ByteTrack采用多分辨率推理和重新评分算法,在MCU上实现实时视频目标检测,能耗最高降低55%。

04:00
ArXiv AI

Ghosted Layers: Unconstrained Activation Alignment for Recovering Layer-Pruned LLMs

04:00
ArXiv AI

DrugSAGE:用于高效前沿药物发现的自我进化智能体经验

DrugSAGE通过跨任务记忆复用经验,在33个分子性质预测任务中排名第一,零测试搜索下超基线10-30%,实现高效前沿药物发现。

04:00
ArXiv AI

面向智能编码系统的运行时结构化任务分解

运行时结构化任务分解仅重试失败子任务,重试成本较单体系统降低51.7%,较静态分解降低73.2%。

04:00
ArXiv AI

随机时延下机器人遥操作的残差强化学习

提出残差强化学习框架,结合LSTM状态估计,应对随机延迟,实现鲁棒稳定遥操作。

04:00
ArXiv AI

RIDE:基于Retinex先验的解耦方法用于揭露隐蔽物体

RIDE利用Retinex同质分解与可区分性差距定理,通过任务驱动解耦实现隐蔽物体高效分割。

04:00
ArXiv AI

GRLO: 从零开始在开放式环境中实现可泛化强化学习

GRLO仅用5K提示和22.7GPU小时,将模型平均性能从24.1提升至63.1,数据量和算力分别减少46倍和68倍。

04:00
ArXiv AI

基于混合大语言模型的机器人任务调度智能框架

使用双LLM代理优化建筑机器人任务调度,平衡效率与资源,实时适应现场变化。

04:00
ArXiv AI

面向模式约束临床信息抽取的检索增强大语言模型

提出模块化RAG管道,结合模式约束提示与二次审计,最佳配置达80.36% F1,检索增强一致提升性能。

04:00
ArXiv AI

差分隐私模体保持的多模态哈希

通过度裁剪与噪声镜像下降生成差分隐私合成图,蒸馏保留拓扑模体,跨模态哈希性能达非私有的92.5%。

04:00
ArXiv AI

在利益冲突下学习

ML系统与用户利益冲突,现有方案缺乏激励。本文提出博弈论框架,最大化有益信息并最小化偏见操纵。

04:00
ArXiv AI

SkiP:何时跳过何时精炼以实现高效机器人操作

SkiP通过动作重标记动态跳过冗余步骤并精炼关键动作,减少15–40%执行步骤且成功率不降。

04:00
ArXiv AI

分布式学习中的数据归因脆弱性研究

分布式学习数据归因脆弱,单一攻击可大幅提高自身归因值而保持模型效用,揭示新攻击面。

04:00
ArXiv AI

RoPE在长上下文中无法区分位置和标记(被证明)

证明RoPE在长上下文中失去位置和令牌区分能力,局部性与一致性消失,调整超参数也无法兼得。

04:00
ArXiv AI

PrismQuant: 面向高斯混合源的率失真最优矢量量化

提出PrismQuant,仅需分量标签成本,全局反向注水分配比特,逼近理论率失真界,模型小巧性能优异。

04:00
ArXiv AI

DiffVAS:部分可观测环境下的扩散引导视觉主动搜索

DiffVAS利用扩散模型重建区域,结合强化学习规划,在部分可观测环境中同时搜索多样目标,效果显著。

04:00
ArXiv AI

神经点形式

提出神经点形式(NPFs),利用拉普拉斯技术建模点云微分形式,证明一致性,提供可解释几何特征。

04:00
ArXiv AI

DeltaPrompts:逃离多模态蒸馏中的零Delta陷阱

揭示零Delta陷阱,提出基于答案散度的提示筛选,构建200k高散度数据集DeltaPrompts,提升多模态蒸馏效果。

04:00
ArXiv AI

基于结构噪声初始化与引导的无调参指令视频编辑

提出无调参指令视频编辑框架,通过结构噪声初始化和引导机制提升内容一致性及视觉效果,性能领先。

04:00
ArXiv AI

具有学习可靠性的过程奖励

BetaPRM同时预测步骤成功率及其可靠性,基于此提出ACA自适应分配计算,减少33.57%token并提升准确率。

04:00
ArXiv AI

通过智能体程序分析检测多语言微服务中的权限提升

Neo结合大语言模型与程序分析,检测微服务权限提升漏洞,发现24个零日漏洞,精度81%、召回85%。

04:00
ArXiv AI

潜在视频预测有助于学习更好的世界模型

潜在预测模型在特征判别、鲁棒性、遮挡和时间方向等维度均优于其他模型,证明其作为世界模型的优势。

04:00
ArXiv AI

使用词嵌入技术的领域无关游戏抽象

提出基于词嵌入的领域无关游戏抽象方法,将动作向量化并聚类,实验有效但未超越专用算法。

04:00
ArXiv AI

极低数据细粒度图像分类中预训练目标至关重要:一项基于骨干网络控制的研究

极低数据FGVC中,监督与对比预训练线性可分最强,MAE非线性更优,DINOv3表现差,建议根据分类器类型选目标。

04:00
ArXiv AI

运营商控制的6G:从连接基础设施到可保障数字服务

6G必须转向运营商主导,通过控制契约和保障经济实现可保障数字服务,Rakuten Mobile已验证可行性。

04:00
ArXiv AI

CTF4Nuclear:核裂变与核聚变模型的通用任务框架

提出核工程ML评估框架CTF,含多数据集和12项指标,基准测试揭示局限,旨在标准化提升可重复性。

04:00
ArXiv AI

AstraFlow:面向数据流的智能体大语言模型强化学习

AstraFlow通过解耦组件实现数据流控制,支持多策略、弹性异构跨区域RL,训练加速2.7倍且精度不变。

04:00
ArXiv AI

基于通用视界模型的离线强化学习

提出通用视界模型直接预测任意视界未来,配合缩尾分布稳定训练,显著提升离线强化学习性能。

04:00
ArXiv AI

面向多类别互补标签学习的有偏转移矩阵方法

通过设计有偏生成过程限制互补标签子集,提出BICL框架,实现多类别CLL中7倍准确率提升。

04:00
ArXiv AI

少量GPU,海量规模:PrismLLM实现忠实的大语言模型训练模拟

PrismLLM用不到1%的GPU忠实模拟大规模LLM训练,迭代时间误差仅0.58%,内存误差<0.01%。

04:00
ArXiv AI

反馈世界模型实现扩散策略的精确引导

推理时在线更新反馈状态,修正预测误差,减少76.4%,提升分布外任务成功率30%。

04:00
ArXiv AI

TFZ-Tree:一种面向资源受限设备的超轻量级波形分类框架

提出超轻量级波形分类框架TFZ-Tree,基于时频特征与Z检验树,在十种6G波形上达99.5%准确率,延迟<4ms。

04:00
ArXiv AI

面向群体归因的交互感知影响函数

提出交互感知影响函数,加入二阶交互项捕捉样例间协同效应,实验超越一阶方法。

04:00
ArXiv AI

中文标题:逻辑斯蒂固定点的尖锐谱阈值

中文摘要:发现软最大反馈系统稳定性的精确谱阈值,超越经典理论,扩展了可证稳定的边界。

04:00
ArXiv AI

VAGS: 用于图像编辑与生成的速率自适应引导尺度

提出无需训练的VAGS,通过速度场余弦相似度动态调整引导强度,提升图像编辑与生成的结构保真度。

04:00
ArXiv AI

α-TCAV:一种基于概念激活向量进行测试的统一框架

α-TCAV用平滑函数替代指示函数,解决CAV不稳定性,提供调参指导,建议将全预算用于单个CAV。

04:00
ArXiv AI

VLMs追踪而不跟踪:视觉路径跟随失败诊断

VLMs路径跟随常因局部相似干扰丢失目标路径,且规模扩大、推理或指令等标准补救均无效。

04:00
ArXiv AI

H-Mem:一种通过混合结构实现智能体记忆演化与检索的新型记忆机制

H-Mem通过混合结构(树与知识图谱)建模记忆演化与高效检索,在问答任务上达到最优性能。

04:00
ArXiv AI

ASRU:融合激活引导与强化遗忘的多模态大语言模型遗忘方法

ASRU通过激活引导和强化遗忘优化生成质量,提升遗忘效果与模型效用平衡。

04:00
ArXiv AI

连接硅与海马体:代数学确定性记忆"VaCoAl"作为Vector-HaSH和TEM的底层结构

VaCoAl代数学确定性超维记忆架构,提供位精确随机投影替代,代数解释多跳衰减,连接神经科学与工程。

04:00
ArXiv AI

DecomPose: 解耦类别级6D物体姿态估计中的跨类别优化冲突

提出DecomPose框架,通过难度感知梯度解耦与稳定性非对称分支,缓解跨类别优化冲突,提升6D姿态估计性能。

04:00
ArXiv AI

GRASP:学习在多人物非语言交互中立足社会推理

GRASP数据集含29万QA对,覆盖注视与手势事件,提出SGR奖励信号,提升多人物非语言交互理解。

04:00
ArXiv AI

UAM:VLA训练遗忘问题的双流视角

UAM通过双流架构分离语义与控制,保留VLM超95%多模态能力,无需冻结权重即实现高任务成功率。

04:00
ArXiv AI

观点:在标注流水线中,早期质量保证比后期验证更具成本效益

呼吁标注流水线优先早期质量保证(左移原则),比后期验证成本效益更高,可大幅降低错误率和成本。

04:00
ArXiv AI

海马-内嗅皮层启发的世界模型中的结构抽象与泛化

提出脑启发层次模型,通过逆模型和路径整合实现结构抽象与泛化,用于视觉预测和知识重用。

04:00
ArXiv AI

腿式机械臂的动态拾放学习

提出分层强化学习框架,实现动态拾放,仿真成功率86%,实物73%,负载达1.3kg,耗时4.06秒。

04:00
ArXiv AI

基于心脏模式引导的双向融合用于半监督心电图分割

提出CardioMix框架,用心脏模式引导双向CutMix,增强标注与未标注数据交互,提升半监督心电图分割性能。

04:00
ArXiv AI

DiLA: 解耦潜动作世界模型

DiLA通过内容-结构解耦,协同潜动作学习,兼顾高抽象与高保真生成,实现高质量视频建模与动作迁移。

04:00
ArXiv AI

BiomedAP:一种视觉引导的双锚点框架与门控跨模态融合,实现稳健的医学视觉-语言适配

提出视觉引导双锚框架与门控跨模态融合,增强医学VLM对提示扰动的鲁棒性,少样本精度领先。

04:00
ArXiv AI

CompactQE:通过小型开源权重LLM实现可解释的翻译质量评估

小型开源LLM单次提示即可同时输出质量分数、错误注释、纠正及后编辑,性能媲美大型专有LLM,超越传统指标。