10 条条目 · 49 个活跃源
2026年5月20日
04:00
arXiv cs.AI

学习交接:界面约束下可证明收敛的工作流学习

提出界面约束半马尔可夫决策过程及IC-Q算法,理论证明收敛,实验验证效果。

04:00
arXiv cs.AI

POLAR-Bench:针对LLM代理隐私-效用权衡的诊断基准

POLAR-Bench评估LLM代理隐私保护,前沿模型守住99%,小模型泄漏过半。

04:00
arXiv cs.AI

渐进自主即偏好学习:智能工具使用中信任校准的形式化

将信任校准形式化为偏好学习,用高斯过程分类动作空间为允许/阻止/询问区域。

04:00
arXiv cs.AI

How Far Are We From True Auto-Research?

04:00
arXiv cs.AI

并非所有不确定性都相同:波动性、随机性与探索

研究发现,波动性促进探索,随机性抑制探索,这一不对称性源于噪声推断的差异。

04:00
arXiv cs.AI

幻觉即漏洞:携带证据的多模态智能体

提出证据携带多模态智能体(ECA),用证书门控阻断幻觉驱动的工具调用,实现0%不安全动作率。

04:00
arXiv cs.AI

大规模语言模型能否革新调查研究?灾害准备响应实验

提出LLM五阶段框架,A-TLM模型在灾害调查块缺失插补中优于经典方法,建议子组偏差审计。

04:00
arXiv cs.AI

MOCHA:面向智能体技能优化的多目标切比雪夫退火算法

MOCHA用切比雪夫标量化和指数退火,在多技能优化中全面突破,平均正确率提升7.5%,发现更多帕累托最优解。

04:00
arXiv cs.AI

生成式递归推理

GRAM将递归推理转化为概率多轨迹计算,支持多假设和推理时扩展,在结构化推理任务上优于确定性方法。

04:00
arXiv cs.AI

基于符号图建模的冲突鲁棒多智能体推理

提出SIGMA框架,用符号图建模智能体间信任与冲突,经冲突感知消息传递实现鲁棒预测,性能领先。