全部OpenAIHugging FaceArXiv AIGoogle AIVentureBeat AIMarkTechPostPragmatic EngineerThe GradientOne Useful ThingCrunchbase NewsTechCrunchGoogle DeepMindMicrosoft ResearchLlamaIndex BlogarXiv cs.AIarXiv cs.LGarXiv cs.CLarXiv cs.CVNature Machine IntelligenceLilian WengAndrej KarpathySebastian RuderBAIR BlogAgile Lab EngineeringGoogle AI BlogMeta NewsroomMIT Tech Review AITechCrunch AIWiredFull-Stack AI EngineerAgentplexa16zSequoia CapitalY CombinatorElad GilTomasz TunguzNot BoringThe GeneralistSimon WillisonSimon Willison NewsletterLatent SpaceImport AIInterconnectsHamel HusainDAIR.AIEnterprise AI GovernanceStratecherySemiAnalysisBenedict Evans
10 条条目 · 49 个活跃源
2026年5月20日
04:00
arXiv cs.AI
学习交接:界面约束下可证明收敛的工作流学习
提出界面约束半马尔可夫决策过程及IC-Q算法,理论证明收敛,实验验证效果。
04:00
arXiv cs.AI
POLAR-Bench:针对LLM代理隐私-效用权衡的诊断基准
POLAR-Bench评估LLM代理隐私保护,前沿模型守住99%,小模型泄漏过半。
04:00
arXiv cs.AI
渐进自主即偏好学习:智能工具使用中信任校准的形式化
将信任校准形式化为偏好学习,用高斯过程分类动作空间为允许/阻止/询问区域。
04:00
arXiv cs.AI
How Far Are We From True Auto-Research?
04:00
arXiv cs.AI
并非所有不确定性都相同:波动性、随机性与探索
研究发现,波动性促进探索,随机性抑制探索,这一不对称性源于噪声推断的差异。
04:00
arXiv cs.AI
幻觉即漏洞:携带证据的多模态智能体
提出证据携带多模态智能体(ECA),用证书门控阻断幻觉驱动的工具调用,实现0%不安全动作率。
04:00
arXiv cs.AI
大规模语言模型能否革新调查研究?灾害准备响应实验
提出LLM五阶段框架,A-TLM模型在灾害调查块缺失插补中优于经典方法,建议子组偏差审计。
04:00
arXiv cs.AI
MOCHA:面向智能体技能优化的多目标切比雪夫退火算法
MOCHA用切比雪夫标量化和指数退火,在多技能优化中全面突破,平均正确率提升7.5%,发现更多帕累托最优解。
04:00
arXiv cs.AI
生成式递归推理
GRAM将递归推理转化为概率多轨迹计算,支持多假设和推理时扩展,在结构化推理任务上优于确定性方法。
04:00
arXiv cs.AI
基于符号图建模的冲突鲁棒多智能体推理
提出SIGMA框架,用符号图建模智能体间信任与冲突,经冲突感知消息传递实现鲁棒预测,性能领先。