1463 条条目 · 10 个活跃源
2026年5月18日
04:00
ArXiv AI

CAPS:级联自适应成对选择实现高效并行推理

CAPS用级联自适应配对选择,以约25%验证代价超越多数领先推理方法。

04:00
ArXiv AI

编码智能体的多维度潜在推理上下文剪枝

提出LaMR框架,将代码相关性分解为语义与依赖两维度,分别建模并融合,实现高效剪枝,节省Token并提升性能。

04:00
ArXiv AI

基于大型语言模型的零样本目标识别

系统评估前沿LLM在PDDL基准上的零样本目标识别,揭示证据整合差异,可作为规划知识基准。

04:00
ArXiv AI

Solvita:通过智能体演化增强大型语言模型在竞赛编程中的能力

Solvita框架通过四个智能体与可训练知识网络实现持续学习,无需更新权重,在竞赛编程中准确率近乎翻倍,创下新SOTA。

04:00
ArXiv AI

中文标题:超越合作伙伴多样性:一种基于影响的团队引导框架用于零样本人机协作

中文摘要:提出基于影响的团队引导框架,通过激励多样交互与引导协调轨迹,提升零样本人机团队性能。

04:00
ArXiv AI

AI控制的集成监控:多样化信号胜过更多算力

12个GPT-4.1-Mini监控器集成,多样化组合比同质集成检测性能提升2.4倍,微调监控器更优,证明多样性驱动安全增益。

04:00
ArXiv AI

从LLM生成的猜想到Lean形式化:基于平方和证书的自动多项式不等式证明

提出NSPI框架,结合LLM与符号计算,通过平方和证书自动证明多项式不等式,并在Lean中形式验证,具有良好可扩展性。

04:00
ArXiv AI

X-SYNTH:超越检索——从人类注意力观测综合企业情境

X-SYNTH基于人类注意力建模行为基线,综合企业情境,销售线索TLR提升6.5倍,FLR降至18.8%,证明注意力是可靠依据。

04:00
ArXiv AI

DRS-GUI: 无需训练的GUI定位动态区域搜索

提出DRS-GUI框架,模仿人类感知动态搜索界面,通过MCTS规划行动和区域质量奖励筛选,提升GUI定位性能14%。

04:00
ArXiv AI

我们能信任AI推断的用户状态吗?一个验证LLMs在操作环境中用户状态分类可靠性的心理测量框架

研究发现仅31/213指标稳定,提出可复现框架,强调实时系统需验证可靠性而非默认可信。

04:00
ArXiv AI

先见后码:学习空间感知教育动画生成中的视觉先验

提出OmniManim框架,通过显式视觉规划(粗到细边界框去噪与插值感知优化)解决教育动画渲染缺陷,显著提升质量。

04:00
ArXiv AI

立场:人工智能需要元智能——论元认知AI的必要性

主张将元认知作为通用设计原则,让AI监控自身状态并合理分配资源,以提升准确性、安全性和效率,通过联邦学习案例展示。

04:00
ArXiv AI

RTL-BenchMT:通过智能体辅助分析与修订实现RTL生成基准的动态维护

提出RTL-BenchMT框架,自动检测并修复RTL基准中的缺陷和过拟合案例,降低维护成本,开源改进套件。

04:00
ArXiv AI

ColPackAgent:基于智能体技能引导的硬颗粒蒙特卡洛胶体堆积工作流

ColPackAgent通过MCP工具和智能体技能自主执行胶体堆积蒙特卡洛模拟,实现结构化工作流与多模式交互。

04:00
ArXiv AI

TopoEvo:面向微服务根因分析的拓扑感知自进化多智能体框架

TopoEvo提出拓扑感知自进化多智能体框架,通过多模态对齐与假设验证,解决微服务根因分析的级联传播与拓扑漂移难题。

04:00
ArXiv AI

PRISM:面向企业对话AI的提示可靠性迭代模拟与监控

PRISM通过每日迭代模拟与监控,将提示修复时间从2天降至30分钟,实现99%生产可靠性。

04:00
ArXiv AI

超越舒适区的轻推:面向RLVR的高效策略引导探索

提出NudgeRL框架,用策略上下文引导多样化探索并分解奖励学习,效率超越8倍预算的GRPO。

04:00
ArXiv AI

STAR:面向微服务中根因分析智能体的阶段归因故障诊断与修复框架

STAR将根因分析分解为四阶段,通过阶段审计、反事实评估和针对性修复,提升定位与分类准确性。

04:00
ArXiv AI

SaaS-Bench:计算机使用代理能否利用真实SaaS解决专业工作流程?

提出SaaS-Bench基准,测试代理在真实SaaS工作流中的能力,最强模型完成率不足4%。

04:00
ArXiv AI

PAGER:弥合点精确几何GUI控制中的语义-执行鸿沟

提出PAGER,通过拓扑感知与像素级执行弥合语义-执行鸿沟,在点精确GUI控制中实现4.1倍任务成功率提升,达新SOTA。

04:00
ArXiv AI

推理者还是翻译者?税法中的污染感知评估与神经符号稳健性

LLM在税法推理中表现可能因数据污染虚高,神经符号框架通过文本形式化与符号推理更可靠鲁棒。

04:00
ArXiv AI

ALSO:面向社交主体的对抗式在线策略优化

ALSO将多轮交互视为对抗式老虎机,用轻量神经模型预测奖励,实现非平稳环境在线策略优化,效果领先。

04:00
ArXiv AI

神经架构的智能体发现:AIRA-Compose与AIRA-Design

LLM智能体通过双框架自主设计神经架构,产出超越人类基线的模型,向递归自我改进迈进。

04:00
ArXiv AI

确定性事件图基底作为反事实推理的世界模型

事件图基底作为可检查的世界模型,支持精确反事实查询,在CLEVRER和Smallville基准上超越多个基线。

04:00
ArXiv AI

不完美的世界模型存在被利用风险

提出模型利用新定义,证明其不可避免,并引入安全视界以避免利用。

04:00
ArXiv AI

基于符号世界模型的双层策略学习用于长时域规划

提出BISON双层策略,结合低级模仿与高级符号抽象,高效解决长时域规划,泛化性强且资源占用少。

04:00
ArXiv AI

ScreenSearch:不确定性感知的操作系统探索

ScreenSearch结合结构检索与歧义感知PUCT图搜索,实现大规模桌面探索,揭示新奇-歧义权衡。

04:00
ArXiv AI

基于Petri网诱导的启发式搜索用于资源受限调度

将RCPSP建模为定时Petri网可达图上的A*搜索,结合关键路径与资源下界启发式,实验优于MIP。

04:00
ArXiv AI

符号分离的Q学习有限时间误差分析

本文通过分解误差正负部分,证明负侧LTI证书更快,揭示最大诱导的不对称性导致高估。

04:00
ArXiv AI

二元道德理论的代数阐述

代数形式化二元道德理论,引入心理算子,解决可扩展性,应用于AI政策设计。

04:00
ArXiv AI

FORGE:通过群体广播实现无需权重更新的自进化智能体记忆

FORGE采用群体广播与反思循环,无需梯度更新即让LLM智能体自我进化,在对抗任务中收益提升1.7-7.7倍,失败率降至约1%。

04:00
ArXiv AI

属性引导的大语言模型规划程序合成

提出属性引导的LLM程序合成,通过反例引导修复生成直接启发式函数,大幅减少程序生成和评估成本。

04:00
ArXiv AI

ShopGym:一个用于电子商务Web智能体的真实模拟与可扩展基准测试集成框架

ShopGym框架通过ShopArena和ShopGuru构建真实可控电商环境,实现可扩展的智能体基准测试,验证合成与真实环境的结构一致性与性能相关性。

04:00
ArXiv AI

三思而后行:面向LLM智能体的自主探索

提出自主探索与覆盖率指标,交替任务-探索训练,采用先探索后行动范式,证明系统探索对构建通用智能体至关重要。

04:00
ArXiv AI

上下文、推理与层次结构:对抗性POMDP中复合LLM智能体设计的成本-性能研究

程序化状态抽象回报最高;层次中分布推理工具导致性能下降(推理级联);无推理的层次分解最优,上下文工程比推理更经济。

04:00
ArXiv AI

形式化方法与大型语言模型相遇:面向高级AI系统合规性的审计、监控与干预

结合形式化方法与LLM,提出离线审计与在线监控技术,检测时序约束违规并预测干预,显著降低违规率。

04:00
ArXiv AI

只确认正确,遗漏其余:LLM辅导代理在反馈关键处表现挣扎

LLM辅导代理能准确识别正确解答,却系统性误判有效但非最优和错误解答,诊断与教学效果脱节。

04:00
ArXiv AI

完全开放的Meditron:面向临床大语言模型的可审计流水线

首个完全开源可审计临床LLM流水线,经医生审计语料与四医验证,性能达新SOTA。

04:00
ArXiv AI

迷雾中确保逻辑:基于LTL目标的可靠POMDP合成

提出动态奖励塑造机制,结合蒙特卡洛规划,使代理在部分观测环境中最大化可验证任务成功。

04:00
ArXiv AI

基于自主大语言模型引导树搜索的多病原体前瞻性疾病预测

自主LLM引导树搜索系统自动生成预测模型,在美国呼吸道季节中达到或超过CDC人工集成模型,突破建模劳动瓶颈。

04:00
ArXiv AI

GenAI驱动的RISC-V供应链探索方法

LLM与VLM协同构建知识图谱,MDE约束建模检测瓶颈风险,提升RISC-V供应链透明度与决策支持。

04:00
ArXiv AI

AgentStop:提前终止本地AI代理以节省消费设备能耗

AgentStop通过预测性提前终止低成功概率任务轨迹,节省15-20%能耗,性能损失不足5%。

04:00
ArXiv AI

Agent4POI:面向多模态兴趣点推荐的动态情境条件功能推理框架

首个在推荐时动态生成情境条件化多模态表示的POI框架,通过LLM跨模态推理实现23.2%性能提升,冷启动场景效果达2.4倍。

04:00
ArXiv AI

量化破坏对齐:压缩大语言模型在不同模型与精度级别下的偏见涌现

量化压缩导致偏见涌现:3位时6–21%无偏项目变有偏,4位已现但标准指标不敏感。

04:00
ArXiv AI

基于可视化生成网络的数字电路容错估计

提出生成网络采样新方法,通过比较理想与真实电流信号,评估数字电路逻辑元件的失效容错性。

04:00
ArXiv AI

始终学习,始终混合:高效且简单的持续数据混合方法

提出OP-Mix算法,通过低秩适配器模拟数据混合,覆盖全训练周期,大幅降低计算成本并提升性能。

04:00
ArXiv AI

基于LLM-RAG的健康饮食指数个性化食物推荐方法

提出HEI-RAG框架,结合标准营养数据库与LLM,模拟显示平均HEI提升6.45,有效改善饮食质量。

04:00
ArXiv AI

使用编码代理进行算法发现的有效框架工程

固定预算下,少而精的算法更高效;模型越强越易出现评估黑客,需加强检测。

04:00
ArXiv AI

Hydra: 通过检查点与回滚支持实现高效、正确的代码生成

Hydra通过异步检查与检查点回滚,高效修复静态错误,延迟和令牌消耗分别降低71%和70%。

04:00
ArXiv AI

基于深度强化学习的截止时间约束编码缓存选择性合并策略学习

提出DRL策略,通过选择性合并将广播包过期率降低40.9%,仅以31.8%合并率实现最优广播效率。