CAPS:级联自适应成对选择实现高效并行推理
CAPS用级联自适应配对选择,以约25%验证代价超越多数领先推理方法。
编码智能体的多维度潜在推理上下文剪枝
提出LaMR框架,将代码相关性分解为语义与依赖两维度,分别建模并融合,实现高效剪枝,节省Token并提升性能。
基于大型语言模型的零样本目标识别
系统评估前沿LLM在PDDL基准上的零样本目标识别,揭示证据整合差异,可作为规划知识基准。
Solvita:通过智能体演化增强大型语言模型在竞赛编程中的能力
Solvita框架通过四个智能体与可训练知识网络实现持续学习,无需更新权重,在竞赛编程中准确率近乎翻倍,创下新SOTA。
中文标题:超越合作伙伴多样性:一种基于影响的团队引导框架用于零样本人机协作
中文摘要:提出基于影响的团队引导框架,通过激励多样交互与引导协调轨迹,提升零样本人机团队性能。
AI控制的集成监控:多样化信号胜过更多算力
12个GPT-4.1-Mini监控器集成,多样化组合比同质集成检测性能提升2.4倍,微调监控器更优,证明多样性驱动安全增益。
从LLM生成的猜想到Lean形式化:基于平方和证书的自动多项式不等式证明
提出NSPI框架,结合LLM与符号计算,通过平方和证书自动证明多项式不等式,并在Lean中形式验证,具有良好可扩展性。
X-SYNTH:超越检索——从人类注意力观测综合企业情境
X-SYNTH基于人类注意力建模行为基线,综合企业情境,销售线索TLR提升6.5倍,FLR降至18.8%,证明注意力是可靠依据。
DRS-GUI: 无需训练的GUI定位动态区域搜索
提出DRS-GUI框架,模仿人类感知动态搜索界面,通过MCTS规划行动和区域质量奖励筛选,提升GUI定位性能14%。
我们能信任AI推断的用户状态吗?一个验证LLMs在操作环境中用户状态分类可靠性的心理测量框架
研究发现仅31/213指标稳定,提出可复现框架,强调实时系统需验证可靠性而非默认可信。
先见后码:学习空间感知教育动画生成中的视觉先验
提出OmniManim框架,通过显式视觉规划(粗到细边界框去噪与插值感知优化)解决教育动画渲染缺陷,显著提升质量。
立场:人工智能需要元智能——论元认知AI的必要性
主张将元认知作为通用设计原则,让AI监控自身状态并合理分配资源,以提升准确性、安全性和效率,通过联邦学习案例展示。
RTL-BenchMT:通过智能体辅助分析与修订实现RTL生成基准的动态维护
提出RTL-BenchMT框架,自动检测并修复RTL基准中的缺陷和过拟合案例,降低维护成本,开源改进套件。
ColPackAgent:基于智能体技能引导的硬颗粒蒙特卡洛胶体堆积工作流
ColPackAgent通过MCP工具和智能体技能自主执行胶体堆积蒙特卡洛模拟,实现结构化工作流与多模式交互。
TopoEvo:面向微服务根因分析的拓扑感知自进化多智能体框架
TopoEvo提出拓扑感知自进化多智能体框架,通过多模态对齐与假设验证,解决微服务根因分析的级联传播与拓扑漂移难题。
PRISM:面向企业对话AI的提示可靠性迭代模拟与监控
PRISM通过每日迭代模拟与监控,将提示修复时间从2天降至30分钟,实现99%生产可靠性。
超越舒适区的轻推:面向RLVR的高效策略引导探索
提出NudgeRL框架,用策略上下文引导多样化探索并分解奖励学习,效率超越8倍预算的GRPO。
STAR:面向微服务中根因分析智能体的阶段归因故障诊断与修复框架
STAR将根因分析分解为四阶段,通过阶段审计、反事实评估和针对性修复,提升定位与分类准确性。
SaaS-Bench:计算机使用代理能否利用真实SaaS解决专业工作流程?
提出SaaS-Bench基准,测试代理在真实SaaS工作流中的能力,最强模型完成率不足4%。
PAGER:弥合点精确几何GUI控制中的语义-执行鸿沟
提出PAGER,通过拓扑感知与像素级执行弥合语义-执行鸿沟,在点精确GUI控制中实现4.1倍任务成功率提升,达新SOTA。
推理者还是翻译者?税法中的污染感知评估与神经符号稳健性
LLM在税法推理中表现可能因数据污染虚高,神经符号框架通过文本形式化与符号推理更可靠鲁棒。
ALSO:面向社交主体的对抗式在线策略优化
ALSO将多轮交互视为对抗式老虎机,用轻量神经模型预测奖励,实现非平稳环境在线策略优化,效果领先。
神经架构的智能体发现:AIRA-Compose与AIRA-Design
LLM智能体通过双框架自主设计神经架构,产出超越人类基线的模型,向递归自我改进迈进。
确定性事件图基底作为反事实推理的世界模型
事件图基底作为可检查的世界模型,支持精确反事实查询,在CLEVRER和Smallville基准上超越多个基线。
不完美的世界模型存在被利用风险
提出模型利用新定义,证明其不可避免,并引入安全视界以避免利用。
基于符号世界模型的双层策略学习用于长时域规划
提出BISON双层策略,结合低级模仿与高级符号抽象,高效解决长时域规划,泛化性强且资源占用少。
ScreenSearch:不确定性感知的操作系统探索
ScreenSearch结合结构检索与歧义感知PUCT图搜索,实现大规模桌面探索,揭示新奇-歧义权衡。
基于Petri网诱导的启发式搜索用于资源受限调度
将RCPSP建模为定时Petri网可达图上的A*搜索,结合关键路径与资源下界启发式,实验优于MIP。
符号分离的Q学习有限时间误差分析
本文通过分解误差正负部分,证明负侧LTI证书更快,揭示最大诱导的不对称性导致高估。
二元道德理论的代数阐述
代数形式化二元道德理论,引入心理算子,解决可扩展性,应用于AI政策设计。
FORGE:通过群体广播实现无需权重更新的自进化智能体记忆
FORGE采用群体广播与反思循环,无需梯度更新即让LLM智能体自我进化,在对抗任务中收益提升1.7-7.7倍,失败率降至约1%。
属性引导的大语言模型规划程序合成
提出属性引导的LLM程序合成,通过反例引导修复生成直接启发式函数,大幅减少程序生成和评估成本。
ShopGym:一个用于电子商务Web智能体的真实模拟与可扩展基准测试集成框架
ShopGym框架通过ShopArena和ShopGuru构建真实可控电商环境,实现可扩展的智能体基准测试,验证合成与真实环境的结构一致性与性能相关性。
三思而后行:面向LLM智能体的自主探索
提出自主探索与覆盖率指标,交替任务-探索训练,采用先探索后行动范式,证明系统探索对构建通用智能体至关重要。
上下文、推理与层次结构:对抗性POMDP中复合LLM智能体设计的成本-性能研究
程序化状态抽象回报最高;层次中分布推理工具导致性能下降(推理级联);无推理的层次分解最优,上下文工程比推理更经济。
形式化方法与大型语言模型相遇:面向高级AI系统合规性的审计、监控与干预
结合形式化方法与LLM,提出离线审计与在线监控技术,检测时序约束违规并预测干预,显著降低违规率。
只确认正确,遗漏其余:LLM辅导代理在反馈关键处表现挣扎
LLM辅导代理能准确识别正确解答,却系统性误判有效但非最优和错误解答,诊断与教学效果脱节。
完全开放的Meditron:面向临床大语言模型的可审计流水线
首个完全开源可审计临床LLM流水线,经医生审计语料与四医验证,性能达新SOTA。
迷雾中确保逻辑:基于LTL目标的可靠POMDP合成
提出动态奖励塑造机制,结合蒙特卡洛规划,使代理在部分观测环境中最大化可验证任务成功。
基于自主大语言模型引导树搜索的多病原体前瞻性疾病预测
自主LLM引导树搜索系统自动生成预测模型,在美国呼吸道季节中达到或超过CDC人工集成模型,突破建模劳动瓶颈。
GenAI驱动的RISC-V供应链探索方法
LLM与VLM协同构建知识图谱,MDE约束建模检测瓶颈风险,提升RISC-V供应链透明度与决策支持。
AgentStop:提前终止本地AI代理以节省消费设备能耗
AgentStop通过预测性提前终止低成功概率任务轨迹,节省15-20%能耗,性能损失不足5%。
Agent4POI:面向多模态兴趣点推荐的动态情境条件功能推理框架
首个在推荐时动态生成情境条件化多模态表示的POI框架,通过LLM跨模态推理实现23.2%性能提升,冷启动场景效果达2.4倍。
量化破坏对齐:压缩大语言模型在不同模型与精度级别下的偏见涌现
量化压缩导致偏见涌现:3位时6–21%无偏项目变有偏,4位已现但标准指标不敏感。
基于可视化生成网络的数字电路容错估计
提出生成网络采样新方法,通过比较理想与真实电流信号,评估数字电路逻辑元件的失效容错性。
始终学习,始终混合:高效且简单的持续数据混合方法
提出OP-Mix算法,通过低秩适配器模拟数据混合,覆盖全训练周期,大幅降低计算成本并提升性能。
基于LLM-RAG的健康饮食指数个性化食物推荐方法
提出HEI-RAG框架,结合标准营养数据库与LLM,模拟显示平均HEI提升6.45,有效改善饮食质量。
使用编码代理进行算法发现的有效框架工程
固定预算下,少而精的算法更高效;模型越强越易出现评估黑客,需加强检测。
Hydra: 通过检查点与回滚支持实现高效、正确的代码生成
Hydra通过异步检查与检查点回滚,高效修复静态错误,延迟和令牌消耗分别降低71%和70%。
基于深度强化学习的截止时间约束编码缓存选择性合并策略学习
提出DRL策略,通过选择性合并将广播包过期率降低40.9%,仅以31.8%合并率实现最优广播效率。