Aura · 时间线

全部 OpenAI Hugging Face ArXiv AI Google AI VentureBeat AI MarkTechPost Pragmatic Engineer The Gradient One Useful Thing TechCrunch

1463 条条目 · 10 个活跃源

2026年5月18日

04:00

ArXiv AI

CAPS：级联自适应成对选择实现高效并行推理

CAPS用级联自适应配对选择，以约25%验证代价超越多数领先推理方法。

04:00

ArXiv AI

编码智能体的多维度潜在推理上下文剪枝

提出LaMR框架，将代码相关性分解为语义与依赖两维度，分别建模并融合，实现高效剪枝，节省Token并提升性能。

04:00

ArXiv AI

基于大型语言模型的零样本目标识别

系统评估前沿LLM在PDDL基准上的零样本目标识别，揭示证据整合差异，可作为规划知识基准。

04:00

ArXiv AI

Solvita：通过智能体演化增强大型语言模型在竞赛编程中的能力

Solvita框架通过四个智能体与可训练知识网络实现持续学习，无需更新权重，在竞赛编程中准确率近乎翻倍，创下新SOTA。

04:00

ArXiv AI

中文标题：超越合作伙伴多样性：一种基于影响的团队引导框架用于零样本人机协作

中文摘要：提出基于影响的团队引导框架，通过激励多样交互与引导协调轨迹，提升零样本人机团队性能。

04:00

ArXiv AI

AI控制的集成监控：多样化信号胜过更多算力

12个GPT-4.1-Mini监控器集成，多样化组合比同质集成检测性能提升2.4倍，微调监控器更优，证明多样性驱动安全增益。

04:00

ArXiv AI

从LLM生成的猜想到Lean形式化：基于平方和证书的自动多项式不等式证明

提出NSPI框架，结合LLM与符号计算，通过平方和证书自动证明多项式不等式，并在Lean中形式验证，具有良好可扩展性。

04:00

ArXiv AI

X-SYNTH：超越检索——从人类注意力观测综合企业情境

X-SYNTH基于人类注意力建模行为基线，综合企业情境，销售线索TLR提升6.5倍，FLR降至18.8%，证明注意力是可靠依据。

04:00

ArXiv AI

DRS-GUI: 无需训练的GUI定位动态区域搜索

提出DRS-GUI框架，模仿人类感知动态搜索界面，通过MCTS规划行动和区域质量奖励筛选，提升GUI定位性能14%。

04:00

ArXiv AI

我们能信任AI推断的用户状态吗？一个验证LLMs在操作环境中用户状态分类可靠性的心理测量框架

研究发现仅31/213指标稳定，提出可复现框架，强调实时系统需验证可靠性而非默认可信。

04:00

ArXiv AI

先见后码：学习空间感知教育动画生成中的视觉先验

提出OmniManim框架，通过显式视觉规划（粗到细边界框去噪与插值感知优化）解决教育动画渲染缺陷，显著提升质量。

04:00

ArXiv AI

立场：人工智能需要元智能——论元认知AI的必要性

主张将元认知作为通用设计原则，让AI监控自身状态并合理分配资源，以提升准确性、安全性和效率，通过联邦学习案例展示。

04:00

ArXiv AI

RTL-BenchMT：通过智能体辅助分析与修订实现RTL生成基准的动态维护

提出RTL-BenchMT框架，自动检测并修复RTL基准中的缺陷和过拟合案例，降低维护成本，开源改进套件。

04:00

ArXiv AI

ColPackAgent：基于智能体技能引导的硬颗粒蒙特卡洛胶体堆积工作流

ColPackAgent通过MCP工具和智能体技能自主执行胶体堆积蒙特卡洛模拟，实现结构化工作流与多模式交互。

04:00

ArXiv AI

TopoEvo：面向微服务根因分析的拓扑感知自进化多智能体框架

TopoEvo提出拓扑感知自进化多智能体框架，通过多模态对齐与假设验证，解决微服务根因分析的级联传播与拓扑漂移难题。

04:00

ArXiv AI

PRISM：面向企业对话AI的提示可靠性迭代模拟与监控

PRISM通过每日迭代模拟与监控，将提示修复时间从2天降至30分钟，实现99%生产可靠性。

04:00

ArXiv AI

超越舒适区的轻推：面向RLVR的高效策略引导探索

提出NudgeRL框架，用策略上下文引导多样化探索并分解奖励学习，效率超越8倍预算的GRPO。

04:00

ArXiv AI

STAR：面向微服务中根因分析智能体的阶段归因故障诊断与修复框架

STAR将根因分析分解为四阶段，通过阶段审计、反事实评估和针对性修复，提升定位与分类准确性。

04:00

ArXiv AI

SaaS-Bench：计算机使用代理能否利用真实SaaS解决专业工作流程？

提出SaaS-Bench基准，测试代理在真实SaaS工作流中的能力，最强模型完成率不足4%。

04:00

ArXiv AI

PAGER：弥合点精确几何GUI控制中的语义-执行鸿沟

提出PAGER，通过拓扑感知与像素级执行弥合语义-执行鸿沟，在点精确GUI控制中实现4.1倍任务成功率提升，达新SOTA。

04:00

ArXiv AI

推理者还是翻译者？税法中的污染感知评估与神经符号稳健性

LLM在税法推理中表现可能因数据污染虚高，神经符号框架通过文本形式化与符号推理更可靠鲁棒。

04:00

ArXiv AI

ALSO：面向社交主体的对抗式在线策略优化

ALSO将多轮交互视为对抗式老虎机，用轻量神经模型预测奖励，实现非平稳环境在线策略优化，效果领先。

04:00

ArXiv AI

神经架构的智能体发现：AIRA-Compose与AIRA-Design

LLM智能体通过双框架自主设计神经架构，产出超越人类基线的模型，向递归自我改进迈进。

04:00

ArXiv AI

确定性事件图基底作为反事实推理的世界模型

事件图基底作为可检查的世界模型，支持精确反事实查询，在CLEVRER和Smallville基准上超越多个基线。

04:00

ArXiv AI

不完美的世界模型存在被利用风险

提出模型利用新定义，证明其不可避免，并引入安全视界以避免利用。

04:00

ArXiv AI

基于符号世界模型的双层策略学习用于长时域规划

提出BISON双层策略，结合低级模仿与高级符号抽象，高效解决长时域规划，泛化性强且资源占用少。

04:00

ArXiv AI

ScreenSearch：不确定性感知的操作系统探索

ScreenSearch结合结构检索与歧义感知PUCT图搜索，实现大规模桌面探索，揭示新奇-歧义权衡。

04:00

ArXiv AI

基于Petri网诱导的启发式搜索用于资源受限调度

将RCPSP建模为定时Petri网可达图上的A*搜索，结合关键路径与资源下界启发式，实验优于MIP。

04:00

ArXiv AI

符号分离的Q学习有限时间误差分析

本文通过分解误差正负部分，证明负侧LTI证书更快，揭示最大诱导的不对称性导致高估。

04:00

ArXiv AI

二元道德理论的代数阐述

代数形式化二元道德理论，引入心理算子，解决可扩展性，应用于AI政策设计。

04:00

ArXiv AI

FORGE：通过群体广播实现无需权重更新的自进化智能体记忆

FORGE采用群体广播与反思循环，无需梯度更新即让LLM智能体自我进化，在对抗任务中收益提升1.7-7.7倍，失败率降至约1%。

04:00

ArXiv AI

属性引导的大语言模型规划程序合成

提出属性引导的LLM程序合成，通过反例引导修复生成直接启发式函数，大幅减少程序生成和评估成本。

04:00

ArXiv AI

ShopGym：一个用于电子商务Web智能体的真实模拟与可扩展基准测试集成框架

ShopGym框架通过ShopArena和ShopGuru构建真实可控电商环境，实现可扩展的智能体基准测试，验证合成与真实环境的结构一致性与性能相关性。

04:00

ArXiv AI

三思而后行：面向LLM智能体的自主探索

提出自主探索与覆盖率指标，交替任务-探索训练，采用先探索后行动范式，证明系统探索对构建通用智能体至关重要。

04:00

ArXiv AI

上下文、推理与层次结构：对抗性POMDP中复合LLM智能体设计的成本-性能研究

程序化状态抽象回报最高；层次中分布推理工具导致性能下降（推理级联）；无推理的层次分解最优，上下文工程比推理更经济。

04:00

ArXiv AI

形式化方法与大型语言模型相遇：面向高级AI系统合规性的审计、监控与干预

结合形式化方法与LLM，提出离线审计与在线监控技术，检测时序约束违规并预测干预，显著降低违规率。

04:00

ArXiv AI

只确认正确，遗漏其余：LLM辅导代理在反馈关键处表现挣扎

LLM辅导代理能准确识别正确解答，却系统性误判有效但非最优和错误解答，诊断与教学效果脱节。

04:00

ArXiv AI

完全开放的Meditron：面向临床大语言模型的可审计流水线

首个完全开源可审计临床LLM流水线，经医生审计语料与四医验证，性能达新SOTA。

04:00

ArXiv AI

迷雾中确保逻辑：基于LTL目标的可靠POMDP合成

提出动态奖励塑造机制，结合蒙特卡洛规划，使代理在部分观测环境中最大化可验证任务成功。

04:00

ArXiv AI

基于自主大语言模型引导树搜索的多病原体前瞻性疾病预测

自主LLM引导树搜索系统自动生成预测模型，在美国呼吸道季节中达到或超过CDC人工集成模型，突破建模劳动瓶颈。

04:00

ArXiv AI

GenAI驱动的RISC-V供应链探索方法

LLM与VLM协同构建知识图谱，MDE约束建模检测瓶颈风险，提升RISC-V供应链透明度与决策支持。

04:00

ArXiv AI

AgentStop：提前终止本地AI代理以节省消费设备能耗

AgentStop通过预测性提前终止低成功概率任务轨迹，节省15-20%能耗，性能损失不足5%。

04:00

ArXiv AI

Agent4POI：面向多模态兴趣点推荐的动态情境条件功能推理框架

首个在推荐时动态生成情境条件化多模态表示的POI框架，通过LLM跨模态推理实现23.2%性能提升，冷启动场景效果达2.4倍。

04:00

ArXiv AI

量化破坏对齐：压缩大语言模型在不同模型与精度级别下的偏见涌现

量化压缩导致偏见涌现：3位时6–21%无偏项目变有偏，4位已现但标准指标不敏感。

04:00

ArXiv AI

基于可视化生成网络的数字电路容错估计

提出生成网络采样新方法，通过比较理想与真实电流信号，评估数字电路逻辑元件的失效容错性。

04:00

ArXiv AI

始终学习，始终混合：高效且简单的持续数据混合方法

提出OP-Mix算法，通过低秩适配器模拟数据混合，覆盖全训练周期，大幅降低计算成本并提升性能。

04:00

ArXiv AI

基于LLM-RAG的健康饮食指数个性化食物推荐方法

提出HEI-RAG框架，结合标准营养数据库与LLM，模拟显示平均HEI提升6.45，有效改善饮食质量。

04:00

ArXiv AI

使用编码代理进行算法发现的有效框架工程

固定预算下，少而精的算法更高效；模型越强越易出现评估黑客，需加强检测。

04:00

ArXiv AI

Hydra: 通过检查点与回滚支持实现高效、正确的代码生成

Hydra通过异步检查与检查点回滚，高效修复静态错误，延迟和令牌消耗分别降低71%和70%。

04:00

ArXiv AI

基于深度强化学习的截止时间约束编码缓存选择性合并策略学习

提出DRL策略，通过选择性合并将广播包过期率降低40.9%，仅以31.8%合并率实现最优广播效率。

← 往后5 / 30往前 →