Aura · 时间线

2011 条条目 · 49 个活跃源

2026年5月18日

04:00

ArXiv AI

符号分离的Q学习有限时间误差分析

本文通过分解误差正负部分，证明负侧LTI证书更快，揭示最大诱导的不对称性导致高估。

04:00

ArXiv AI

二元道德理论的代数阐述

代数形式化二元道德理论，引入心理算子，解决可扩展性，应用于AI政策设计。

04:00

ArXiv AI

FORGE：通过群体广播实现无需权重更新的自进化智能体记忆

FORGE采用群体广播与反思循环，无需梯度更新即让LLM智能体自我进化，在对抗任务中收益提升1.7-7.7倍，失败率降至约1%。

04:00

ArXiv AI

属性引导的大语言模型规划程序合成

提出属性引导的LLM程序合成，通过反例引导修复生成直接启发式函数，大幅减少程序生成和评估成本。

04:00

ArXiv AI

ShopGym：一个用于电子商务Web智能体的真实模拟与可扩展基准测试集成框架

ShopGym框架通过ShopArena和ShopGuru构建真实可控电商环境，实现可扩展的智能体基准测试，验证合成与真实环境的结构一致性与性能相关性。

04:00

ArXiv AI

三思而后行：面向LLM智能体的自主探索

提出自主探索与覆盖率指标，交替任务-探索训练，采用先探索后行动范式，证明系统探索对构建通用智能体至关重要。

04:00

ArXiv AI

上下文、推理与层次结构：对抗性POMDP中复合LLM智能体设计的成本-性能研究

程序化状态抽象回报最高；层次中分布推理工具导致性能下降（推理级联）；无推理的层次分解最优，上下文工程比推理更经济。

04:00

ArXiv AI

形式化方法与大型语言模型相遇：面向高级AI系统合规性的审计、监控与干预

结合形式化方法与LLM，提出离线审计与在线监控技术，检测时序约束违规并预测干预，显著降低违规率。

04:00

ArXiv AI

只确认正确，遗漏其余：LLM辅导代理在反馈关键处表现挣扎

LLM辅导代理能准确识别正确解答，却系统性误判有效但非最优和错误解答，诊断与教学效果脱节。

04:00

ArXiv AI

完全开放的Meditron：面向临床大语言模型的可审计流水线

首个完全开源可审计临床LLM流水线，经医生审计语料与四医验证，性能达新SOTA。

04:00

ArXiv AI

迷雾中确保逻辑：基于LTL目标的可靠POMDP合成

提出动态奖励塑造机制，结合蒙特卡洛规划，使代理在部分观测环境中最大化可验证任务成功。

04:00

ArXiv AI

基于自主大语言模型引导树搜索的多病原体前瞻性疾病预测

自主LLM引导树搜索系统自动生成预测模型，在美国呼吸道季节中达到或超过CDC人工集成模型，突破建模劳动瓶颈。

04:00

ArXiv AI

GenAI驱动的RISC-V供应链探索方法

LLM与VLM协同构建知识图谱，MDE约束建模检测瓶颈风险，提升RISC-V供应链透明度与决策支持。

04:00

ArXiv AI

AgentStop：提前终止本地AI代理以节省消费设备能耗

AgentStop通过预测性提前终止低成功概率任务轨迹，节省15-20%能耗，性能损失不足5%。

04:00

ArXiv AI

Agent4POI：面向多模态兴趣点推荐的动态情境条件功能推理框架

首个在推荐时动态生成情境条件化多模态表示的POI框架，通过LLM跨模态推理实现23.2%性能提升，冷启动场景效果达2.4倍。

04:00

ArXiv AI

量化破坏对齐：压缩大语言模型在不同模型与精度级别下的偏见涌现

量化压缩导致偏见涌现：3位时6–21%无偏项目变有偏，4位已现但标准指标不敏感。

04:00

ArXiv AI

基于可视化生成网络的数字电路容错估计

提出生成网络采样新方法，通过比较理想与真实电流信号，评估数字电路逻辑元件的失效容错性。

04:00

ArXiv AI

始终学习，始终混合：高效且简单的持续数据混合方法

提出OP-Mix算法，通过低秩适配器模拟数据混合，覆盖全训练周期，大幅降低计算成本并提升性能。

04:00

ArXiv AI

基于LLM-RAG的健康饮食指数个性化食物推荐方法

提出HEI-RAG框架，结合标准营养数据库与LLM，模拟显示平均HEI提升6.45，有效改善饮食质量。

04:00

ArXiv AI

使用编码代理进行算法发现的有效框架工程

固定预算下，少而精的算法更高效；模型越强越易出现评估黑客，需加强检测。

04:00

ArXiv AI

Hydra: 通过检查点与回滚支持实现高效、正确的代码生成

Hydra通过异步检查与检查点回滚，高效修复静态错误，延迟和令牌消耗分别降低71%和70%。

04:00

ArXiv AI

基于深度强化学习的截止时间约束编码缓存选择性合并策略学习

提出DRL策略，通过选择性合并将广播包过期率降低40.9%，仅以31.8%合并率实现最优广播效率。

04:00

ArXiv AI

A3D：面向自主加速器设计的智能体AI流程

A3D利用AI智能体实现硬件加速器设计全流程自动化，从分析到生成无需人工干预。

04:00

ArXiv AI

基于Phoenix-bench的深度探讨：智能体AI是否准备好应对真实硬件工程？

智能体AI在硬件工程中比软件工程表现差37%-58%，失败集中在FSM等bug，测试反馈提升42%-45%解决率。

04:00

ArXiv AI

生物结构保证是否值得其复杂性？

三个基准测试表明，生物结构保证的可靠性优势未超过简单非生物替代方案。

04:00

ArXiv AI

解读细胞，设计治愈：面向功能的药物设计中基于扰动条件的分子扩散

提出CURE多分辨率转录组引导扩散框架，跨模态对齐与鲁棒生成，结构功能指标超越基线，零样本验证基因抑制剂设计。

04:00

ArXiv AI

PBT-Bench：基于属性的测试中AI代理的基准测试

提出PBT-Bench基准，评估AI代理从文档推导不变量并生成输入策略的能力，PBT引导提示召回率达83.4%，但最强模型提升有限。

04:00

ArXiv AI

集成安全保证的自然语言驱动网页执行的自主智能代理

提出AI测试框架，自然语言驱动网页执行与安全验证，成功率升至93%，时间降75%，检测85%认证绕过漏洞。

04:00

ArXiv AI

GQLA：面向硬件自适应大语言模型解码的分组查询潜在注意力机制

GQLA提出双路径解码（MQA吸收与GQA）适配H100/H20，无需重训，支持张量并行，并将预训练GQA模型KV缓存压缩至28.125%。

04:00

ArXiv AI

PDRNN：基于松散耦合无线电与惯性信号流的模块化数据驱动行人航位推算

提出模块化混合AI辅助PDR系统PDRNN，通过RNN隐式预测异步传感器流，避免误差累积，精度优于传统方法。

04:00

ArXiv AI

PACER：大规模干预数据下的无环因果发现

PACER提出参数化无环图分布，实现大规模干预数据的高效因果发现，速度提升两个数量级。

04:00

ArXiv AI

GQA-μP：分组查询注意力的最大参数化更新

提出完整深度与权重衰减缩放，推导分组查询注意力的μP缩放，验证学习率转移。

04:00

ArXiv AI

GESD：超越结果导向的公平性

GESD通过衡量模型解释在不同子组间的稳定性差异，提出面向过程的公平性指标，并整合到FEU框架中，兼顾公平与效用。

04:00

ArXiv AI

非线性算子及其导数的通用逼近

首个Banach空间间k次可微非线性算子及其导数的通用逼近定理，推广Hornik(1991)至无限维，用于PDE与逆问题。

04:00

ArXiv AI

PhysBrain 1.0 技术报告

从人类视频提取物理常识，训练视觉语言模型并迁移至机器人策略，在多项基准达SOTA，跨域表现突出。

04:00

ArXiv AI

从输入输出到代码：基于发现智能体的程序合成

提出DIO-Agent框架，将IO2Code视为进化搜索，利用LLM变异和执行错误引导，引入变换优先级前提，显著优于传统方法。

04:00

ArXiv AI

Fortress：通过时序数据增强与特征剪枝稳定搜索推荐系统案例研究

Fortress框架通过历史快照识别并剪枝不稳定特征，抑制波动，提升模型稳定性与准确性。

04:00

ArXiv AI

隐藏在记忆中：LLM助手的内存休眠投毒

提出内存休眠投毒攻击，通过操纵上下文植入虚假记忆，在后续对话中持续影响行为，成功率高达99.8%。

04:00

ArXiv AI

LEAP：迭代科学设计中大语言模型的轨迹级评估

LEAPBench轨迹评估发现LLM迭代设计效率低于贝叶斯基线，但离线强化学习可提升性能。

04:00

ArXiv AI

HoloMotion-1 技术报告

HoloMotion-1利用混合运动语料训练零样本全身跟踪模型，集成时序建模与稀疏MoE Transformer，有效处理异构数据挑战，显著提升精度并直接迁移至人形机器人。

04:00

ArXiv AI

PanoWorld：几何一致的全景视频世界建模

提出PanoWorld，通过深度和轨迹一致性损失生成几何一致的全景视频，优于此前方法。

04:00

ArXiv AI

盈亏平衡复杂度：神经偏微分方程求解器的新视角

提出盈亏平衡复杂度指标，评估神经PDE求解器的成本效益，发现问题越难其越有效。

04:00

ArXiv AI

$f$-轨迹平衡：用于离策略和在策略数据调优GFlowNets、生成模型和LLM的损失族

将均方误差损失扩展为f-散度族，实现on-policy梯度对应f-散度，off-policy保持全局最优，用于调优生成模型。

04:00

ArXiv AI

无奖励的表征：面向LLM微调的JEPA审计

测试表明，多种JEPA辅助目标未能显著提升LLM微调任务准确率，隐藏表征与任务性能弱耦合。

04:00

ArXiv AI

量子神经网络上的对角自适应非局部观测量

对角自适应观测量大幅降低参数与计算复杂度，保持全ANO能力并简化测量。

04:00

ArXiv AI

一个评分就够了？重新思考对顺序演进的大语言模型记忆的评估

提出SeqMem-Eval框架，细粒度评估LLM记忆演化、泛化与遗忘，揭示单一评分无法全面衡量记忆质量。

04:00

ArXiv AI

摊还能量贝叶斯推断

提出无似然的传输方法，学习观测依赖映射逼近后验，避免密度计算，实现非线性逆问题的快速后验采样。

04:00

ArXiv AI

ChangeFlow：用于遥感变化检测的潜在修正流

生成式框架通过潜在修正流合成变化掩膜，集成预测提升鲁棒性与置信度，平均F1达80.4%，超越现有方法。

04:00

ArXiv AI

从反馈循环到策略更新：面向基于LLM的Alpha因子发现的强化微调

QuantEvolver将量化评估转为策略更新，用强化微调内化历史经验，避免反馈循环缺陷，高效发现高质量互补因子。

04:00

ArXiv AI

边界自适应的置信度排名用于可靠LLM判断

学习边界自适应置信度估计器，强化单调关系，提升LLM与人类判断一致的成功率。

← 往后8 / 41往前 →