符号分离的Q学习有限时间误差分析
本文通过分解误差正负部分,证明负侧LTI证书更快,揭示最大诱导的不对称性导致高估。
二元道德理论的代数阐述
代数形式化二元道德理论,引入心理算子,解决可扩展性,应用于AI政策设计。
FORGE:通过群体广播实现无需权重更新的自进化智能体记忆
FORGE采用群体广播与反思循环,无需梯度更新即让LLM智能体自我进化,在对抗任务中收益提升1.7-7.7倍,失败率降至约1%。
属性引导的大语言模型规划程序合成
提出属性引导的LLM程序合成,通过反例引导修复生成直接启发式函数,大幅减少程序生成和评估成本。
ShopGym:一个用于电子商务Web智能体的真实模拟与可扩展基准测试集成框架
ShopGym框架通过ShopArena和ShopGuru构建真实可控电商环境,实现可扩展的智能体基准测试,验证合成与真实环境的结构一致性与性能相关性。
三思而后行:面向LLM智能体的自主探索
提出自主探索与覆盖率指标,交替任务-探索训练,采用先探索后行动范式,证明系统探索对构建通用智能体至关重要。
上下文、推理与层次结构:对抗性POMDP中复合LLM智能体设计的成本-性能研究
程序化状态抽象回报最高;层次中分布推理工具导致性能下降(推理级联);无推理的层次分解最优,上下文工程比推理更经济。
形式化方法与大型语言模型相遇:面向高级AI系统合规性的审计、监控与干预
结合形式化方法与LLM,提出离线审计与在线监控技术,检测时序约束违规并预测干预,显著降低违规率。
只确认正确,遗漏其余:LLM辅导代理在反馈关键处表现挣扎
LLM辅导代理能准确识别正确解答,却系统性误判有效但非最优和错误解答,诊断与教学效果脱节。
完全开放的Meditron:面向临床大语言模型的可审计流水线
首个完全开源可审计临床LLM流水线,经医生审计语料与四医验证,性能达新SOTA。
迷雾中确保逻辑:基于LTL目标的可靠POMDP合成
提出动态奖励塑造机制,结合蒙特卡洛规划,使代理在部分观测环境中最大化可验证任务成功。
基于自主大语言模型引导树搜索的多病原体前瞻性疾病预测
自主LLM引导树搜索系统自动生成预测模型,在美国呼吸道季节中达到或超过CDC人工集成模型,突破建模劳动瓶颈。
GenAI驱动的RISC-V供应链探索方法
LLM与VLM协同构建知识图谱,MDE约束建模检测瓶颈风险,提升RISC-V供应链透明度与决策支持。
AgentStop:提前终止本地AI代理以节省消费设备能耗
AgentStop通过预测性提前终止低成功概率任务轨迹,节省15-20%能耗,性能损失不足5%。
Agent4POI:面向多模态兴趣点推荐的动态情境条件功能推理框架
首个在推荐时动态生成情境条件化多模态表示的POI框架,通过LLM跨模态推理实现23.2%性能提升,冷启动场景效果达2.4倍。
量化破坏对齐:压缩大语言模型在不同模型与精度级别下的偏见涌现
量化压缩导致偏见涌现:3位时6–21%无偏项目变有偏,4位已现但标准指标不敏感。
基于可视化生成网络的数字电路容错估计
提出生成网络采样新方法,通过比较理想与真实电流信号,评估数字电路逻辑元件的失效容错性。
始终学习,始终混合:高效且简单的持续数据混合方法
提出OP-Mix算法,通过低秩适配器模拟数据混合,覆盖全训练周期,大幅降低计算成本并提升性能。
基于LLM-RAG的健康饮食指数个性化食物推荐方法
提出HEI-RAG框架,结合标准营养数据库与LLM,模拟显示平均HEI提升6.45,有效改善饮食质量。
使用编码代理进行算法发现的有效框架工程
固定预算下,少而精的算法更高效;模型越强越易出现评估黑客,需加强检测。
Hydra: 通过检查点与回滚支持实现高效、正确的代码生成
Hydra通过异步检查与检查点回滚,高效修复静态错误,延迟和令牌消耗分别降低71%和70%。
基于深度强化学习的截止时间约束编码缓存选择性合并策略学习
提出DRL策略,通过选择性合并将广播包过期率降低40.9%,仅以31.8%合并率实现最优广播效率。
A3D:面向自主加速器设计的智能体AI流程
A3D利用AI智能体实现硬件加速器设计全流程自动化,从分析到生成无需人工干预。
基于Phoenix-bench的深度探讨:智能体AI是否准备好应对真实硬件工程?
智能体AI在硬件工程中比软件工程表现差37%-58%,失败集中在FSM等bug,测试反馈提升42%-45%解决率。
生物结构保证是否值得其复杂性?
三个基准测试表明,生物结构保证的可靠性优势未超过简单非生物替代方案。
解读细胞,设计治愈:面向功能的药物设计中基于扰动条件的分子扩散
提出CURE多分辨率转录组引导扩散框架,跨模态对齐与鲁棒生成,结构功能指标超越基线,零样本验证基因抑制剂设计。
PBT-Bench:基于属性的测试中AI代理的基准测试
提出PBT-Bench基准,评估AI代理从文档推导不变量并生成输入策略的能力,PBT引导提示召回率达83.4%,但最强模型提升有限。
集成安全保证的自然语言驱动网页执行的自主智能代理
提出AI测试框架,自然语言驱动网页执行与安全验证,成功率升至93%,时间降75%,检测85%认证绕过漏洞。
GQLA:面向硬件自适应大语言模型解码的分组查询潜在注意力机制
GQLA提出双路径解码(MQA吸收与GQA)适配H100/H20,无需重训,支持张量并行,并将预训练GQA模型KV缓存压缩至28.125%。
PDRNN:基于松散耦合无线电与惯性信号流的模块化数据驱动行人航位推算
提出模块化混合AI辅助PDR系统PDRNN,通过RNN隐式预测异步传感器流,避免误差累积,精度优于传统方法。
PACER:大规模干预数据下的无环因果发现
PACER提出参数化无环图分布,实现大规模干预数据的高效因果发现,速度提升两个数量级。
GQA-μP:分组查询注意力的最大参数化更新
提出完整深度与权重衰减缩放,推导分组查询注意力的μP缩放,验证学习率转移。
GESD:超越结果导向的公平性
GESD通过衡量模型解释在不同子组间的稳定性差异,提出面向过程的公平性指标,并整合到FEU框架中,兼顾公平与效用。
非线性算子及其导数的通用逼近
首个Banach空间间k次可微非线性算子及其导数的通用逼近定理,推广Hornik(1991)至无限维,用于PDE与逆问题。
PhysBrain 1.0 技术报告
从人类视频提取物理常识,训练视觉语言模型并迁移至机器人策略,在多项基准达SOTA,跨域表现突出。
从输入输出到代码:基于发现智能体的程序合成
提出DIO-Agent框架,将IO2Code视为进化搜索,利用LLM变异和执行错误引导,引入变换优先级前提,显著优于传统方法。
Fortress:通过时序数据增强与特征剪枝稳定搜索推荐系统案例研究
Fortress框架通过历史快照识别并剪枝不稳定特征,抑制波动,提升模型稳定性与准确性。
隐藏在记忆中:LLM助手的内存休眠投毒
提出内存休眠投毒攻击,通过操纵上下文植入虚假记忆,在后续对话中持续影响行为,成功率高达99.8%。
LEAP:迭代科学设计中大语言模型的轨迹级评估
LEAPBench轨迹评估发现LLM迭代设计效率低于贝叶斯基线,但离线强化学习可提升性能。
HoloMotion-1 技术报告
HoloMotion-1利用混合运动语料训练零样本全身跟踪模型,集成时序建模与稀疏MoE Transformer,有效处理异构数据挑战,显著提升精度并直接迁移至人形机器人。
PanoWorld:几何一致的全景视频世界建模
提出PanoWorld,通过深度和轨迹一致性损失生成几何一致的全景视频,优于此前方法。
盈亏平衡复杂度:神经偏微分方程求解器的新视角
提出盈亏平衡复杂度指标,评估神经PDE求解器的成本效益,发现问题越难其越有效。
$f$-轨迹平衡:用于离策略和在策略数据调优GFlowNets、生成模型和LLM的损失族
将均方误差损失扩展为f-散度族,实现on-policy梯度对应f-散度,off-policy保持全局最优,用于调优生成模型。
无奖励的表征:面向LLM微调的JEPA审计
测试表明,多种JEPA辅助目标未能显著提升LLM微调任务准确率,隐藏表征与任务性能弱耦合。
量子神经网络上的对角自适应非局部观测量
对角自适应观测量大幅降低参数与计算复杂度,保持全ANO能力并简化测量。
一个评分就够了?重新思考对顺序演进的大语言模型记忆的评估
提出SeqMem-Eval框架,细粒度评估LLM记忆演化、泛化与遗忘,揭示单一评分无法全面衡量记忆质量。
摊还能量贝叶斯推断
提出无似然的传输方法,学习观测依赖映射逼近后验,避免密度计算,实现非线性逆问题的快速后验采样。
ChangeFlow:用于遥感变化检测的潜在修正流
生成式框架通过潜在修正流合成变化掩膜,集成预测提升鲁棒性与置信度,平均F1达80.4%,超越现有方法。
从反馈循环到策略更新:面向基于LLM的Alpha因子发现的强化微调
QuantEvolver将量化评估转为策略更新,用强化微调内化历史经验,避免反馈循环缺陷,高效发现高质量互补因子。
边界自适应的置信度排名用于可靠LLM判断
学习边界自适应置信度估计器,强化单调关系,提升LLM与人类判断一致的成功率。