A3D:面向自主加速器设计的智能体AI流程
A3D利用AI智能体实现硬件加速器设计全流程自动化,从分析到生成无需人工干预。
基于Phoenix-bench的深度探讨:智能体AI是否准备好应对真实硬件工程?
智能体AI在硬件工程中比软件工程表现差37%-58%,失败集中在FSM等bug,测试反馈提升42%-45%解决率。
生物结构保证是否值得其复杂性?
三个基准测试表明,生物结构保证的可靠性优势未超过简单非生物替代方案。
解读细胞,设计治愈:面向功能的药物设计中基于扰动条件的分子扩散
提出CURE多分辨率转录组引导扩散框架,跨模态对齐与鲁棒生成,结构功能指标超越基线,零样本验证基因抑制剂设计。
PBT-Bench:基于属性的测试中AI代理的基准测试
提出PBT-Bench基准,评估AI代理从文档推导不变量并生成输入策略的能力,PBT引导提示召回率达83.4%,但最强模型提升有限。
集成安全保证的自然语言驱动网页执行的自主智能代理
提出AI测试框架,自然语言驱动网页执行与安全验证,成功率升至93%,时间降75%,检测85%认证绕过漏洞。
GQLA:面向硬件自适应大语言模型解码的分组查询潜在注意力机制
GQLA提出双路径解码(MQA吸收与GQA)适配H100/H20,无需重训,支持张量并行,并将预训练GQA模型KV缓存压缩至28.125%。
PDRNN:基于松散耦合无线电与惯性信号流的模块化数据驱动行人航位推算
提出模块化混合AI辅助PDR系统PDRNN,通过RNN隐式预测异步传感器流,避免误差累积,精度优于传统方法。
PACER:大规模干预数据下的无环因果发现
PACER提出参数化无环图分布,实现大规模干预数据的高效因果发现,速度提升两个数量级。
GQA-μP:分组查询注意力的最大参数化更新
提出完整深度与权重衰减缩放,推导分组查询注意力的μP缩放,验证学习率转移。
GESD:超越结果导向的公平性
GESD通过衡量模型解释在不同子组间的稳定性差异,提出面向过程的公平性指标,并整合到FEU框架中,兼顾公平与效用。
非线性算子及其导数的通用逼近
首个Banach空间间k次可微非线性算子及其导数的通用逼近定理,推广Hornik(1991)至无限维,用于PDE与逆问题。
PhysBrain 1.0 技术报告
从人类视频提取物理常识,训练视觉语言模型并迁移至机器人策略,在多项基准达SOTA,跨域表现突出。
从输入输出到代码:基于发现智能体的程序合成
提出DIO-Agent框架,将IO2Code视为进化搜索,利用LLM变异和执行错误引导,引入变换优先级前提,显著优于传统方法。
Fortress:通过时序数据增强与特征剪枝稳定搜索推荐系统案例研究
Fortress框架通过历史快照识别并剪枝不稳定特征,抑制波动,提升模型稳定性与准确性。
隐藏在记忆中:LLM助手的内存休眠投毒
提出内存休眠投毒攻击,通过操纵上下文植入虚假记忆,在后续对话中持续影响行为,成功率高达99.8%。
LEAP:迭代科学设计中大语言模型的轨迹级评估
LEAPBench轨迹评估发现LLM迭代设计效率低于贝叶斯基线,但离线强化学习可提升性能。
HoloMotion-1 技术报告
HoloMotion-1利用混合运动语料训练零样本全身跟踪模型,集成时序建模与稀疏MoE Transformer,有效处理异构数据挑战,显著提升精度并直接迁移至人形机器人。
PanoWorld:几何一致的全景视频世界建模
提出PanoWorld,通过深度和轨迹一致性损失生成几何一致的全景视频,优于此前方法。
盈亏平衡复杂度:神经偏微分方程求解器的新视角
提出盈亏平衡复杂度指标,评估神经PDE求解器的成本效益,发现问题越难其越有效。
$f$-轨迹平衡:用于离策略和在策略数据调优GFlowNets、生成模型和LLM的损失族
将均方误差损失扩展为f-散度族,实现on-policy梯度对应f-散度,off-policy保持全局最优,用于调优生成模型。
无奖励的表征:面向LLM微调的JEPA审计
测试表明,多种JEPA辅助目标未能显著提升LLM微调任务准确率,隐藏表征与任务性能弱耦合。
量子神经网络上的对角自适应非局部观测量
对角自适应观测量大幅降低参数与计算复杂度,保持全ANO能力并简化测量。
一个评分就够了?重新思考对顺序演进的大语言模型记忆的评估
提出SeqMem-Eval框架,细粒度评估LLM记忆演化、泛化与遗忘,揭示单一评分无法全面衡量记忆质量。
摊还能量贝叶斯推断
提出无似然的传输方法,学习观测依赖映射逼近后验,避免密度计算,实现非线性逆问题的快速后验采样。
ChangeFlow:用于遥感变化检测的潜在修正流
生成式框架通过潜在修正流合成变化掩膜,集成预测提升鲁棒性与置信度,平均F1达80.4%,超越现有方法。
从反馈循环到策略更新:面向基于LLM的Alpha因子发现的强化微调
QuantEvolver将量化评估转为策略更新,用强化微调内化历史经验,避免反馈循环缺陷,高效发现高质量互补因子。
边界自适应的置信度排名用于可靠LLM判断
学习边界自适应置信度估计器,强化单调关系,提升LLM与人类判断一致的成功率。
MR2-ByteTrack:面向AI增强型嵌入式视觉传感器节点的基于CNN和Transformer的视频目标检测
MR2-ByteTrack采用多分辨率推理和重新评分算法,在MCU上实现实时视频目标检测,能耗最高降低55%。
Ghosted Layers: Unconstrained Activation Alignment for Recovering Layer-Pruned LLMs
DrugSAGE:用于高效前沿药物发现的自我进化智能体经验
DrugSAGE通过跨任务记忆复用经验,在33个分子性质预测任务中排名第一,零测试搜索下超基线10-30%,实现高效前沿药物发现。
面向智能编码系统的运行时结构化任务分解
运行时结构化任务分解仅重试失败子任务,重试成本较单体系统降低51.7%,较静态分解降低73.2%。
随机时延下机器人遥操作的残差强化学习
提出残差强化学习框架,结合LSTM状态估计,应对随机延迟,实现鲁棒稳定遥操作。
RIDE:基于Retinex先验的解耦方法用于揭露隐蔽物体
RIDE利用Retinex同质分解与可区分性差距定理,通过任务驱动解耦实现隐蔽物体高效分割。
GRLO: 从零开始在开放式环境中实现可泛化强化学习
GRLO仅用5K提示和22.7GPU小时,将模型平均性能从24.1提升至63.1,数据量和算力分别减少46倍和68倍。
基于混合大语言模型的机器人任务调度智能框架
使用双LLM代理优化建筑机器人任务调度,平衡效率与资源,实时适应现场变化。
面向模式约束临床信息抽取的检索增强大语言模型
提出模块化RAG管道,结合模式约束提示与二次审计,最佳配置达80.36% F1,检索增强一致提升性能。
差分隐私模体保持的多模态哈希
通过度裁剪与噪声镜像下降生成差分隐私合成图,蒸馏保留拓扑模体,跨模态哈希性能达非私有的92.5%。
在利益冲突下学习
ML系统与用户利益冲突,现有方案缺乏激励。本文提出博弈论框架,最大化有益信息并最小化偏见操纵。
SkiP:何时跳过何时精炼以实现高效机器人操作
SkiP通过动作重标记动态跳过冗余步骤并精炼关键动作,减少15–40%执行步骤且成功率不降。
分布式学习中的数据归因脆弱性研究
分布式学习数据归因脆弱,单一攻击可大幅提高自身归因值而保持模型效用,揭示新攻击面。
RoPE在长上下文中无法区分位置和标记(被证明)
证明RoPE在长上下文中失去位置和令牌区分能力,局部性与一致性消失,调整超参数也无法兼得。
PrismQuant: 面向高斯混合源的率失真最优矢量量化
提出PrismQuant,仅需分量标签成本,全局反向注水分配比特,逼近理论率失真界,模型小巧性能优异。
DiffVAS:部分可观测环境下的扩散引导视觉主动搜索
DiffVAS利用扩散模型重建区域,结合强化学习规划,在部分可观测环境中同时搜索多样目标,效果显著。
神经点形式
提出神经点形式(NPFs),利用拉普拉斯技术建模点云微分形式,证明一致性,提供可解释几何特征。
DeltaPrompts:逃离多模态蒸馏中的零Delta陷阱
揭示零Delta陷阱,提出基于答案散度的提示筛选,构建200k高散度数据集DeltaPrompts,提升多模态蒸馏效果。
基于结构噪声初始化与引导的无调参指令视频编辑
提出无调参指令视频编辑框架,通过结构噪声初始化和引导机制提升内容一致性及视觉效果,性能领先。
具有学习可靠性的过程奖励
BetaPRM同时预测步骤成功率及其可靠性,基于此提出ACA自适应分配计算,减少33.57%token并提升准确率。
通过智能体程序分析检测多语言微服务中的权限提升
Neo结合大语言模型与程序分析,检测微服务权限提升漏洞,发现24个零日漏洞,精度81%、召回85%。
潜在视频预测有助于学习更好的世界模型
潜在预测模型在特征判别、鲁棒性、遮挡和时间方向等维度均优于其他模型,证明其作为世界模型的优势。