基于自主大语言模型引导树搜索的多病原体前瞻性疾病预测
自主LLM引导树搜索系统自动生成预测模型,在美国呼吸道季节中达到或超过CDC人工集成模型,突破建模劳动瓶颈。
GenAI驱动的RISC-V供应链探索方法
LLM与VLM协同构建知识图谱,MDE约束建模检测瓶颈风险,提升RISC-V供应链透明度与决策支持。
AgentStop:提前终止本地AI代理以节省消费设备能耗
AgentStop通过预测性提前终止低成功概率任务轨迹,节省15-20%能耗,性能损失不足5%。
Agent4POI:面向多模态兴趣点推荐的动态情境条件功能推理框架
首个在推荐时动态生成情境条件化多模态表示的POI框架,通过LLM跨模态推理实现23.2%性能提升,冷启动场景效果达2.4倍。
量化破坏对齐:压缩大语言模型在不同模型与精度级别下的偏见涌现
量化压缩导致偏见涌现:3位时6–21%无偏项目变有偏,4位已现但标准指标不敏感。
基于可视化生成网络的数字电路容错估计
提出生成网络采样新方法,通过比较理想与真实电流信号,评估数字电路逻辑元件的失效容错性。
始终学习,始终混合:高效且简单的持续数据混合方法
提出OP-Mix算法,通过低秩适配器模拟数据混合,覆盖全训练周期,大幅降低计算成本并提升性能。
基于LLM-RAG的健康饮食指数个性化食物推荐方法
提出HEI-RAG框架,结合标准营养数据库与LLM,模拟显示平均HEI提升6.45,有效改善饮食质量。
使用编码代理进行算法发现的有效框架工程
固定预算下,少而精的算法更高效;模型越强越易出现评估黑客,需加强检测。
Hydra: 通过检查点与回滚支持实现高效、正确的代码生成
Hydra通过异步检查与检查点回滚,高效修复静态错误,延迟和令牌消耗分别降低71%和70%。
基于深度强化学习的截止时间约束编码缓存选择性合并策略学习
提出DRL策略,通过选择性合并将广播包过期率降低40.9%,仅以31.8%合并率实现最优广播效率。
A3D:面向自主加速器设计的智能体AI流程
A3D利用AI智能体实现硬件加速器设计全流程自动化,从分析到生成无需人工干预。
基于Phoenix-bench的深度探讨:智能体AI是否准备好应对真实硬件工程?
智能体AI在硬件工程中比软件工程表现差37%-58%,失败集中在FSM等bug,测试反馈提升42%-45%解决率。
生物结构保证是否值得其复杂性?
三个基准测试表明,生物结构保证的可靠性优势未超过简单非生物替代方案。
解读细胞,设计治愈:面向功能的药物设计中基于扰动条件的分子扩散
提出CURE多分辨率转录组引导扩散框架,跨模态对齐与鲁棒生成,结构功能指标超越基线,零样本验证基因抑制剂设计。
PBT-Bench:基于属性的测试中AI代理的基准测试
提出PBT-Bench基准,评估AI代理从文档推导不变量并生成输入策略的能力,PBT引导提示召回率达83.4%,但最强模型提升有限。
集成安全保证的自然语言驱动网页执行的自主智能代理
提出AI测试框架,自然语言驱动网页执行与安全验证,成功率升至93%,时间降75%,检测85%认证绕过漏洞。
GQLA:面向硬件自适应大语言模型解码的分组查询潜在注意力机制
GQLA提出双路径解码(MQA吸收与GQA)适配H100/H20,无需重训,支持张量并行,并将预训练GQA模型KV缓存压缩至28.125%。
PDRNN:基于松散耦合无线电与惯性信号流的模块化数据驱动行人航位推算
提出模块化混合AI辅助PDR系统PDRNN,通过RNN隐式预测异步传感器流,避免误差累积,精度优于传统方法。
PACER:大规模干预数据下的无环因果发现
PACER提出参数化无环图分布,实现大规模干预数据的高效因果发现,速度提升两个数量级。
GQA-μP:分组查询注意力的最大参数化更新
提出完整深度与权重衰减缩放,推导分组查询注意力的μP缩放,验证学习率转移。
GESD:超越结果导向的公平性
GESD通过衡量模型解释在不同子组间的稳定性差异,提出面向过程的公平性指标,并整合到FEU框架中,兼顾公平与效用。
非线性算子及其导数的通用逼近
首个Banach空间间k次可微非线性算子及其导数的通用逼近定理,推广Hornik(1991)至无限维,用于PDE与逆问题。
PhysBrain 1.0 技术报告
从人类视频提取物理常识,训练视觉语言模型并迁移至机器人策略,在多项基准达SOTA,跨域表现突出。
从输入输出到代码:基于发现智能体的程序合成
提出DIO-Agent框架,将IO2Code视为进化搜索,利用LLM变异和执行错误引导,引入变换优先级前提,显著优于传统方法。
Fortress:通过时序数据增强与特征剪枝稳定搜索推荐系统案例研究
Fortress框架通过历史快照识别并剪枝不稳定特征,抑制波动,提升模型稳定性与准确性。
隐藏在记忆中:LLM助手的内存休眠投毒
提出内存休眠投毒攻击,通过操纵上下文植入虚假记忆,在后续对话中持续影响行为,成功率高达99.8%。
LEAP:迭代科学设计中大语言模型的轨迹级评估
LEAPBench轨迹评估发现LLM迭代设计效率低于贝叶斯基线,但离线强化学习可提升性能。
HoloMotion-1 技术报告
HoloMotion-1利用混合运动语料训练零样本全身跟踪模型,集成时序建模与稀疏MoE Transformer,有效处理异构数据挑战,显著提升精度并直接迁移至人形机器人。
PanoWorld:几何一致的全景视频世界建模
提出PanoWorld,通过深度和轨迹一致性损失生成几何一致的全景视频,优于此前方法。
盈亏平衡复杂度:神经偏微分方程求解器的新视角
提出盈亏平衡复杂度指标,评估神经PDE求解器的成本效益,发现问题越难其越有效。
$f$-轨迹平衡:用于离策略和在策略数据调优GFlowNets、生成模型和LLM的损失族
将均方误差损失扩展为f-散度族,实现on-policy梯度对应f-散度,off-policy保持全局最优,用于调优生成模型。
无奖励的表征:面向LLM微调的JEPA审计
测试表明,多种JEPA辅助目标未能显著提升LLM微调任务准确率,隐藏表征与任务性能弱耦合。
量子神经网络上的对角自适应非局部观测量
对角自适应观测量大幅降低参数与计算复杂度,保持全ANO能力并简化测量。
一个评分就够了?重新思考对顺序演进的大语言模型记忆的评估
提出SeqMem-Eval框架,细粒度评估LLM记忆演化、泛化与遗忘,揭示单一评分无法全面衡量记忆质量。
摊还能量贝叶斯推断
提出无似然的传输方法,学习观测依赖映射逼近后验,避免密度计算,实现非线性逆问题的快速后验采样。
ChangeFlow:用于遥感变化检测的潜在修正流
生成式框架通过潜在修正流合成变化掩膜,集成预测提升鲁棒性与置信度,平均F1达80.4%,超越现有方法。
从反馈循环到策略更新:面向基于LLM的Alpha因子发现的强化微调
QuantEvolver将量化评估转为策略更新,用强化微调内化历史经验,避免反馈循环缺陷,高效发现高质量互补因子。
边界自适应的置信度排名用于可靠LLM判断
学习边界自适应置信度估计器,强化单调关系,提升LLM与人类判断一致的成功率。
MR2-ByteTrack:面向AI增强型嵌入式视觉传感器节点的基于CNN和Transformer的视频目标检测
MR2-ByteTrack采用多分辨率推理和重新评分算法,在MCU上实现实时视频目标检测,能耗最高降低55%。
Ghosted Layers: Unconstrained Activation Alignment for Recovering Layer-Pruned LLMs
DrugSAGE:用于高效前沿药物发现的自我进化智能体经验
DrugSAGE通过跨任务记忆复用经验,在33个分子性质预测任务中排名第一,零测试搜索下超基线10-30%,实现高效前沿药物发现。
面向智能编码系统的运行时结构化任务分解
运行时结构化任务分解仅重试失败子任务,重试成本较单体系统降低51.7%,较静态分解降低73.2%。
随机时延下机器人遥操作的残差强化学习
提出残差强化学习框架,结合LSTM状态估计,应对随机延迟,实现鲁棒稳定遥操作。
RIDE:基于Retinex先验的解耦方法用于揭露隐蔽物体
RIDE利用Retinex同质分解与可区分性差距定理,通过任务驱动解耦实现隐蔽物体高效分割。
GRLO: 从零开始在开放式环境中实现可泛化强化学习
GRLO仅用5K提示和22.7GPU小时,将模型平均性能从24.1提升至63.1,数据量和算力分别减少46倍和68倍。
基于混合大语言模型的机器人任务调度智能框架
使用双LLM代理优化建筑机器人任务调度,平衡效率与资源,实时适应现场变化。
面向模式约束临床信息抽取的检索增强大语言模型
提出模块化RAG管道,结合模式约束提示与二次审计,最佳配置达80.36% F1,检索增强一致提升性能。
差分隐私模体保持的多模态哈希
通过度裁剪与噪声镜像下降生成差分隐私合成图,蒸馏保留拓扑模体,跨模态哈希性能达非私有的92.5%。
在利益冲突下学习
ML系统与用户利益冲突,现有方案缺乏激励。本文提出博弈论框架,最大化有益信息并最小化偏见操纵。