Aura · 时间线

全部 OpenAI Hugging Face ArXiv AI Google AI VentureBeat AI MarkTechPost Pragmatic Engineer The Gradient One Useful Thing TechCrunch

1493 条条目 · 10 个活跃源

2026年5月18日

04:00

ArXiv AI

基于自主大语言模型引导树搜索的多病原体前瞻性疾病预测

自主LLM引导树搜索系统自动生成预测模型，在美国呼吸道季节中达到或超过CDC人工集成模型，突破建模劳动瓶颈。

04:00

ArXiv AI

GenAI驱动的RISC-V供应链探索方法

LLM与VLM协同构建知识图谱，MDE约束建模检测瓶颈风险，提升RISC-V供应链透明度与决策支持。

04:00

ArXiv AI

AgentStop：提前终止本地AI代理以节省消费设备能耗

AgentStop通过预测性提前终止低成功概率任务轨迹，节省15-20%能耗，性能损失不足5%。

04:00

ArXiv AI

Agent4POI：面向多模态兴趣点推荐的动态情境条件功能推理框架

首个在推荐时动态生成情境条件化多模态表示的POI框架，通过LLM跨模态推理实现23.2%性能提升，冷启动场景效果达2.4倍。

04:00

ArXiv AI

量化破坏对齐：压缩大语言模型在不同模型与精度级别下的偏见涌现

量化压缩导致偏见涌现：3位时6–21%无偏项目变有偏，4位已现但标准指标不敏感。

04:00

ArXiv AI

基于可视化生成网络的数字电路容错估计

提出生成网络采样新方法，通过比较理想与真实电流信号，评估数字电路逻辑元件的失效容错性。

04:00

ArXiv AI

始终学习，始终混合：高效且简单的持续数据混合方法

提出OP-Mix算法，通过低秩适配器模拟数据混合，覆盖全训练周期，大幅降低计算成本并提升性能。

04:00

ArXiv AI

基于LLM-RAG的健康饮食指数个性化食物推荐方法

提出HEI-RAG框架，结合标准营养数据库与LLM，模拟显示平均HEI提升6.45，有效改善饮食质量。

04:00

ArXiv AI

使用编码代理进行算法发现的有效框架工程

固定预算下，少而精的算法更高效；模型越强越易出现评估黑客，需加强检测。

04:00

ArXiv AI

Hydra: 通过检查点与回滚支持实现高效、正确的代码生成

Hydra通过异步检查与检查点回滚，高效修复静态错误，延迟和令牌消耗分别降低71%和70%。

04:00

ArXiv AI

基于深度强化学习的截止时间约束编码缓存选择性合并策略学习

提出DRL策略，通过选择性合并将广播包过期率降低40.9%，仅以31.8%合并率实现最优广播效率。

04:00

ArXiv AI

A3D：面向自主加速器设计的智能体AI流程

A3D利用AI智能体实现硬件加速器设计全流程自动化，从分析到生成无需人工干预。

04:00

ArXiv AI

基于Phoenix-bench的深度探讨：智能体AI是否准备好应对真实硬件工程？

智能体AI在硬件工程中比软件工程表现差37%-58%，失败集中在FSM等bug，测试反馈提升42%-45%解决率。

04:00

ArXiv AI

生物结构保证是否值得其复杂性？

三个基准测试表明，生物结构保证的可靠性优势未超过简单非生物替代方案。

04:00

ArXiv AI

解读细胞，设计治愈：面向功能的药物设计中基于扰动条件的分子扩散

提出CURE多分辨率转录组引导扩散框架，跨模态对齐与鲁棒生成，结构功能指标超越基线，零样本验证基因抑制剂设计。

04:00

ArXiv AI

PBT-Bench：基于属性的测试中AI代理的基准测试

提出PBT-Bench基准，评估AI代理从文档推导不变量并生成输入策略的能力，PBT引导提示召回率达83.4%，但最强模型提升有限。

04:00

ArXiv AI

集成安全保证的自然语言驱动网页执行的自主智能代理

提出AI测试框架，自然语言驱动网页执行与安全验证，成功率升至93%，时间降75%，检测85%认证绕过漏洞。

04:00

ArXiv AI

GQLA：面向硬件自适应大语言模型解码的分组查询潜在注意力机制

GQLA提出双路径解码（MQA吸收与GQA）适配H100/H20，无需重训，支持张量并行，并将预训练GQA模型KV缓存压缩至28.125%。

04:00

ArXiv AI

PDRNN：基于松散耦合无线电与惯性信号流的模块化数据驱动行人航位推算

提出模块化混合AI辅助PDR系统PDRNN，通过RNN隐式预测异步传感器流，避免误差累积，精度优于传统方法。

04:00

ArXiv AI

PACER：大规模干预数据下的无环因果发现

PACER提出参数化无环图分布，实现大规模干预数据的高效因果发现，速度提升两个数量级。

04:00

ArXiv AI

GQA-μP：分组查询注意力的最大参数化更新

提出完整深度与权重衰减缩放，推导分组查询注意力的μP缩放，验证学习率转移。

04:00

ArXiv AI

GESD：超越结果导向的公平性

GESD通过衡量模型解释在不同子组间的稳定性差异，提出面向过程的公平性指标，并整合到FEU框架中，兼顾公平与效用。

04:00

ArXiv AI

非线性算子及其导数的通用逼近

首个Banach空间间k次可微非线性算子及其导数的通用逼近定理，推广Hornik(1991)至无限维，用于PDE与逆问题。

04:00

ArXiv AI

PhysBrain 1.0 技术报告

从人类视频提取物理常识，训练视觉语言模型并迁移至机器人策略，在多项基准达SOTA，跨域表现突出。

04:00

ArXiv AI

从输入输出到代码：基于发现智能体的程序合成

提出DIO-Agent框架，将IO2Code视为进化搜索，利用LLM变异和执行错误引导，引入变换优先级前提，显著优于传统方法。

04:00

ArXiv AI

Fortress：通过时序数据增强与特征剪枝稳定搜索推荐系统案例研究

Fortress框架通过历史快照识别并剪枝不稳定特征，抑制波动，提升模型稳定性与准确性。

04:00

ArXiv AI

隐藏在记忆中：LLM助手的内存休眠投毒

提出内存休眠投毒攻击，通过操纵上下文植入虚假记忆，在后续对话中持续影响行为，成功率高达99.8%。

04:00

ArXiv AI

LEAP：迭代科学设计中大语言模型的轨迹级评估

LEAPBench轨迹评估发现LLM迭代设计效率低于贝叶斯基线，但离线强化学习可提升性能。

04:00

ArXiv AI

HoloMotion-1 技术报告

HoloMotion-1利用混合运动语料训练零样本全身跟踪模型，集成时序建模与稀疏MoE Transformer，有效处理异构数据挑战，显著提升精度并直接迁移至人形机器人。

04:00

ArXiv AI

PanoWorld：几何一致的全景视频世界建模

提出PanoWorld，通过深度和轨迹一致性损失生成几何一致的全景视频，优于此前方法。

04:00

ArXiv AI

盈亏平衡复杂度：神经偏微分方程求解器的新视角

提出盈亏平衡复杂度指标，评估神经PDE求解器的成本效益，发现问题越难其越有效。

04:00

ArXiv AI

$f$-轨迹平衡：用于离策略和在策略数据调优GFlowNets、生成模型和LLM的损失族

将均方误差损失扩展为f-散度族，实现on-policy梯度对应f-散度，off-policy保持全局最优，用于调优生成模型。

04:00

ArXiv AI

无奖励的表征：面向LLM微调的JEPA审计

测试表明，多种JEPA辅助目标未能显著提升LLM微调任务准确率，隐藏表征与任务性能弱耦合。

04:00

ArXiv AI

量子神经网络上的对角自适应非局部观测量

对角自适应观测量大幅降低参数与计算复杂度，保持全ANO能力并简化测量。

04:00

ArXiv AI

一个评分就够了？重新思考对顺序演进的大语言模型记忆的评估

提出SeqMem-Eval框架，细粒度评估LLM记忆演化、泛化与遗忘，揭示单一评分无法全面衡量记忆质量。

04:00

ArXiv AI

摊还能量贝叶斯推断

提出无似然的传输方法，学习观测依赖映射逼近后验，避免密度计算，实现非线性逆问题的快速后验采样。

04:00

ArXiv AI

ChangeFlow：用于遥感变化检测的潜在修正流

生成式框架通过潜在修正流合成变化掩膜，集成预测提升鲁棒性与置信度，平均F1达80.4%，超越现有方法。

04:00

ArXiv AI

从反馈循环到策略更新：面向基于LLM的Alpha因子发现的强化微调

QuantEvolver将量化评估转为策略更新，用强化微调内化历史经验，避免反馈循环缺陷，高效发现高质量互补因子。

04:00

ArXiv AI

边界自适应的置信度排名用于可靠LLM判断

学习边界自适应置信度估计器，强化单调关系，提升LLM与人类判断一致的成功率。

04:00

ArXiv AI

MR2-ByteTrack：面向AI增强型嵌入式视觉传感器节点的基于CNN和Transformer的视频目标检测

MR2-ByteTrack采用多分辨率推理和重新评分算法，在MCU上实现实时视频目标检测，能耗最高降低55%。

04:00

ArXiv AI

Ghosted Layers: Unconstrained Activation Alignment for Recovering Layer-Pruned LLMs

04:00

ArXiv AI

DrugSAGE：用于高效前沿药物发现的自我进化智能体经验

DrugSAGE通过跨任务记忆复用经验，在33个分子性质预测任务中排名第一，零测试搜索下超基线10-30%，实现高效前沿药物发现。

04:00

ArXiv AI

面向智能编码系统的运行时结构化任务分解

运行时结构化任务分解仅重试失败子任务，重试成本较单体系统降低51.7%，较静态分解降低73.2%。

04:00

ArXiv AI

随机时延下机器人遥操作的残差强化学习

提出残差强化学习框架，结合LSTM状态估计，应对随机延迟，实现鲁棒稳定遥操作。

04:00

ArXiv AI

RIDE：基于Retinex先验的解耦方法用于揭露隐蔽物体

RIDE利用Retinex同质分解与可区分性差距定理，通过任务驱动解耦实现隐蔽物体高效分割。

04:00

ArXiv AI

GRLO: 从零开始在开放式环境中实现可泛化强化学习

GRLO仅用5K提示和22.7GPU小时，将模型平均性能从24.1提升至63.1，数据量和算力分别减少46倍和68倍。

04:00

ArXiv AI

基于混合大语言模型的机器人任务调度智能框架

使用双LLM代理优化建筑机器人任务调度，平衡效率与资源，实时适应现场变化。

04:00

ArXiv AI

面向模式约束临床信息抽取的检索增强大语言模型

提出模块化RAG管道，结合模式约束提示与二次审计，最佳配置达80.36% F1，检索增强一致提升性能。

04:00

ArXiv AI

差分隐私模体保持的多模态哈希

通过度裁剪与噪声镜像下降生成差分隐私合成图，蒸馏保留拓扑模体，跨模态哈希性能达非私有的92.5%。

04:00

ArXiv AI

在利益冲突下学习

ML系统与用户利益冲突，现有方案缺乏激励。本文提出博弈论框架，最大化有益信息并最小化偏见操纵。

← 往后6 / 30往前 →