Aura · ArXiv AI

368 条条目 · 49 个活跃源

2026年5月18日

04:00

ArXiv AI

A3D：面向自主加速器设计的智能体AI流程

A3D利用AI智能体实现硬件加速器设计全流程自动化，从分析到生成无需人工干预。

04:00

ArXiv AI

基于Phoenix-bench的深度探讨：智能体AI是否准备好应对真实硬件工程？

智能体AI在硬件工程中比软件工程表现差37%-58%，失败集中在FSM等bug，测试反馈提升42%-45%解决率。

04:00

ArXiv AI

生物结构保证是否值得其复杂性？

三个基准测试表明，生物结构保证的可靠性优势未超过简单非生物替代方案。

04:00

ArXiv AI

解读细胞，设计治愈：面向功能的药物设计中基于扰动条件的分子扩散

提出CURE多分辨率转录组引导扩散框架，跨模态对齐与鲁棒生成，结构功能指标超越基线，零样本验证基因抑制剂设计。

04:00

ArXiv AI

PBT-Bench：基于属性的测试中AI代理的基准测试

提出PBT-Bench基准，评估AI代理从文档推导不变量并生成输入策略的能力，PBT引导提示召回率达83.4%，但最强模型提升有限。

04:00

ArXiv AI

集成安全保证的自然语言驱动网页执行的自主智能代理

提出AI测试框架，自然语言驱动网页执行与安全验证，成功率升至93%，时间降75%，检测85%认证绕过漏洞。

04:00

ArXiv AI

GQLA：面向硬件自适应大语言模型解码的分组查询潜在注意力机制

GQLA提出双路径解码（MQA吸收与GQA）适配H100/H20，无需重训，支持张量并行，并将预训练GQA模型KV缓存压缩至28.125%。

04:00

ArXiv AI

PDRNN：基于松散耦合无线电与惯性信号流的模块化数据驱动行人航位推算

提出模块化混合AI辅助PDR系统PDRNN，通过RNN隐式预测异步传感器流，避免误差累积，精度优于传统方法。

04:00

ArXiv AI

PACER：大规模干预数据下的无环因果发现

PACER提出参数化无环图分布，实现大规模干预数据的高效因果发现，速度提升两个数量级。

04:00

ArXiv AI

GQA-μP：分组查询注意力的最大参数化更新

提出完整深度与权重衰减缩放，推导分组查询注意力的μP缩放，验证学习率转移。

04:00

ArXiv AI

GESD：超越结果导向的公平性

GESD通过衡量模型解释在不同子组间的稳定性差异，提出面向过程的公平性指标，并整合到FEU框架中，兼顾公平与效用。

04:00

ArXiv AI

非线性算子及其导数的通用逼近

首个Banach空间间k次可微非线性算子及其导数的通用逼近定理，推广Hornik(1991)至无限维，用于PDE与逆问题。

04:00

ArXiv AI

PhysBrain 1.0 技术报告

从人类视频提取物理常识，训练视觉语言模型并迁移至机器人策略，在多项基准达SOTA，跨域表现突出。

04:00

ArXiv AI

从输入输出到代码：基于发现智能体的程序合成

提出DIO-Agent框架，将IO2Code视为进化搜索，利用LLM变异和执行错误引导，引入变换优先级前提，显著优于传统方法。

04:00

ArXiv AI

Fortress：通过时序数据增强与特征剪枝稳定搜索推荐系统案例研究

Fortress框架通过历史快照识别并剪枝不稳定特征，抑制波动，提升模型稳定性与准确性。

04:00

ArXiv AI

隐藏在记忆中：LLM助手的内存休眠投毒

提出内存休眠投毒攻击，通过操纵上下文植入虚假记忆，在后续对话中持续影响行为，成功率高达99.8%。

04:00

ArXiv AI

LEAP：迭代科学设计中大语言模型的轨迹级评估

LEAPBench轨迹评估发现LLM迭代设计效率低于贝叶斯基线，但离线强化学习可提升性能。

04:00

ArXiv AI

HoloMotion-1 技术报告

HoloMotion-1利用混合运动语料训练零样本全身跟踪模型，集成时序建模与稀疏MoE Transformer，有效处理异构数据挑战，显著提升精度并直接迁移至人形机器人。

04:00

ArXiv AI

PanoWorld：几何一致的全景视频世界建模

提出PanoWorld，通过深度和轨迹一致性损失生成几何一致的全景视频，优于此前方法。

04:00

ArXiv AI

盈亏平衡复杂度：神经偏微分方程求解器的新视角

提出盈亏平衡复杂度指标，评估神经PDE求解器的成本效益，发现问题越难其越有效。

04:00

ArXiv AI

$f$-轨迹平衡：用于离策略和在策略数据调优GFlowNets、生成模型和LLM的损失族

将均方误差损失扩展为f-散度族，实现on-policy梯度对应f-散度，off-policy保持全局最优，用于调优生成模型。

04:00

ArXiv AI

无奖励的表征：面向LLM微调的JEPA审计

测试表明，多种JEPA辅助目标未能显著提升LLM微调任务准确率，隐藏表征与任务性能弱耦合。

04:00

ArXiv AI

量子神经网络上的对角自适应非局部观测量

对角自适应观测量大幅降低参数与计算复杂度，保持全ANO能力并简化测量。

04:00

ArXiv AI

一个评分就够了？重新思考对顺序演进的大语言模型记忆的评估

提出SeqMem-Eval框架，细粒度评估LLM记忆演化、泛化与遗忘，揭示单一评分无法全面衡量记忆质量。

04:00

ArXiv AI

摊还能量贝叶斯推断

提出无似然的传输方法，学习观测依赖映射逼近后验，避免密度计算，实现非线性逆问题的快速后验采样。

04:00

ArXiv AI

ChangeFlow：用于遥感变化检测的潜在修正流

生成式框架通过潜在修正流合成变化掩膜，集成预测提升鲁棒性与置信度，平均F1达80.4%，超越现有方法。

04:00

ArXiv AI

从反馈循环到策略更新：面向基于LLM的Alpha因子发现的强化微调

QuantEvolver将量化评估转为策略更新，用强化微调内化历史经验，避免反馈循环缺陷，高效发现高质量互补因子。

04:00

ArXiv AI

边界自适应的置信度排名用于可靠LLM判断

学习边界自适应置信度估计器，强化单调关系，提升LLM与人类判断一致的成功率。

04:00

ArXiv AI

MR2-ByteTrack：面向AI增强型嵌入式视觉传感器节点的基于CNN和Transformer的视频目标检测

MR2-ByteTrack采用多分辨率推理和重新评分算法，在MCU上实现实时视频目标检测，能耗最高降低55%。

04:00

ArXiv AI

Ghosted Layers: Unconstrained Activation Alignment for Recovering Layer-Pruned LLMs

04:00

ArXiv AI

DrugSAGE：用于高效前沿药物发现的自我进化智能体经验

DrugSAGE通过跨任务记忆复用经验，在33个分子性质预测任务中排名第一，零测试搜索下超基线10-30%，实现高效前沿药物发现。

04:00

ArXiv AI

面向智能编码系统的运行时结构化任务分解

运行时结构化任务分解仅重试失败子任务，重试成本较单体系统降低51.7%，较静态分解降低73.2%。

04:00

ArXiv AI

随机时延下机器人遥操作的残差强化学习

提出残差强化学习框架，结合LSTM状态估计，应对随机延迟，实现鲁棒稳定遥操作。

04:00

ArXiv AI

RIDE：基于Retinex先验的解耦方法用于揭露隐蔽物体

RIDE利用Retinex同质分解与可区分性差距定理，通过任务驱动解耦实现隐蔽物体高效分割。

04:00

ArXiv AI

GRLO: 从零开始在开放式环境中实现可泛化强化学习

GRLO仅用5K提示和22.7GPU小时，将模型平均性能从24.1提升至63.1，数据量和算力分别减少46倍和68倍。

04:00

ArXiv AI

基于混合大语言模型的机器人任务调度智能框架

使用双LLM代理优化建筑机器人任务调度，平衡效率与资源，实时适应现场变化。

04:00

ArXiv AI

面向模式约束临床信息抽取的检索增强大语言模型

提出模块化RAG管道，结合模式约束提示与二次审计，最佳配置达80.36% F1，检索增强一致提升性能。

04:00

ArXiv AI

差分隐私模体保持的多模态哈希

通过度裁剪与噪声镜像下降生成差分隐私合成图，蒸馏保留拓扑模体，跨模态哈希性能达非私有的92.5%。

04:00

ArXiv AI

在利益冲突下学习

ML系统与用户利益冲突，现有方案缺乏激励。本文提出博弈论框架，最大化有益信息并最小化偏见操纵。

04:00

ArXiv AI

SkiP：何时跳过何时精炼以实现高效机器人操作

SkiP通过动作重标记动态跳过冗余步骤并精炼关键动作，减少15–40%执行步骤且成功率不降。

04:00

ArXiv AI

分布式学习中的数据归因脆弱性研究

分布式学习数据归因脆弱，单一攻击可大幅提高自身归因值而保持模型效用，揭示新攻击面。

04:00

ArXiv AI

RoPE在长上下文中无法区分位置和标记（被证明）

证明RoPE在长上下文中失去位置和令牌区分能力，局部性与一致性消失，调整超参数也无法兼得。

04:00

ArXiv AI

PrismQuant: 面向高斯混合源的率失真最优矢量量化

提出PrismQuant，仅需分量标签成本，全局反向注水分配比特，逼近理论率失真界，模型小巧性能优异。

04:00

ArXiv AI

DiffVAS：部分可观测环境下的扩散引导视觉主动搜索

DiffVAS利用扩散模型重建区域，结合强化学习规划，在部分可观测环境中同时搜索多样目标，效果显著。

04:00

ArXiv AI

神经点形式

提出神经点形式（NPFs），利用拉普拉斯技术建模点云微分形式，证明一致性，提供可解释几何特征。

04:00

ArXiv AI

DeltaPrompts：逃离多模态蒸馏中的零Delta陷阱

揭示零Delta陷阱，提出基于答案散度的提示筛选，构建200k高散度数据集DeltaPrompts，提升多模态蒸馏效果。

04:00

ArXiv AI

基于结构噪声初始化与引导的无调参指令视频编辑

提出无调参指令视频编辑框架，通过结构噪声初始化和引导机制提升内容一致性及视觉效果，性能领先。

04:00

ArXiv AI

具有学习可靠性的过程奖励

BetaPRM同时预测步骤成功率及其可靠性，基于此提出ACA自适应分配计算，减少33.57%token并提升准确率。

04:00

ArXiv AI

通过智能体程序分析检测多语言微服务中的权限提升

Neo结合大语言模型与程序分析，检测微服务权限提升漏洞，发现24个零日漏洞，精度81%、召回85%。

04:00

ArXiv AI

潜在视频预测有助于学习更好的世界模型

潜在预测模型在特征判别、鲁棒性、遮挡和时间方向等维度均优于其他模型，证明其作为世界模型的优势。

← 往后5 / 8往前 →