Aura · 时间线

如何训练你的顾问：使用顾问模型引导黑盒大语言模型

训练小型顾问模型动态生成建议，显著提升黑盒大模型性能，可迁移且鲁棒。

LLM-EDT: 大语言模型增强的跨域序列推荐与双阶段训练

提出LLM-EDT，用可迁移项目增强器和双阶段训练，解决跨域序列推荐中的不平衡与转换问题，提升预测性能。

单调与可分离集合函数：刻画与神经模型

提出单调且可分离的集合函数，证明无限集下不存在，但给出弱MAS模型，实验验证其有效性。

ADMIT：面向基于RAG的事实核查的少样本知识投毒攻击

提出ADMIT攻击，以极低投毒率（0.93×10⁻⁶）实现86%成功率，无需访问模型，比SOTA提升11.2%。

模型可以自助：面向LLM推理的无奖励自训练

提出SePT方法，通过自生成和在线数据刷新，无需外部奖励即可提升LLM的数学推理性能。

UniShield：一种自适应的多智能体统一伪造图像检测与定位框架

UniShield融合感知与检测智能体，动态选择模型，统一检测多种伪造图像，性能领先且适应性强。

高稀疏度下提升剪枝鲁棒性的权重集中正则化方法

提出WCR正则化，训练中放大少数参数权重，其余归零，使剪枝移除不重要参数，提升鲁棒性。

SARVLM：面向SAR图像语义理解的视觉语言基础模型

构建百万级SAR图文数据集，提出两阶段域迁移训练，开发SARVLM模型，在多项语义理解任务上超越现有模型。

SemanticOpt：迈向基于大语言模型的语义黑箱优化

SemanticOpt框架微调大语言模型联合数值与语义信息进行黑箱优化，效果优于传统方法。

数据库中的充分解释及其与数据库修复的联系

研究查询回答中元组的充分解释与充分度，探讨与数据库修复及因果必要解释的联系，并用回答集程序计算。

DR Tulu：基于演化规则的强化学习用于深度研究

提出演化规则强化学习(RLER)，训练DR Tulu-8B，在长篇深度研究上超越开放和专有模型，成本极低。

图正则化稀疏自编码器用于大语言模型安全引导

GSAE通过图正则化提升稀疏自编码器解码器平滑性，以双门控控制器增强选择性拒绝，在多项基准中显著提升有害请求拒答率。

Structure-BiEval：面向Web信息系统，解耦LLM评估中结构与内容的自监督双轨框架

Structure-BiEval自监督框架解耦结构与内容，评估LLM，中型模型在Web格式化上有时优于大型，深层嵌套是一致挑战。

面向几何感知音频编码的二维量化

提出二维量化(Q2D2)，将特征对投影到结构化2D网格，实现低令牌率与高码本利用率，音频压缩效率提升且重建质量达SOTA。

多项式神经层扩散：细胞层上的谱滤波方法

PolyNSD使用多项式谱滤波稳定传播，仅用对角限制映射即达新SOTA，降低计算开销。

EMFusion：一种面向无线网络中频率选择性电磁场预测的、具有不确定性感知的条件扩散框架

EMFusion条件扩散框架实现频率选择性EMF概率预测，集成上下文信息与不确定性估计，性能优于基线23.85%。

强制等变性的缺陷及其补偿：表达能力视角

强制等变约束削弱表达能力，但扩大模型可补偿，且扩大后泛化性更优。

LASER：面向半结构化工作流资源和运行时间估计的语言模型回归

LASER微调LLM对半结构化工作流进行多目标资源与运行时间回归，采用科学计数法和约束解码，性能超越人类专家。

HAI-Eval：评估协作编程中的人机协同

HAI-Eval通过设计协作必需任务，测试人机编程协同，实验表明协作显著优于单独表现，揭示共推理伙伴关系。

SafeGPT：防止企业大语言模型使用中的数据泄露和不道德输出

SafeGPT双面护栏系统，通过输入输出审核及人工反馈，降低企业LLM数据泄露与偏见风险，维持满意度。

基于自由能最小化的神经策略组合

提出自由能最小化框架实现策略组合，导出收敛梯度流与神经电路，在多智能体等任务中匹配或超越现有模型。

00:00

介绍Ettin Reranker家族

文中未提供摘要，无法提炼。

2026年5月18日

21:55

OSHA调查SpaceX星基地工人死亡事件

星基地事故率最高，工人死亡成最新安全隐忧。

21:29

SandboxAQ将药物发现模型引入Claude——无需计算机博士学位

SandboxAQ认为药物发现困境在于访问而非模型性能，借助Claude降低门槛。

21:26

MarkTechPost

认识 MemPrivacy：通过本地可逆假名化保护用户数据且不破坏内存效用的边缘-云框架

MemPrivacy 框架利用本地可逆假名化，在保护用户隐私的同时不牺牲内存效用，解决云内存数据暴露问题。

20:18

MarkTechPost

随机梯度下降的频率偏差及Adam如何修正它

SGD偏向高频词导致低频词更新不足，Adam通过自适应学习率修正此偏差。

19:27

Anthropic收购了曾被OpenAI、谷歌和Cloudflare使用的开发工具初创公司

纽约初创Stainless被收购，将停止所有托管产品。

17:34

埃隆·马斯克在与山姆·奥尔特曼和OpenAI的诉讼中败诉

马斯克起诉OpenAI称遭不公对待，但因超过诉讼时效被陪审团一致裁定败诉。

16:32

纽约市健康与医院系统称黑客在影响至少180万人的数据泄露中窃取了医疗数据和指纹

纽约公立医疗系统遭黑客攻击，超180万人信息泄露，含医疗数据和指纹，系2026年最大泄露之一。

16:00

使用LoRA/DoRA微调NVIDIA Cosmos Predict 2.5以生成机器人视频

采用LoRA/DoRA高效微调技术优化Cosmos Predict模型，提升机器人视频生成质量

15:26

Kin Health 筹集900万美元，为患者构建AI笔记记录工具

该应用记录就诊信息，AI自动生成摘要和后续步骤，并可分享给家人。

15:12

PaddleOCR 3.5：使用Transformers后端运行OCR和文档解析任务

使用Transformers后端运行OCR和文档解析任务

14:56

亚马逊新推出的Alexa+功能可生成播客节目

亚马逊Alexa+可按需生成定制AI播客，将其打造成个性化AI内容平台。

14:12

开放智能体排行榜

暂无描述

13:42

开源工具制造商Grafana Labs称黑客窃取其代码，拒绝支付赎金

黑客窃取代码库并威胁公开源码，Grafana Labs拒绝支付赎金

11:00

韩国LetinAR正在打造AI眼镜的光学器件

韩国初创LetinAR的微型镜头，或成AI眼镜时代的光学核心。

10:00

OpenAI

OpenAI与戴尔合作，将Codex引入混合及本地企业环境

OpenAI与戴尔合作，助企业安全部署AI编码代理。

08:42

MarkTechPost

NVIDIA推出基于NVFP4的4位预训练方法，在12B混合Mamba-Transformer上经10T Token验证

NVIDIA推出NVFP4 4位预训练法，12B模型训10T token，准确率接近FP8基线(62.58% vs 62.62%)。

可验证的自主基础设施：面向主权AI系统的证明派生授权

提出分布式信任框架，以证明派生权限代替固定身份，确保自主AI执行可治理、可审计、有边界。

公平输出，偏见内在：大语言模型高风险决策中潜在偏见的因果效力与不对称性

模型输出公平但内部偏见可致决策反转且不对称，输出审计不足，需双重测试。

NOVA：AI知识发现的基本极限

提出NOVA框架分析AI知识发现的极限，揭示污染陷阱，证明发现成本服从Zipf缩放律。

SDOF：利用状态约束调度驯服多智能体编排中的对齐代价

SDOF通过状态约束调度多智能体，在招聘系统上实现86.5%任务完成率、100%精度阻止注入，路由准确率80.9%胜GPT-4o

ICRL：通过强化学习内化自我批评

ICRL联合训练求解器和批评者，将批评引导的成功转化为独立能力，无需外部批评即可自我改进，在推理任务上平均提升6-7分，8B批评者性能堪比32B。

NIMO控制器：基于模型上下文协议的自驱动实验室编排器

提出基于MCP的NIMO控制器，统一人类与AI代理接口，实现可视化无代码编程，经颜色匹配实验验证。

CAX-Agent：一种用于可靠APDL自动化的轻量级Agent框架

CAX-Agent以模型驱动恢复策略实现MAPDL自动化高可靠性：完成率0.93，零干预率0.84，显著优于无恢复和仅规则恢复策略。

SkillSmith：将智能体技能编译为边界引导的运行时接口

SkillSmith通过提取技能边界，减少冗余上下文注入和推理，使token使用降57%、速度提升2倍。

心智理论改进真的有益于人机交互吗？来自交互评估的实证发现

新范式交互评估显示，静态基准的提升未必转化为动态人机交互的更好表现，交互评估不可或缺。

DeepSlide：从文稿到演讲呈现

DeepSlide是人机协作多智能体系统，支持从需求到排练的完整演示流程，在保持文稿质量同时显著提升叙事流、节奏和注意力引导等交付指标。

SMCEvolve：基于序贯蒙特卡洛进化的有原则科学发现

将程序搜索重铸为奖励倾斜采样，用SMC近似，提出自适应重采样等三个机制，实现高效且收敛可控的科学发现。