Aura · 时间线

2011 条条目 · 49 个活跃源

2026年5月18日

14:35

Meta Newsroom

我们的AI可穿戴设备正在为残障人士“改变游戏规则”

AI眼镜推出新功能，让残障人士更易用。

14:12

Hugging Face

开放智能体排行榜

暂无描述

13:45

Latent Space

下一场战争已然来临，西方尚未准备好——亚罗斯拉夫·阿日纽克与诺亚·史密斯

乌克兰无人机创始人警告：西方对已到来的AI战争仍掉以轻心。

13:42

TechCrunch

开源工具制造商Grafana Labs称黑客窃取其代码，拒绝支付赎金

黑客窃取代码库并威胁公开源码，Grafana Labs拒绝支付赎金

13:31

Import AI

Import AI 457: AI震网；诅咒的缪子优化器；正向对齐

本期探讨AI震网攻击、有问题的Muon优化器及AI正向对齐研究。

12:10

MIT Tech Review AI

下载：马斯克诉奥特曼第三周，以及特朗普的科技交易

马斯克与奥特曼在庭审最后一周互驳信誉，陪审团即将裁决。

11:00

TechCrunch

韩国LetinAR正在打造AI眼镜的光学器件

韩国初创LetinAR的微型镜头，或成AI眼镜时代的光学核心。

10:00

OpenAI

OpenAI与戴尔合作，将Codex引入混合及本地企业环境

OpenAI与戴尔合作，助企业安全部署AI编码代理。

10:00

Stratechery

数据中心的不满：理解反对声音，解决问题

反对数据中心情有可原，唯一有效方案是直接经济补偿。

08:42

MarkTechPost

NVIDIA推出基于NVFP4的4位预训练方法，在12B混合Mamba-Transformer上经10T Token验证

NVIDIA推出NVFP4 4位预训练法，12B模型训10T token，准确率接近FP8基线(62.58% vs 62.62%)。

04:00

ArXiv AI

可验证的自主基础设施：面向主权AI系统的证明派生授权

提出分布式信任框架，以证明派生权限代替固定身份，确保自主AI执行可治理、可审计、有边界。

04:00

ArXiv AI

公平输出，偏见内在：大语言模型高风险决策中潜在偏见的因果效力与不对称性

模型输出公平但内部偏见可致决策反转且不对称，输出审计不足，需双重测试。

04:00

ArXiv AI

NOVA：AI知识发现的基本极限

提出NOVA框架分析AI知识发现的极限，揭示污染陷阱，证明发现成本服从Zipf缩放律。

04:00

ArXiv AI

SDOF：利用状态约束调度驯服多智能体编排中的对齐代价

SDOF通过状态约束调度多智能体，在招聘系统上实现86.5%任务完成率、100%精度阻止注入，路由准确率80.9%胜GPT-4o

04:00

ArXiv AI

ICRL：通过强化学习内化自我批评

ICRL联合训练求解器和批评者，将批评引导的成功转化为独立能力，无需外部批评即可自我改进，在推理任务上平均提升6-7分，8B批评者性能堪比32B。

04:00

ArXiv AI

NIMO控制器：基于模型上下文协议的自驱动实验室编排器

提出基于MCP的NIMO控制器，统一人类与AI代理接口，实现可视化无代码编程，经颜色匹配实验验证。

04:00

ArXiv AI

CAX-Agent：一种用于可靠APDL自动化的轻量级Agent框架

CAX-Agent以模型驱动恢复策略实现MAPDL自动化高可靠性：完成率0.93，零干预率0.84，显著优于无恢复和仅规则恢复策略。

04:00

ArXiv AI

SkillSmith：将智能体技能编译为边界引导的运行时接口

SkillSmith通过提取技能边界，减少冗余上下文注入和推理，使token使用降57%、速度提升2倍。

04:00

ArXiv AI

心智理论改进真的有益于人机交互吗？来自交互评估的实证发现

新范式交互评估显示，静态基准的提升未必转化为动态人机交互的更好表现，交互评估不可或缺。

04:00

ArXiv AI

DeepSlide：从文稿到演讲呈现

DeepSlide是人机协作多智能体系统，支持从需求到排练的完整演示流程，在保持文稿质量同时显著提升叙事流、节奏和注意力引导等交付指标。

04:00

ArXiv AI

SMCEvolve：基于序贯蒙特卡洛进化的有原则科学发现

将程序搜索重铸为奖励倾斜采样，用SMC近似，提出自适应重采样等三个机制，实现高效且收敛可控的科学发现。

04:00

ArXiv AI

信念引擎：多智能体大语言模型商议中可配置、可检查的立场动态

信念引擎通过证据吸收与锚定参数控制立场动态，可审计且可配置，用于重建人类商议中的立场变化。

04:00

ArXiv AI

CAPS：级联自适应成对选择实现高效并行推理

CAPS用级联自适应配对选择，以约25%验证代价超越多数领先推理方法。

04:00

ArXiv AI

编码智能体的多维度潜在推理上下文剪枝

提出LaMR框架，将代码相关性分解为语义与依赖两维度，分别建模并融合，实现高效剪枝，节省Token并提升性能。

04:00

ArXiv AI

基于大型语言模型的零样本目标识别

系统评估前沿LLM在PDDL基准上的零样本目标识别，揭示证据整合差异，可作为规划知识基准。

04:00

ArXiv AI

Solvita：通过智能体演化增强大型语言模型在竞赛编程中的能力

Solvita框架通过四个智能体与可训练知识网络实现持续学习，无需更新权重，在竞赛编程中准确率近乎翻倍，创下新SOTA。

04:00

ArXiv AI

中文标题：超越合作伙伴多样性：一种基于影响的团队引导框架用于零样本人机协作

中文摘要：提出基于影响的团队引导框架，通过激励多样交互与引导协调轨迹，提升零样本人机团队性能。

04:00

ArXiv AI

AI控制的集成监控：多样化信号胜过更多算力

12个GPT-4.1-Mini监控器集成，多样化组合比同质集成检测性能提升2.4倍，微调监控器更优，证明多样性驱动安全增益。

04:00

ArXiv AI

从LLM生成的猜想到Lean形式化：基于平方和证书的自动多项式不等式证明

提出NSPI框架，结合LLM与符号计算，通过平方和证书自动证明多项式不等式，并在Lean中形式验证，具有良好可扩展性。

04:00

ArXiv AI

X-SYNTH：超越检索——从人类注意力观测综合企业情境

X-SYNTH基于人类注意力建模行为基线，综合企业情境，销售线索TLR提升6.5倍，FLR降至18.8%，证明注意力是可靠依据。

04:00

ArXiv AI

DRS-GUI: 无需训练的GUI定位动态区域搜索

提出DRS-GUI框架，模仿人类感知动态搜索界面，通过MCTS规划行动和区域质量奖励筛选，提升GUI定位性能14%。

04:00

ArXiv AI

我们能信任AI推断的用户状态吗？一个验证LLMs在操作环境中用户状态分类可靠性的心理测量框架

研究发现仅31/213指标稳定，提出可复现框架，强调实时系统需验证可靠性而非默认可信。

04:00

ArXiv AI

先见后码：学习空间感知教育动画生成中的视觉先验

提出OmniManim框架，通过显式视觉规划（粗到细边界框去噪与插值感知优化）解决教育动画渲染缺陷，显著提升质量。

04:00

ArXiv AI

立场：人工智能需要元智能——论元认知AI的必要性

主张将元认知作为通用设计原则，让AI监控自身状态并合理分配资源，以提升准确性、安全性和效率，通过联邦学习案例展示。

04:00

ArXiv AI

RTL-BenchMT：通过智能体辅助分析与修订实现RTL生成基准的动态维护

提出RTL-BenchMT框架，自动检测并修复RTL基准中的缺陷和过拟合案例，降低维护成本，开源改进套件。

04:00

ArXiv AI

ColPackAgent：基于智能体技能引导的硬颗粒蒙特卡洛胶体堆积工作流

ColPackAgent通过MCP工具和智能体技能自主执行胶体堆积蒙特卡洛模拟，实现结构化工作流与多模式交互。

04:00

ArXiv AI

TopoEvo：面向微服务根因分析的拓扑感知自进化多智能体框架

TopoEvo提出拓扑感知自进化多智能体框架，通过多模态对齐与假设验证，解决微服务根因分析的级联传播与拓扑漂移难题。

04:00

ArXiv AI

PRISM：面向企业对话AI的提示可靠性迭代模拟与监控

PRISM通过每日迭代模拟与监控，将提示修复时间从2天降至30分钟，实现99%生产可靠性。

04:00

ArXiv AI

超越舒适区的轻推：面向RLVR的高效策略引导探索

提出NudgeRL框架，用策略上下文引导多样化探索并分解奖励学习，效率超越8倍预算的GRPO。

04:00

ArXiv AI

STAR：面向微服务中根因分析智能体的阶段归因故障诊断与修复框架

STAR将根因分析分解为四阶段，通过阶段审计、反事实评估和针对性修复，提升定位与分类准确性。

04:00

ArXiv AI

SaaS-Bench：计算机使用代理能否利用真实SaaS解决专业工作流程？

提出SaaS-Bench基准，测试代理在真实SaaS工作流中的能力，最强模型完成率不足4%。

04:00

ArXiv AI

PAGER：弥合点精确几何GUI控制中的语义-执行鸿沟

提出PAGER，通过拓扑感知与像素级执行弥合语义-执行鸿沟，在点精确GUI控制中实现4.1倍任务成功率提升，达新SOTA。

04:00

ArXiv AI

推理者还是翻译者？税法中的污染感知评估与神经符号稳健性

LLM在税法推理中表现可能因数据污染虚高，神经符号框架通过文本形式化与符号推理更可靠鲁棒。

04:00

ArXiv AI

ALSO：面向社交主体的对抗式在线策略优化

ALSO将多轮交互视为对抗式老虎机，用轻量神经模型预测奖励，实现非平稳环境在线策略优化，效果领先。

04:00

ArXiv AI

神经架构的智能体发现：AIRA-Compose与AIRA-Design

LLM智能体通过双框架自主设计神经架构，产出超越人类基线的模型，向递归自我改进迈进。

04:00

ArXiv AI

确定性事件图基底作为反事实推理的世界模型

事件图基底作为可检查的世界模型，支持精确反事实查询，在CLEVRER和Smallville基准上超越多个基线。

04:00

ArXiv AI

不完美的世界模型存在被利用风险

提出模型利用新定义，证明其不可避免，并引入安全视界以避免利用。

04:00

ArXiv AI

基于符号世界模型的双层策略学习用于长时域规划

提出BISON双层策略，结合低级模仿与高级符号抽象，高效解决长时域规划，泛化性强且资源占用少。

04:00

ArXiv AI

ScreenSearch：不确定性感知的操作系统探索

ScreenSearch结合结构检索与歧义感知PUCT图搜索，实现大规模桌面探索，揭示新奇-歧义权衡。

04:00

ArXiv AI

基于Petri网诱导的启发式搜索用于资源受限调度

将RCPSP建模为定时Petri网可达图上的A*搜索，结合关键路径与资源下界启发式，实验优于MIP。

← 往后7 / 41往前 →