Aura · 时间线

Modeling Music as a Time-Frequency Image: A 2D Tokenizer for Music Generation

一种拓扑感知的时空交接框架，用于多无人机连续跟踪

提出拓扑感知的时空交接机制，实现多无人机跟踪中99.8%的身份交接成功率，远超外观重识别方法。

动态环境中的拉马克式遗传：关键变量如何影响进化动态

拉马克式遗传仅在环境变化冲突且不可预测时逊于达尔文式遗传，添加传感器可恢复其优势。

FSCM：频率增强的空间-光谱耦合曼巴用于红外高光谱图像彩色化

FSCM通过频率增强空间-光谱耦合曼巴和语义损失，实现红外高光谱图像高质量彩色化。

通过跨时间情感建模实现自然且具陪伴感的虚拟代理

CTEM框架连接行为历史与实时情感，形成闭环交互，显著提升代理的自然度与情感和谐。

顿悟作为结构推断：Transformer需要贝叶斯彩票

Transformer泛化延迟源于结构推断延迟，需贝叶斯彩票：MLP容量适中且注意力覆盖所有信息标记。

RoadmapBench：跨版本升级的长期自主软件开发评估

RoadmapBench包含115个跨版本长期编码任务，评估13个前沿模型，最好仅解决39.1%，表明长期软件开发仍是未解难题。

访问时机作为脚手架：强化学习方法在教育中应用生成式AI

强化学习控制生成式AI访问时机，提高学习效果与元认知准确性，优于无限制或完全禁止访问。

持续学习中的Shapley神经元价值：哪些神经元最重要？

利用Shapley值量化神经元重要性，冻结重要神经元实现无缓冲持续学习，在ImageNet-1k上准确率提升2.88%~6.46%。

GAP：几何锚点预训练实现数据高效的操作视觉运动学习

GAP通过模拟任务预训练池化层生成稳定几何锚点，轻量解耦，显著提升少样本操作学习成功率。

RaPD：通过语义增强隐式表示实现分辨率无关的像素扩散

RaPD在连续潜空间中进行扩散，固定成本即可任意分辨率渲染，生成质量与可扩展性俱佳。

面向细粒度开放词汇分割的解耦视觉-语言对齐

提出解耦对齐框架，拆分文本为概念与属性token，通过门控注意力与log聚合，提升泛化能力。

对抗训练改进PINN的时机与原因：神经正切核视角

基于GAN判别器影响PINN训练动态，理论阐明对抗训练有效性，新算法大幅提升精度。

通过自动分割和块蒸馏实现块注意力的泛化

提出自动分割与块蒸馏，使块注意力接近全注意力性能，建立实用部署路径。

LoCO：低秩组合旋转微调

LoCO通过低秩斜对称矩阵和组合旋转实现正交变换，保持几何结构，高效且性能优异。

SLIP与ETHICS：AI情感伴侣的分级干预

SLIP分级协议和ETHICS信号分类法，在AI情感伴侣中平衡安全与信任，但高能状态检测存在局限。

基于CBAM增强EfficientNet与证据深度学习的卫星图像野火烟雾密度不确定性感知分类

提出用EfficientNet-B3+CBAM+证据深度学习对卫星图像烟雾密度三分类并输出认知与偶然不确定性，准确率93.8%。

用于学习无限维哈密顿系统的辛神经算子

提出保持哈密顿PDE辛结构的神经算子，理论保证长期稳定性，数值实验能量行为更优。

CHoE：基于结构条件专家的跨域异构图提示学习

CHoE提出结构条件专家网络，实现跨域异构图提示学习，通过结构感知路由与语义融合提升少样本性能。

点击率预测的生成式长期用户兴趣建模

GenLI通过生成式模块捕获多样用户兴趣，简化检索至O(1)，实现高效准确的点击率预测。

Tomasz Tunguz

AI写作观察

AI有自身写作风格，多模型协作编辑效果不佳；不完美才是好写作的关键。

生成式人工智能时代的思想抄袭

生成式AI模糊了原创边界，思想抄袭问题亟待界定。

停止“tokenmaxxing”并明智地部署AI

建议放弃无意义的token最大化，转向合理、高效地部署人工智能。

Immunotherapy drug target identification using machine learning and patient-derived tumour explant validation

SpecGP：基于Transformer的糖肽能量适应性结构谱预测模型

提出SpecGP模型，基于Transformer预测糖肽结构谱，适应不同能量状态。

2026年5月17日

20:15

苹果Siri改版可能包含自动删除聊天记录

苹果新版Siri以隐私为主题，可能自动清除聊天记录。

19:53

使用Project Genie和街景模拟真实场景

全球扩展Google AI Ultra订阅，引入街景驱动的全新功能。

19:50

介绍 Gemini Omni

暂无摘要内容

19:46

为什么信任是埃隆·马斯克与OpenAI诉讼中的大问题

诉讼最后阶段的核心焦点：OpenAI CEO奥特曼是否值得信任。

19:43

谷歌反重力2.0发布

暂无摘要

18:19

用llmcompressor实现FP8、GPTQ与SmoothQuant量化：指令调优LLM压缩与基准测试编码

本教程用llmcompressor对指令调优LLM进行后训练量化，比较FP8、GPTQ、SmoothQuant策略，并基准测试磁盘、延迟等指标。

16:32

2026年毕业典礼演讲，建议不提AI

AI塑造的未来难以让毕业生兴奋。

16:05

TechCrunch Mobility：AI技能军备竞赛正席卷汽车行业

TechCrunch Mobility是未来交通新闻与洞察的核心平台

15:59

Simon Willison

GDS就NHS退出开源的决定发表意见

GDS建议NHS保持默认开源，关闭仓库增加成本且减少复用与审查。

15:02

DAIR.AI

🥇本周最佳AI论文

精选5月11日至17日期间最值得关注的AI研究论文。

15:00

对于Eclipse而言，25亿美元的Cerebras胜利只是实现其物理世界命题的开始

十年前投资实体世界还显孤独，如今其公司已处于科技界中心。

13:50

科学版Gemini：新发现时代的AI实验与工具

扩大科学探索规模与精度的AI实验与工具集。

13:43

Making it easier to understand how content was created and edited

08:11

Vercel Labs 推出 Zero，一种为 AI 代理设计的系统编程语言，使其能读取、修复并发布原生程序

Zero 语言专为 AI 代理设计，发出带稳定代码的 JSON 诊断与类型修复元数据，编译时强制能力 I/O，生成小于 10 KiB 的原生二进制。

07:25

实现SHAP可解释性工作流的编码指南：解释器比较、掩码器、交互、漂移与黑盒模型

本教程实现SHAP工作流，比较多种解释器，揭示模型感知与不可知方法的精度与性能差异。

2026年5月16日

22:23

Nous Research提出灯塔注意力：一种仅训练使用的选择性分层注意力，实现长上下文1.4–1.7倍预训练加速

对称池化QKV的分层注意力，训练专用，加速长上下文预训练1.4-1.7倍，且最终损失更低或相同。

20:23

Simon Willison

Warelay → OpenClaw

通过Git历史发现OpenClaw项目名从Warelay历经五次演变最终定名。

20:17

AI淘金热中的赢家与输家

当前AI热潮氛围不佳，科技行业亦感忧虑。

19:26

营销操作系统Nectar Social获得3000万美元A轮融资，由Menlo领投

AI营销平台Nectar Social完成3000万美元A轮融资，由Menlo Ventures与Anthropic联合基金领投。

18:54

ArXiv将封禁完全由AI代笔的作者一年

ArXiv加强打击在科学论文中滥用大语言模型的行为。

17:59

LiteLLM Agent平台：基于Kubernetes的自托管基础设施，支持生产环境隔离智能体沙箱与持久会话管理

BerriAI开源LiteLLM Agent平台，提供Kubernetes自托管基础设施，实现生产环境中隔离智能体沙箱和持久会话管理。

17:00

Interconnects

最新开放成果（第21期）：开放模型大丰收！Gemma 4、DeepSeek V4、Kimi K2.6、MiMo 2.5、GLM-5.1等。关于CAISI的V4评估。

本月旗舰开放模型密集发布，包括Gemma 4、DeepSeek V4等。

16:45

Simon Willison

引用朱莉娅·埃文斯

认真对待CSS后，发现居中等问题早有解决方案，CSS难在解决复杂问题。

16:00

一款离线桌面神器，居然让我挺直了腰杆

Deep Care的350美元设备虽贵，但离线运行，能有效改善姿势和运动习惯。

15:33