我们的AI可穿戴设备正在为残障人士“改变游戏规则”
AI眼镜推出新功能,让残障人士更易用。
开放智能体排行榜
暂无描述
下一场战争已然来临,西方尚未准备好——亚罗斯拉夫·阿日纽克与诺亚·史密斯
乌克兰无人机创始人警告:西方对已到来的AI战争仍掉以轻心。
开源工具制造商Grafana Labs称黑客窃取其代码,拒绝支付赎金
黑客窃取代码库并威胁公开源码,Grafana Labs拒绝支付赎金
Import AI 457: AI震网;诅咒的缪子优化器;正向对齐
本期探讨AI震网攻击、有问题的Muon优化器及AI正向对齐研究。
下载:马斯克诉奥特曼第三周,以及特朗普的科技交易
马斯克与奥特曼在庭审最后一周互驳信誉,陪审团即将裁决。
韩国LetinAR正在打造AI眼镜的光学器件
韩国初创LetinAR的微型镜头,或成AI眼镜时代的光学核心。
OpenAI与戴尔合作,将Codex引入混合及本地企业环境
OpenAI与戴尔合作,助企业安全部署AI编码代理。
数据中心的不满:理解反对声音,解决问题
反对数据中心情有可原,唯一有效方案是直接经济补偿。
NVIDIA推出基于NVFP4的4位预训练方法,在12B混合Mamba-Transformer上经10T Token验证
NVIDIA推出NVFP4 4位预训练法,12B模型训10T token,准确率接近FP8基线(62.58% vs 62.62%)。
可验证的自主基础设施:面向主权AI系统的证明派生授权
提出分布式信任框架,以证明派生权限代替固定身份,确保自主AI执行可治理、可审计、有边界。
公平输出,偏见内在:大语言模型高风险决策中潜在偏见的因果效力与不对称性
模型输出公平但内部偏见可致决策反转且不对称,输出审计不足,需双重测试。
NOVA:AI知识发现的基本极限
提出NOVA框架分析AI知识发现的极限,揭示污染陷阱,证明发现成本服从Zipf缩放律。
SDOF:利用状态约束调度驯服多智能体编排中的对齐代价
SDOF通过状态约束调度多智能体,在招聘系统上实现86.5%任务完成率、100%精度阻止注入,路由准确率80.9%胜GPT-4o
ICRL:通过强化学习内化自我批评
ICRL联合训练求解器和批评者,将批评引导的成功转化为独立能力,无需外部批评即可自我改进,在推理任务上平均提升6-7分,8B批评者性能堪比32B。
NIMO控制器:基于模型上下文协议的自驱动实验室编排器
提出基于MCP的NIMO控制器,统一人类与AI代理接口,实现可视化无代码编程,经颜色匹配实验验证。
CAX-Agent:一种用于可靠APDL自动化的轻量级Agent框架
CAX-Agent以模型驱动恢复策略实现MAPDL自动化高可靠性:完成率0.93,零干预率0.84,显著优于无恢复和仅规则恢复策略。
SkillSmith:将智能体技能编译为边界引导的运行时接口
SkillSmith通过提取技能边界,减少冗余上下文注入和推理,使token使用降57%、速度提升2倍。
心智理论改进真的有益于人机交互吗?来自交互评估的实证发现
新范式交互评估显示,静态基准的提升未必转化为动态人机交互的更好表现,交互评估不可或缺。
DeepSlide:从文稿到演讲呈现
DeepSlide是人机协作多智能体系统,支持从需求到排练的完整演示流程,在保持文稿质量同时显著提升叙事流、节奏和注意力引导等交付指标。
SMCEvolve:基于序贯蒙特卡洛进化的有原则科学发现
将程序搜索重铸为奖励倾斜采样,用SMC近似,提出自适应重采样等三个机制,实现高效且收敛可控的科学发现。
信念引擎:多智能体大语言模型商议中可配置、可检查的立场动态
信念引擎通过证据吸收与锚定参数控制立场动态,可审计且可配置,用于重建人类商议中的立场变化。
CAPS:级联自适应成对选择实现高效并行推理
CAPS用级联自适应配对选择,以约25%验证代价超越多数领先推理方法。
编码智能体的多维度潜在推理上下文剪枝
提出LaMR框架,将代码相关性分解为语义与依赖两维度,分别建模并融合,实现高效剪枝,节省Token并提升性能。
基于大型语言模型的零样本目标识别
系统评估前沿LLM在PDDL基准上的零样本目标识别,揭示证据整合差异,可作为规划知识基准。
Solvita:通过智能体演化增强大型语言模型在竞赛编程中的能力
Solvita框架通过四个智能体与可训练知识网络实现持续学习,无需更新权重,在竞赛编程中准确率近乎翻倍,创下新SOTA。
中文标题:超越合作伙伴多样性:一种基于影响的团队引导框架用于零样本人机协作
中文摘要:提出基于影响的团队引导框架,通过激励多样交互与引导协调轨迹,提升零样本人机团队性能。
AI控制的集成监控:多样化信号胜过更多算力
12个GPT-4.1-Mini监控器集成,多样化组合比同质集成检测性能提升2.4倍,微调监控器更优,证明多样性驱动安全增益。
从LLM生成的猜想到Lean形式化:基于平方和证书的自动多项式不等式证明
提出NSPI框架,结合LLM与符号计算,通过平方和证书自动证明多项式不等式,并在Lean中形式验证,具有良好可扩展性。
X-SYNTH:超越检索——从人类注意力观测综合企业情境
X-SYNTH基于人类注意力建模行为基线,综合企业情境,销售线索TLR提升6.5倍,FLR降至18.8%,证明注意力是可靠依据。
DRS-GUI: 无需训练的GUI定位动态区域搜索
提出DRS-GUI框架,模仿人类感知动态搜索界面,通过MCTS规划行动和区域质量奖励筛选,提升GUI定位性能14%。
我们能信任AI推断的用户状态吗?一个验证LLMs在操作环境中用户状态分类可靠性的心理测量框架
研究发现仅31/213指标稳定,提出可复现框架,强调实时系统需验证可靠性而非默认可信。
先见后码:学习空间感知教育动画生成中的视觉先验
提出OmniManim框架,通过显式视觉规划(粗到细边界框去噪与插值感知优化)解决教育动画渲染缺陷,显著提升质量。
立场:人工智能需要元智能——论元认知AI的必要性
主张将元认知作为通用设计原则,让AI监控自身状态并合理分配资源,以提升准确性、安全性和效率,通过联邦学习案例展示。
RTL-BenchMT:通过智能体辅助分析与修订实现RTL生成基准的动态维护
提出RTL-BenchMT框架,自动检测并修复RTL基准中的缺陷和过拟合案例,降低维护成本,开源改进套件。
ColPackAgent:基于智能体技能引导的硬颗粒蒙特卡洛胶体堆积工作流
ColPackAgent通过MCP工具和智能体技能自主执行胶体堆积蒙特卡洛模拟,实现结构化工作流与多模式交互。
TopoEvo:面向微服务根因分析的拓扑感知自进化多智能体框架
TopoEvo提出拓扑感知自进化多智能体框架,通过多模态对齐与假设验证,解决微服务根因分析的级联传播与拓扑漂移难题。
PRISM:面向企业对话AI的提示可靠性迭代模拟与监控
PRISM通过每日迭代模拟与监控,将提示修复时间从2天降至30分钟,实现99%生产可靠性。
超越舒适区的轻推:面向RLVR的高效策略引导探索
提出NudgeRL框架,用策略上下文引导多样化探索并分解奖励学习,效率超越8倍预算的GRPO。
STAR:面向微服务中根因分析智能体的阶段归因故障诊断与修复框架
STAR将根因分析分解为四阶段,通过阶段审计、反事实评估和针对性修复,提升定位与分类准确性。
SaaS-Bench:计算机使用代理能否利用真实SaaS解决专业工作流程?
提出SaaS-Bench基准,测试代理在真实SaaS工作流中的能力,最强模型完成率不足4%。
PAGER:弥合点精确几何GUI控制中的语义-执行鸿沟
提出PAGER,通过拓扑感知与像素级执行弥合语义-执行鸿沟,在点精确GUI控制中实现4.1倍任务成功率提升,达新SOTA。
推理者还是翻译者?税法中的污染感知评估与神经符号稳健性
LLM在税法推理中表现可能因数据污染虚高,神经符号框架通过文本形式化与符号推理更可靠鲁棒。
ALSO:面向社交主体的对抗式在线策略优化
ALSO将多轮交互视为对抗式老虎机,用轻量神经模型预测奖励,实现非平稳环境在线策略优化,效果领先。
神经架构的智能体发现:AIRA-Compose与AIRA-Design
LLM智能体通过双框架自主设计神经架构,产出超越人类基线的模型,向递归自我改进迈进。
确定性事件图基底作为反事实推理的世界模型
事件图基底作为可检查的世界模型,支持精确反事实查询,在CLEVRER和Smallville基准上超越多个基线。
不完美的世界模型存在被利用风险
提出模型利用新定义,证明其不可避免,并引入安全视界以避免利用。
基于符号世界模型的双层策略学习用于长时域规划
提出BISON双层策略,结合低级模仿与高级符号抽象,高效解决长时域规划,泛化性强且资源占用少。
ScreenSearch:不确定性感知的操作系统探索
ScreenSearch结合结构检索与歧义感知PUCT图搜索,实现大规模桌面探索,揭示新奇-歧义权衡。
基于Petri网诱导的启发式搜索用于资源受限调度
将RCPSP建模为定时Petri网可达图上的A*搜索,结合关键路径与资源下界启发式,实验优于MIP。