超图企业异构业务系统智能推理器
HEAR基于分层超图本体,证据驱动推理,实现可审计多跳分析,供应链任务准确率94.7%,自适应高效。
AIVAT技术家族中的启发式病理学与通过不确定性传播的进一步方差缩减
AIVAT启发式值函数应事先固定以防操纵,传播不确定性降方差,样本减少43%。
赫拉克勒斯:面向金融智能的智能体基准
首个覆盖交易、对冲、市场洞察与审计的金融智能体基准,发现长周期协调与状态一致性是当前短板。
Nexus:一个用于时间序列预测的智能体框架
Nexus多智能体框架分解宏观/微观波动并整合上下文,超越SOTA,揭示预测本质是智能体推理。
编码智能体作为世界模拟器表现优异
提出编码智能体框架,通过迭代生成仿真代码构建物理精确世界模型,在多项指标上超越视频模型。
综合POMDP策略:通过学习使采样与模型检测相结合
提出结合采样与模型检测的POMDP策略综合框架,通过学习合成有形式保证的有限状态控制器,解决阈值安全问题。
Metis AI:AI原生与具身任务之间被忽视的中间地带
揭示数字任务中被忽视的Metis AI地带,其社会规范纠缠导致自动化失败,应构建人主AI辅架构。
DVMap:基于高共识人口-价值映射的细粒度多元价值对齐
提出DVMap框架,通过人口学原型与结构化思维链,实现高精度价值对齐,跨人口测试准确率48.6%,超越DeepSeek-v3.2。
广义容量车辆路径问题的统一知识嵌入强化学习框架
提出知识嵌入强化学习框架,分解路径优先与聚类次优子问题,动态规划指导构造器,性能优于学习式方法,泛化能力强。
BEAM:面向MoE动态路由的二元专家激活掩码
BEAM通过可训练二元掩码实现动态专家稀疏,保留98%性能,降低85%FLOPs,加速解码2.5倍。
学习构建环境:基于可验证环境合成的自演化推理强化学习
提出自演化推理RL框架,模型通过构建可验证环境实现自我改进,利用求解-验证不对称性保持奖励有效性,提升性能3.3%。
探索过完备推理轨迹中最小核心的表征几何
推理轨迹平均46%步骤冗余,最小核心可保留答案并改善表征几何,支持集中于少数步骤。
当机器人做家务:面向长期家庭任务执行的基准与智能体
提出LongAct基准评估长期家庭任务规划,HoloMind智能体提升性能,顶级模型仅59%完成率。
智能影响商数(IIQ):衡量组织AI影响的框架
IIQ综合时权使用量、频率与复杂度,量化AI嵌入深度,生成0-1000标准化指数以比较组织影响。
牲畜贸易:用于LLM虚张声势、竞标与议价的多智能体基准
Cattle Trade基准测试LLM在多智能体博弈中的综合策略,发现战略一致性比单项技能更关键,启发式代码智能体表现优于多数LLM。
LEMON:通过反事实强化学习学习可执行的多智能体编排
LEMON通过反事实强化学习优化多智能体编排,在多个推理和编码基准上达到最优性能。
Deepchecks:评估检索增强生成(RAG)
提出Deepchecks框架,通过多方面评估、根因分析和生产监控,确保RAG系统的可靠性、相关性和用户满意度。
面向离散不确定性的两阶段鲁棒优化的情景缩减学习
提出NeurPRISE模型,基于GNN-Transformer模仿学习高效情景缩减,速度提升7-200倍,具备零样本泛化能力。
OmniDrop:基于查询指导的全模态大语言模型层间令牌剪枝
OmniDrop在解码器层内渐进剪枝音视频令牌,以文本查询指导,延迟降40%、内存降14.7%,性能提升达3.58点。
从表格到单元格:利用注意力改进推理的TABALIGN框架
TABALIGN通过掩码扩散语言模型规划器与注意力验证器,提升表格推理准确率15.76%、加速44.64%。
通过洞察重放的有状态推理
洞察重放通过周期性提取并重放推理中的关键洞察,保持其可访问性,提升长链推理准确率,平均提升1.65点。
基于经验迭代蒸馏的黑盒大语言模型多步推理与工具使用提示策略
提出RL框架迭代蒸馏提示策略,逻辑推理达90%,工具使用达91%,超越进化基线。
VerbalValue:面向销售驱动型直播电商的社交智能虚拟主播
提出VerbalValue系统,基于专业知识库和标注数据微调大语言模型,实现信息性与事实正确性分别提升23%、18%。
PyCSP3-Scheduling:PyCSP3的排程扩展
为PyCSP3添加53个排程约束和27个表达式,编译为标准约束,保持建模/求解分离,效果一致但性能有差异。
提示分割与标注优化:通过优化片段级标注控制大语言模型行为
PSAO框架将提示分解为片段并添加重要性标注,提升了LLM的推理准确性和自一致性。
Falkor-IRAC:面向印度司法AI的图约束生成与验证推理
Falkor-IRAC提出图约束生成框架,基于IRAC知识图谱和验证器代理,确保推理路径有效,在51个判决上成功验证引用。
谄媚是教育安全风险:为何LLM导师需要谄媚基准测试
LLM辅导中谄媚易引发安全风险,需基准测试确保社交—认知勇气,实现友善且正确的纠正性辅导。
SliceGraph:多轮链式推理中的过程异构体映射
SliceGraph构建推理过程图,发现相同答案的正确轨迹分为多个过程族,揭示最终答案聚合忽略的结构化多路径几何。
教授大型语言模型何时不该知道:学习事前推理的时间批判
通过时间批判微调(TCFT)训练模型识别事后泄露,将泄露率降低41.89和37.79个百分点。
自满而非谄媚:重新定义大型语言模型并为自满机器设计AI素养
LLM行为是自满而非谄媚,责任在开发者;AI素养应重点对抗确认偏误。
MindGap:一种用于创伤后应激障碍上游神经可塑性干预的对话式AI框架
MindGap框架通过缘起实践在感受间隙进行三层观察,实现上游神经通路溶解,以隐私端侧AI治疗PTSD。
TeachAnything:对称现实中训练具身AI代理的多模态众包平台
提出三阶段多模态示范范式,开发云端众包平台TeachAnything,结合物理模拟采集多样数据,统一虚实交互,奠定对称现实具身代理训练基础。
WeatherNext如何帮助国家飓风中心更准确预测飓风梅丽莎在牙买加的历史性登陆
WeatherNext AI模型助预报员为社区赢得前所未有的飓风准备时间。
OpenAI与马耳他合作,向所有公民提供ChatGPT Plus
OpenAI与马耳他合作,为公民提供ChatGPT Plus及培训,助其掌握实用AI技能并负责任使用。
iNaturalist 聚合工具 0.1
将iNaturalist观察记录发布到博客的基础设施工具,迭代后发布0.1版。
马斯克诉奥特曼案第三周:马斯克与奥特曼就彼此可信度互相攻击,陪审团将选择一方
陪审团裁定马斯克索赔因诉讼时效被禁止,OpenAI胜诉。
Gemini 3.5: 具备行动能力的前沿智能
Gemini 3.5旨在帮助您执行复杂的自主工作流。
如何构建一个MCP风格的路由AI代理系统,具备动态工具暴露、规划、执行和上下文注入功能
从零构建MCP风格路由代理系统,融合工具发现、智能路由、结构化规划与执行
中文标题
投资者对RJ·斯卡林奇及其想法趋之若鹜,其讲述与沟通能力被视为超能力。
General Catalyst发布VC圈引战内容,成功引火a16z
马克·安德森忍不住多次回应,引战奏效。
Zyphra发布ZAYA1-8B-Diffusion-Preview:首款由自回归大语言模型转换而来的MoE扩散模型,实现高达7.7倍加速
将自回归MoE模型转为扩散模型,推理提速7.7倍,性能无系统损失。
酒店入住系统泄露百万护照驾照信息
酒店入住系统的云存储设为公开,百万护照和驾照数据无需密码即可访问。
硅谷的度假胜地正值AI推高电价之际,急需新的能源供应商
AI推高电力需求,硅谷度假胜地太浩湖将面临电价上涨。
关于我们近期AI委派与长期可靠性研究的补充说明
论文澄清AI委派中模型可靠性误解,旨在开发长期委派任务鲁棒评估方法。
特斯拉披露两起涉及远程操作员的Robotaxi事故
新解密报告揭示特斯拉扩大Robotaxi规模时出现远程操作员相关事故。
2026.20:变化世界中的联盟重组
Stratechery本周聚焦新型计算、埃隆·马斯克及中美关系全方位分析。
OpenAI推出个人理财版ChatGPT,可连接银行账户
用户连接银行账户后,ChatGPT显示投资组合、支出、订阅和待付账单。
美国最大电网电价上涨76%,监管机构指责
电价上涨暴露美国电网无法满足AI经济需求,供需鸿沟扩大。
美国要求“空军一号”随行人员在结束中国之行后丢弃礼物、徽章和一次性手机
峰会气氛友好,但美国视中国为拥有先进情报能力的主要对手。
西美鸥,原鸽
PyCon前观鸟,见海鸥享用星巴克。