🤖 AI Agent周报:思考机器交互模型、Grep是否足够?、Codex移动端+钩子、Cursor云代理、Ring-2.6-1T等
本周AI Agent周报涵盖交互模型、Grep工具、Codex移动更新、Cursor云代理及Ring-2.6-1T等前沿动态。
600亿美元AI芯片明星Cerebras曾月烧800万美元濒临死亡
Cerebras成2026年最大科技IPO,此前月烧800万美元研发被认为不可能的芯片,几近倒闭。
用户转向破解旧款Kindle,因亚马逊停止支持
破解旧款Kindle可继续加书,但存风险。
牛仔太空公司
伟大差异化的典范。
发现新型传染病背后的分子开关
Clare Bryant利用Co-Scientist识别新发传染病的遗传触发因素。
开辟衰老研究新路径
Calico利用Co-Scientist整合分散发现,产生衰老研究新线索。
加速发现肝脏疾病机制
利用Co-Scientist发现肝病新疗法并解释现有药物仅对部分患者有效的原因。
汇聚生物工具,开辟ALS治疗新路径
Co-Scientist联合波士顿儿童医院与MIT实验室,探索基于RNA的ALS新疗法
NVIDIA推出SANA-WM:一个26亿参数的开源世界模型,可在单张GPU上生成分钟级720p视频
NVIDIA开源世界模型SANA-WM,26亿参数,单GPU生成60秒720p视频,支持6自由度相机控制。
中文标题
发掘老药新用以对抗肝纤维化 斯坦福遗传学家利用Co-Scientist平台发现慢性肝病和肝纤维化新疗法。
如何利用Repowise通过图分析、死代码检测、决策和AI上下文构建仓库级代码智能
本教程演示如何用Repowise为Python项目构建仓库级代码智能,涵盖图分析与AI上下文应用。
AI新闻:Cerebras 600亿美元IPO:渐进而后爆发
祝贺大芯片Cerebras以600亿美元估值成功IPO。
大型学习模型中增强且高效的推理
提出高效原则性推理方法,通过单值关系集成码预处理,使核心关系规则在多项式时间内可学习,支持合理推理。
GraphBit:基于图的非线性智能体编排框架
GraphBit通过引擎编排有向无环图实现确定性执行,准确率67.6%,零幻觉,延迟仅11.9ms。
个性化膳食优化中的混合整数目标规划及用户自定义份量粒度
混合整数目标规划用整数变量和软约束解决膳食优化中分数份数与不可行问题,求解快且更优。
隐形编排者抑制保护行为并分离权力持有者:多智能体大语言模型系统的安全风险
隐形编排会导致智能体内部状态扭曲,行为评估无法检测,模型选择直接影响多智能体系统安全。
AI智能体设计模式的二维框架:认知功能与执行拓扑
提出二维分类(认知功能7类×执行拓扑6类),识别27种模式,跨域分析得五条经验法则。
PolitNuggets:对长尾政治事实的智能体发现进行基准测试
PolitNuggets基准评估智能体发现长尾政治事实能力,揭示系统在细节和效率上存在不足。
基于自回归序列模型的条件属性估计
条件属性变换器单次前向传播实现token信用分配、反事实分析和可控生成,属性估计速度提升,稀疏奖励任务达最优。
基于层论的传输与障碍:检测AI智能体中的科学理论转变
层论框架通过传输与障碍检测理论转变,障碍排序可区分变形与扩展,为AI提供诊断子问题。
从描述性到规范性:揭示基于LLM的智能体的社会价值对齐
提出基于GraphRAG的价值框架,将原则转化为指令,在DAILYDILEMMAS上显著优于基线方法,奠定AI自我情感基础。
PREPING:无需任务构建智能体记忆
通过提议者引导合成实践构建智能体预任务记忆,降低部署成本,性能媲美强基线方法。
是视觉不佳还是思维错误?奖励感知以提升视觉-语言推理能力
提出MoCA框架,通过感知验证和模态感知信用分配,解决VLM中感知与推理的权衡,实现多任务性能同步提升。
模型自适应的工具必要性揭示了LLM工具使用中的知行差距
LLM工具使用存在从认知到行动的知行差距,需同步提升识别与转化能力。
使用注意力引导的动态分解建模药品短缺药剂师的有限理性
提出注意力引导动态分解框架,将药品分为高成本推理和低成本监控子集,实现稳定决策并降低复杂度。
考虑网络结构的双线性令牌化用于脑功能连接表征学习
提出NERVE框架,双线性令牌化划分脑网络块,实现结构感知自监督学习,提升跨队列表征稳定性。
知道何时放弃:通过多阶段飞行中拒绝实现令牌高效的大语言模型合成数据生成
MSIFR在生成中途检测低质量样本并终止,节省11%-77%令牌,保持准确率。
桥接法律解释与形式逻辑:忠实性、假设性与AI法律推理的未来
针对LLM在法律推理中系统性地做出超出源文本支持的假设性结论,提出神经符号方法以提升忠实性与可靠性。
SPIN:基于迭代导航的工业任务结构化LLM规划
SPIN结合DAG规划与前缀控制,减少无效步骤,提升任务完成率,降低工具调用成本。
MathAtlas:真实世界数学自动形式化基准
首个大规模研究生级数学自动形式化基准MathAtlas,含依赖图,现有模型定理正确率仅9.8%。
SkillFlow:面向智能体编排的流驱动递归技能演化
SkillFlow用流框架和TTB损失避免策略崩溃,实现透明信用分配与递归技能演化,14数据集上显著优于基线。
ChromaFlow:工具增强型智能体评估中编排开销的负面消融研究
ChromaFlow实验显示,激进编排增加操作开销却未提升性能,应限制编排范围以确保可靠评估。
GenCircuit-RL:基于层次化验证的基因电路设计强化学习
提出结合层次化验证奖励与四阶段课程的强化学习框架,使基因电路设计成功率提升14-16%。
评估陷阱:基准设计作为理论承诺
每个AI基准都隐含理论假设,未经审视则导致自循环评估陷阱。本文提出审计方法论,检验基准能否区分真实能力与代理行为。
SimPersona:从原始点击流中学习离散买家画像以构建有依据的电子商务智能体
SimPersona从原始点击流学习离散买家类型,作为紧凑标记指导LLM智能体,实现78%转化率对齐,无需重新训练或提示工程。
ASH:通过具身学习自我磨练的智能体
ASH从未标记互联网视频自我学习具身策略,实现长时间跨度任务突破,性能远超基线。
ClawForge:为命令行智能体生成可执行的交互式基准
ClawForge框架在状态冲突下评估命令行智能体,最佳模型仅45.3%准确率,关键差异在于是否检查现有状态。
MetaAgent-X:通过端到端强化学习突破自动多智能体系统的天花板
提出端到端RL框架MetaAgent-X,联合优化MAS设计与执行,性能提升21.7%,揭示阶段性共同进化过程。
基于LLM智能体的分布感知算法设计
从样本学习分布感知求解器代码,合成求解器质量高且速度提升数百倍。
基于基础的延续:一种线性时间运行时验证器用于LLM对话
提出线性时间运行时验证器,通过依赖图检查LLM对话延续是否被支持,在多个基准上超越基线并保证无冲突。
不稳定的指标与AI模型构建者的基准测试文化
揭示AI模型构建者选用基准评测的现状:碎片化、缺乏可比性,基准沦为市场叙事工具而非科学评估。
智能体系统:提升弱推理模型性能
通过验证器支持的委员会搜索,弱推理模型组合可达强模型性能,主要瓶颈在于提议覆盖而非选择。
CrystalReasoner:面向属性条件晶体结构生成的推理与强化学习
通过物理先验思维令牌和强化学习多目标奖励,生成有效稳定属性条件的晶体结构。
高等教育中的智能体AI生态系统:面向学习、教学与机构智能的包容性自主多智能体AI框架视角
提出高等教育自主多智能体AI平台,分析其协调教学行政、促进包容学习的潜力,指出现有碎片化问题及未来方向。
通过ReLU催化的抽象精化实现Transformer精确验证
利用ReLU非线性界与凸松弛提升Transformer验证精度,显著减少误报,效率可接受。
面向复杂系统可解释预测性维护的语义特征分割
提出语义特征分割框架,分解监控特征为标准与残差组件,标准空间预测风险更低且保持语义可解释性。
并行化反事实遗憾最小化
提出并行化CFR框架,将算法转为线性代数操作,GPU实现比CPU快四个数量级。
融合-裂变预测:AI何时转向不良行为
基于融合-裂变动力学向量泛化,提前预警AI行为转向不良,经多模型与语料验证。
即开即用:LOOP技能引擎通过一次性记录和确定性重放实现99%成功率与99%令牌削减
LOOP引擎通过一次记录和确定性重放,实现99%成功率和99%令牌削减,消除随机故障,大幅降低成本与延迟。