个性化膳食优化中的混合整数目标规划及用户自定义份量粒度
混合整数目标规划用整数变量和软约束解决膳食优化中分数份数与不可行问题,求解快且更优。
隐形编排者抑制保护行为并分离权力持有者:多智能体大语言模型系统的安全风险
隐形编排会导致智能体内部状态扭曲,行为评估无法检测,模型选择直接影响多智能体系统安全。
AI智能体设计模式的二维框架:认知功能与执行拓扑
提出二维分类(认知功能7类×执行拓扑6类),识别27种模式,跨域分析得五条经验法则。
PolitNuggets:对长尾政治事实的智能体发现进行基准测试
PolitNuggets基准评估智能体发现长尾政治事实能力,揭示系统在细节和效率上存在不足。
基于自回归序列模型的条件属性估计
条件属性变换器单次前向传播实现token信用分配、反事实分析和可控生成,属性估计速度提升,稀疏奖励任务达最优。
基于层论的传输与障碍:检测AI智能体中的科学理论转变
层论框架通过传输与障碍检测理论转变,障碍排序可区分变形与扩展,为AI提供诊断子问题。
从描述性到规范性:揭示基于LLM的智能体的社会价值对齐
提出基于GraphRAG的价值框架,将原则转化为指令,在DAILYDILEMMAS上显著优于基线方法,奠定AI自我情感基础。
PREPING:无需任务构建智能体记忆
通过提议者引导合成实践构建智能体预任务记忆,降低部署成本,性能媲美强基线方法。
是视觉不佳还是思维错误?奖励感知以提升视觉-语言推理能力
提出MoCA框架,通过感知验证和模态感知信用分配,解决VLM中感知与推理的权衡,实现多任务性能同步提升。
模型自适应的工具必要性揭示了LLM工具使用中的知行差距
LLM工具使用存在从认知到行动的知行差距,需同步提升识别与转化能力。
使用注意力引导的动态分解建模药品短缺药剂师的有限理性
提出注意力引导动态分解框架,将药品分为高成本推理和低成本监控子集,实现稳定决策并降低复杂度。
考虑网络结构的双线性令牌化用于脑功能连接表征学习
提出NERVE框架,双线性令牌化划分脑网络块,实现结构感知自监督学习,提升跨队列表征稳定性。
知道何时放弃:通过多阶段飞行中拒绝实现令牌高效的大语言模型合成数据生成
MSIFR在生成中途检测低质量样本并终止,节省11%-77%令牌,保持准确率。
桥接法律解释与形式逻辑:忠实性、假设性与AI法律推理的未来
针对LLM在法律推理中系统性地做出超出源文本支持的假设性结论,提出神经符号方法以提升忠实性与可靠性。
SPIN:基于迭代导航的工业任务结构化LLM规划
SPIN结合DAG规划与前缀控制,减少无效步骤,提升任务完成率,降低工具调用成本。
MathAtlas:真实世界数学自动形式化基准
首个大规模研究生级数学自动形式化基准MathAtlas,含依赖图,现有模型定理正确率仅9.8%。
SkillFlow:面向智能体编排的流驱动递归技能演化
SkillFlow用流框架和TTB损失避免策略崩溃,实现透明信用分配与递归技能演化,14数据集上显著优于基线。
ChromaFlow:工具增强型智能体评估中编排开销的负面消融研究
ChromaFlow实验显示,激进编排增加操作开销却未提升性能,应限制编排范围以确保可靠评估。
GenCircuit-RL:基于层次化验证的基因电路设计强化学习
提出结合层次化验证奖励与四阶段课程的强化学习框架,使基因电路设计成功率提升14-16%。
评估陷阱:基准设计作为理论承诺
每个AI基准都隐含理论假设,未经审视则导致自循环评估陷阱。本文提出审计方法论,检验基准能否区分真实能力与代理行为。
SimPersona:从原始点击流中学习离散买家画像以构建有依据的电子商务智能体
SimPersona从原始点击流学习离散买家类型,作为紧凑标记指导LLM智能体,实现78%转化率对齐,无需重新训练或提示工程。
ASH:通过具身学习自我磨练的智能体
ASH从未标记互联网视频自我学习具身策略,实现长时间跨度任务突破,性能远超基线。
ClawForge:为命令行智能体生成可执行的交互式基准
ClawForge框架在状态冲突下评估命令行智能体,最佳模型仅45.3%准确率,关键差异在于是否检查现有状态。
MetaAgent-X:通过端到端强化学习突破自动多智能体系统的天花板
提出端到端RL框架MetaAgent-X,联合优化MAS设计与执行,性能提升21.7%,揭示阶段性共同进化过程。
基于LLM智能体的分布感知算法设计
从样本学习分布感知求解器代码,合成求解器质量高且速度提升数百倍。
基于基础的延续:一种线性时间运行时验证器用于LLM对话
提出线性时间运行时验证器,通过依赖图检查LLM对话延续是否被支持,在多个基准上超越基线并保证无冲突。
不稳定的指标与AI模型构建者的基准测试文化
揭示AI模型构建者选用基准评测的现状:碎片化、缺乏可比性,基准沦为市场叙事工具而非科学评估。
智能体系统:提升弱推理模型性能
通过验证器支持的委员会搜索,弱推理模型组合可达强模型性能,主要瓶颈在于提议覆盖而非选择。
CrystalReasoner:面向属性条件晶体结构生成的推理与强化学习
通过物理先验思维令牌和强化学习多目标奖励,生成有效稳定属性条件的晶体结构。
高等教育中的智能体AI生态系统:面向学习、教学与机构智能的包容性自主多智能体AI框架视角
提出高等教育自主多智能体AI平台,分析其协调教学行政、促进包容学习的潜力,指出现有碎片化问题及未来方向。
通过ReLU催化的抽象精化实现Transformer精确验证
利用ReLU非线性界与凸松弛提升Transformer验证精度,显著减少误报,效率可接受。
面向复杂系统可解释预测性维护的语义特征分割
提出语义特征分割框架,分解监控特征为标准与残差组件,标准空间预测风险更低且保持语义可解释性。
并行化反事实遗憾最小化
提出并行化CFR框架,将算法转为线性代数操作,GPU实现比CPU快四个数量级。
融合-裂变预测:AI何时转向不良行为
基于融合-裂变动力学向量泛化,提前预警AI行为转向不良,经多模型与语料验证。
即开即用:LOOP技能引擎通过一次性记录和确定性重放实现99%成功率与99%令牌削减
LOOP引擎通过一次记录和确定性重放,实现99%成功率和99%令牌削减,消除随机故障,大幅降低成本与延迟。
Are Agents Ready to Teach? A Multi-Stage Benchmark for Real-World Teaching Workflows
超图企业异构业务系统智能推理器
HEAR基于分层超图本体,证据驱动推理,实现可审计多跳分析,供应链任务准确率94.7%,自适应高效。
AIVAT技术家族中的启发式病理学与通过不确定性传播的进一步方差缩减
AIVAT启发式值函数应事先固定以防操纵,传播不确定性降方差,样本减少43%。
赫拉克勒斯:面向金融智能的智能体基准
首个覆盖交易、对冲、市场洞察与审计的金融智能体基准,发现长周期协调与状态一致性是当前短板。
Nexus:一个用于时间序列预测的智能体框架
Nexus多智能体框架分解宏观/微观波动并整合上下文,超越SOTA,揭示预测本质是智能体推理。
编码智能体作为世界模拟器表现优异
提出编码智能体框架,通过迭代生成仿真代码构建物理精确世界模型,在多项指标上超越视频模型。
综合POMDP策略:通过学习使采样与模型检测相结合
提出结合采样与模型检测的POMDP策略综合框架,通过学习合成有形式保证的有限状态控制器,解决阈值安全问题。
Metis AI:AI原生与具身任务之间被忽视的中间地带
揭示数字任务中被忽视的Metis AI地带,其社会规范纠缠导致自动化失败,应构建人主AI辅架构。
DVMap:基于高共识人口-价值映射的细粒度多元价值对齐
提出DVMap框架,通过人口学原型与结构化思维链,实现高精度价值对齐,跨人口测试准确率48.6%,超越DeepSeek-v3.2。
广义容量车辆路径问题的统一知识嵌入强化学习框架
提出知识嵌入强化学习框架,分解路径优先与聚类次优子问题,动态规划指导构造器,性能优于学习式方法,泛化能力强。
BEAM:面向MoE动态路由的二元专家激活掩码
BEAM通过可训练二元掩码实现动态专家稀疏,保留98%性能,降低85%FLOPs,加速解码2.5倍。
学习构建环境:基于可验证环境合成的自演化推理强化学习
提出自演化推理RL框架,模型通过构建可验证环境实现自我改进,利用求解-验证不对称性保持奖励有效性,提升性能3.3%。
探索过完备推理轨迹中最小核心的表征几何
推理轨迹平均46%步骤冗余,最小核心可保留答案并改善表征几何,支持集中于少数步骤。
当机器人做家务:面向长期家庭任务执行的基准与智能体
提出LongAct基准评估长期家庭任务规划,HoloMind智能体提升性能,顶级模型仅59%完成率。
智能影响商数(IIQ):衡量组织AI影响的框架
IIQ综合时权使用量、频率与复杂度,量化AI嵌入深度,生成0-1000标准化指数以比较组织影响。