自动对齐比你想的更难
自动化对齐研究因难以监督的模糊任务,可能导致系统性错误和误判,最终部署错误AI。
MESD:一种针对交叉子群体解释公平性的风险敏感度量
MESD度量交叉子群体解释质量差异,能揭示结果公平指标无法发现的程序不公平。
机械助推机器
ChatGPT发布后,Etsy列表机器可用信息增0.143比特,人类信息不变,显示机械助推已在线上发生。
FutureWorld:基于真实世界结果奖励的预测型智能体实时强化学习环境
FutureWorld通过延迟的真实世界结果反馈作为奖励信号,在在线强化学习环境中提升智能体预测准确性。
重新思考大语言模型中的智能体强化学习
LLM驱动的智能体强化学习突破传统,引入元推理、自我反思等认知能力,实现自主决策与动态适应。
ProCompNav:面向模糊用户查询的主动实例导航与比较判断
提出主动比较判断框架,通过区别性提问缩小候选集,提升成功率并缩短用户响应长度。
提出正确问题:利用生成的中间步骤提升推理能力
生成有效中间步骤(简化、子问题)可显著提升LLM推理,且可通过微调优化。
中文标题:当AI进行说服:针对人类对AI辅助决策信任的对抗性解释攻击
中文摘要:对抗性解释攻击通过操纵LLM解释框架,误导人类信任错误AI输出,尤其模仿专家沟通时危害最大。
中文标题:代理的信息代价:部署强化学习中交互效率的有界度量
中文摘要:提出有界信息度量P,量化智能体-环境交互效率,发现代理行为会抑制P值(约0.33),可检测89.3%耦合退化。
部分可观测下的对手状态推断:用于2026年F1能量策略的HMM-POMDP框架
提出HMM-DQN双层框架,推断对手ERS状态并优化能量策略,96.8%准确率,可检测反捕获陷阱。
联邦学习中的近似加权数据重建攻击
通过插值近似攻击FedAvg场景,设计逐层加权损失函数提升数据重建质量,实验验证其优越性。
中文标题:线性探测在人格坐标中是否泛化得更好?
中文摘要:基于人格坐标的线性探测比原始激活泛化更好,统一有害/无害行为轴可提升跨数据集迁移。
STAR:面向多智能体时空推理的故障感知马尔可夫路由
STAR框架通过故障感知路由矩阵学习恢复策略,在时空推理中提升多智能体路由性能。
迈向虚拟神经科学家:通过多智能体协作实现自主神经影像分析
提出NIAgent多智能体系统,用代码执行与分层验证实现自主闭环分析,克服静态工作流缺陷,效果优于标准流程。
级联生成式电子商务推荐方法
提出级联生成框架,分两步生成主题和关键词,结合微调提升性能,在线实验购物车添加提升2.7%。
n天前瞻季后赛锁定问题的约束规划方法
提出NHL季后赛n天前瞻锁定算法,结合树搜索与约束规划子程序,高效探索赛果组合,经验证有效且可扩展。
NanoResearch:技能、记忆与策略的协同进化实现个性化研究自动化
NanoResearch通过技能、记忆与策略的三层协同进化实现个性化研究自动化,效果优于现有系统且能自我优化。
π-Bench:评估长周期工作流中的主动式个人助理代理
π-Bench评估长周期多轮任务中主动识别隐藏意图的能力,发现主动协助挑战大,且先前交互有益后续任务。
中文标题:学习发育支架以引导自组织
中文摘要:联合学习自组织规则与预模式可提升系统鲁棒性,预模式通过偏置发育动力学引导自组织。
超越个体智能:基于LLM的多智能体系统中的协作、失败归因与自我进化综述
提出LIFE框架,综述多智能体系统在协作、故障归因与自我进化中的因果依赖与闭环改进挑战。
TrainMover:面向机器学习训练的抗中断运行时
TrainMover利用弹性备用机处理中断,实现约20秒停机,零内存开销,减少55% GPU时浪费。
RAR: 检索与排序增强的多模态大语言模型用于视觉识别
RAR结合CLIP检索与MLLM排序,增强细粒度及少样本/零样本视觉识别性能。
FM-G-CAM:计算机视觉可解释AI的整体方法
提出FM-G-CAM方法,融合多类别梯度加权类激活图,全面解释CNN预测,优于单一类别的Grad-CAM。
大型语言模型或是死记硬背的学者
LLM评估存在死记硬背与真实能力并存现象,TrinEval框架可分离二者,发现模型平均19.6%知识点靠死记硬背。
FlipAttack:通过文本翻转越狱大语言模型
利用LLM自回归特性构造左侧翻转噪声,结合模型翻转能力,单次查询即可高效越狱,在GPT-4o上成功率约98%。
眼见为实:将因果注意力解锁为多模态大语言模型的模态互注意力
提出模态互注意力(MMA),让图像关注文本,无需额外参数即在12个基准平均提升6.2%。
管损失:一种预测区间估计的新方法
管损失函数用于回归预测区间估计,渐近达到置信水平,可调整区间位置以缩小宽度,性能优于现有方法。
强化学习中的稀疏奖励塑造:半监督方法
提出半监督学习与双熵数据增强,从零奖励过渡中学习轨迹,有效塑造稀疏奖励,峰值分数提升最高达两倍。
TokenButler:Token重要性可预测
TokenButler通过预测关键token重要性,实现动态稀疏注意力,在长上下文任务中加速1.6倍并降低延迟7.6倍。
Do Chinese models speak Chinese languages?
超越二元奖励:训练语言模型推理其不确定性
RLCR通过结合Brier分数奖励,同时提升语言模型推理准确性与置信度校准,优于普通RL。
中文标题:AI社会影响研究中实现影响力的困难:挑战与机遇的基层视角
中文摘要:基于26位研究者访谈,揭示AI4SI从概念验证到实际部署的结构、协作等障碍,总结实践策略。
混合监督微调与强化微调的前缀采样法
Prefix-RFT混合SFT与RFT,在数学推理上优于单独及并行方法,简单有效鲁棒。
COCO-Inpaint:基于图像修复的篡改检测与定位基准
提出COCO-Inpaint基准,含23.8万张高质量修复图像及四种掩码策略,评估图像修复篡改检测方法。
ActiveDPO:面向样本高效对齐的主动直接偏好优化
ActiveDPO提出基于理论的数据选择准则,直接利用LLM参数化奖励模型实现样本高效对齐,性能优于现有方法。
优化LLM推理:内存约束下基于流体引导的在线调度
提出流体引导在线调度算法WAIT及Nested WAIT,扩大LLM推理稳定范围并降低延迟。
深度双Q学习
深度双Q学习(DDQL)训练两个Q函数减少过估计,在57款Atari游戏中优于Double DQN。
FAR:面向IMC友好推理的功能保持注意力替换
FAR用LSTM替换注意力,通过蒸馏保持功能并支持剪枝,在DeiT上精度相当且延迟更低,适合IMC推理。
一种基于检索选择和探索-利用驱动的可扩展多LLM协作系统
提出SMCS系统,集成15个开源LLM,通过检索选择与探索-利用增强,性能超越GPT-4.1等闭源模型。
CIS-BWE: Chaos-Informed Speech Bandwidth Extension
SAE-RNA:用于解读RNA语言模型表示的稀疏自编码器模型
提出SAE-RNA模型,用稀疏自编码器分析RNA语言模型表示并映射到生物特征,作为表征探针。
基于历史感知决策变换器的广义策略梯度用于图信号可靠路由
提出GPG-HT,融合历史感知决策变换器与广义策略梯度,捕获非马尔可夫依赖,提升随机交通网络准时到达概率。
CUBE:通过平衡实验实现对比理解
CUBE通过析因实验设计黑盒模型,用探针响应生成对比解释,恢复主导效应并揭示可识别性限制。
无痛激活控制:一种用于大语言模型后训练的自动化轻量级方法
PAS是一种全自动、轻量级的大模型后训练方法,无需人工干预,在行为任务上显著提升,iPAS在偏差、道德、对齐任务上效果突出(最高34.8%)。
扩散模型训练的自动引导在线数据策展
自动引导持续提高扩散模型训练样本质量与多样性,早期在线选择有增益但开销大,自动引导更优。
BioBlobs:无监督发现功能子结构用于蛋白质功能预测
BioBlobs框架无监督地将蛋白质压缩为功能子结构,仅用少量残基预测功能,匹配或超越强基线。
假设逻辑:从零到完全知识的神经符号整合
统一规则注入与学习的假设逻辑语言,通过模糊逻辑可微编译,支持任意知识程度,可离散化为布尔函数且性能无损。
NoiseShift:面向更好低分辨率图像生成的分辨率感知噪声重校准
NoiseShift通过分辨率感知噪声重校准,无需额外训练即可提升低分辨率图像生成质量。
Dynamic-TreeRPO:用结构化采样打破独立轨迹瓶颈
提出Dynamic-TreeRPO,采用树结构滑动窗口采样与动态噪声强度,整合GRPO和SDE,融合SFT与RL,在多个基准上超越SOTA,训练效率提升近50%。
如何训练你的顾问:使用顾问模型引导黑盒大语言模型
训练小型顾问模型动态生成建议,显著提升黑盒大模型性能,可迁移且鲁棒。