如何训练你的顾问:使用顾问模型引导黑盒大语言模型
训练小型顾问模型动态生成建议,显著提升黑盒大模型性能,可迁移且鲁棒。
LLM-EDT: 大语言模型增强的跨域序列推荐与双阶段训练
提出LLM-EDT,用可迁移项目增强器和双阶段训练,解决跨域序列推荐中的不平衡与转换问题,提升预测性能。
单调与可分离集合函数:刻画与神经模型
提出单调且可分离的集合函数,证明无限集下不存在,但给出弱MAS模型,实验验证其有效性。
ADMIT:面向基于RAG的事实核查的少样本知识投毒攻击
提出ADMIT攻击,以极低投毒率(0.93×10⁻⁶)实现86%成功率,无需访问模型,比SOTA提升11.2%。
模型可以自助:面向LLM推理的无奖励自训练
提出SePT方法,通过自生成和在线数据刷新,无需外部奖励即可提升LLM的数学推理性能。
UniShield:一种自适应的多智能体统一伪造图像检测与定位框架
UniShield融合感知与检测智能体,动态选择模型,统一检测多种伪造图像,性能领先且适应性强。
高稀疏度下提升剪枝鲁棒性的权重集中正则化方法
提出WCR正则化,训练中放大少数参数权重,其余归零,使剪枝移除不重要参数,提升鲁棒性。
SARVLM:面向SAR图像语义理解的视觉语言基础模型
构建百万级SAR图文数据集,提出两阶段域迁移训练,开发SARVLM模型,在多项语义理解任务上超越现有模型。
SemanticOpt:迈向基于大语言模型的语义黑箱优化
SemanticOpt框架微调大语言模型联合数值与语义信息进行黑箱优化,效果优于传统方法。
数据库中的充分解释及其与数据库修复的联系
研究查询回答中元组的充分解释与充分度,探讨与数据库修复及因果必要解释的联系,并用回答集程序计算。
DR Tulu:基于演化规则的强化学习用于深度研究
提出演化规则强化学习(RLER),训练DR Tulu-8B,在长篇深度研究上超越开放和专有模型,成本极低。
图正则化稀疏自编码器用于大语言模型安全引导
GSAE通过图正则化提升稀疏自编码器解码器平滑性,以双门控控制器增强选择性拒绝,在多项基准中显著提升有害请求拒答率。
Structure-BiEval:面向Web信息系统,解耦LLM评估中结构与内容的自监督双轨框架
Structure-BiEval自监督框架解耦结构与内容,评估LLM,中型模型在Web格式化上有时优于大型,深层嵌套是一致挑战。
面向几何感知音频编码的二维量化
提出二维量化(Q2D2),将特征对投影到结构化2D网格,实现低令牌率与高码本利用率,音频压缩效率提升且重建质量达SOTA。
多项式神经层扩散:细胞层上的谱滤波方法
PolyNSD使用多项式谱滤波稳定传播,仅用对角限制映射即达新SOTA,降低计算开销。
EMFusion:一种面向无线网络中频率选择性电磁场预测的、具有不确定性感知的条件扩散框架
EMFusion条件扩散框架实现频率选择性EMF概率预测,集成上下文信息与不确定性估计,性能优于基线23.85%。
强制等变性的缺陷及其补偿:表达能力视角
强制等变约束削弱表达能力,但扩大模型可补偿,且扩大后泛化性更优。
LASER:面向半结构化工作流资源和运行时间估计的语言模型回归
LASER微调LLM对半结构化工作流进行多目标资源与运行时间回归,采用科学计数法和约束解码,性能超越人类专家。
HAI-Eval:评估协作编程中的人机协同
HAI-Eval通过设计协作必需任务,测试人机编程协同,实验表明协作显著优于单独表现,揭示共推理伙伴关系。
SafeGPT:防止企业大语言模型使用中的数据泄露和不道德输出
SafeGPT双面护栏系统,通过输入输出审核及人工反馈,降低企业LLM数据泄露与偏见风险,维持满意度。
基于自由能最小化的神经策略组合
提出自由能最小化框架实现策略组合,导出收敛梯度流与神经电路,在多智能体等任务中匹配或超越现有模型。
介绍Ettin Reranker家族
文中未提供摘要,无法提炼。
OSHA调查SpaceX星基地工人死亡事件
星基地事故率最高,工人死亡成最新安全隐忧。
SandboxAQ将药物发现模型引入Claude——无需计算机博士学位
SandboxAQ认为药物发现困境在于访问而非模型性能,借助Claude降低门槛。
认识 MemPrivacy:通过本地可逆假名化保护用户数据且不破坏内存效用的边缘-云框架
MemPrivacy 框架利用本地可逆假名化,在保护用户隐私的同时不牺牲内存效用,解决云内存数据暴露问题。
随机梯度下降的频率偏差及Adam如何修正它
SGD偏向高频词导致低频词更新不足,Adam通过自适应学习率修正此偏差。
Anthropic收购了曾被OpenAI、谷歌和Cloudflare使用的开发工具初创公司
纽约初创Stainless被收购,将停止所有托管产品。
埃隆·马斯克在与山姆·奥尔特曼和OpenAI的诉讼中败诉
马斯克起诉OpenAI称遭不公对待,但因超过诉讼时效被陪审团一致裁定败诉。
纽约市健康与医院系统称黑客在影响至少180万人的数据泄露中窃取了医疗数据和指纹
纽约公立医疗系统遭黑客攻击,超180万人信息泄露,含医疗数据和指纹,系2026年最大泄露之一。
使用LoRA/DoRA微调NVIDIA Cosmos Predict 2.5以生成机器人视频
采用LoRA/DoRA高效微调技术优化Cosmos Predict模型,提升机器人视频生成质量
Kin Health 筹集900万美元,为患者构建AI笔记记录工具
该应用记录就诊信息,AI自动生成摘要和后续步骤,并可分享给家人。
PaddleOCR 3.5:使用Transformers后端运行OCR和文档解析任务
使用Transformers后端运行OCR和文档解析任务
亚马逊新推出的Alexa+功能可生成播客节目
亚马逊Alexa+可按需生成定制AI播客,将其打造成个性化AI内容平台。
开放智能体排行榜
暂无描述
开源工具制造商Grafana Labs称黑客窃取其代码,拒绝支付赎金
黑客窃取代码库并威胁公开源码,Grafana Labs拒绝支付赎金
韩国LetinAR正在打造AI眼镜的光学器件
韩国初创LetinAR的微型镜头,或成AI眼镜时代的光学核心。
OpenAI与戴尔合作,将Codex引入混合及本地企业环境
OpenAI与戴尔合作,助企业安全部署AI编码代理。
NVIDIA推出基于NVFP4的4位预训练方法,在12B混合Mamba-Transformer上经10T Token验证
NVIDIA推出NVFP4 4位预训练法,12B模型训10T token,准确率接近FP8基线(62.58% vs 62.62%)。
可验证的自主基础设施:面向主权AI系统的证明派生授权
提出分布式信任框架,以证明派生权限代替固定身份,确保自主AI执行可治理、可审计、有边界。
公平输出,偏见内在:大语言模型高风险决策中潜在偏见的因果效力与不对称性
模型输出公平但内部偏见可致决策反转且不对称,输出审计不足,需双重测试。
NOVA:AI知识发现的基本极限
提出NOVA框架分析AI知识发现的极限,揭示污染陷阱,证明发现成本服从Zipf缩放律。
SDOF:利用状态约束调度驯服多智能体编排中的对齐代价
SDOF通过状态约束调度多智能体,在招聘系统上实现86.5%任务完成率、100%精度阻止注入,路由准确率80.9%胜GPT-4o
ICRL:通过强化学习内化自我批评
ICRL联合训练求解器和批评者,将批评引导的成功转化为独立能力,无需外部批评即可自我改进,在推理任务上平均提升6-7分,8B批评者性能堪比32B。
NIMO控制器:基于模型上下文协议的自驱动实验室编排器
提出基于MCP的NIMO控制器,统一人类与AI代理接口,实现可视化无代码编程,经颜色匹配实验验证。
CAX-Agent:一种用于可靠APDL自动化的轻量级Agent框架
CAX-Agent以模型驱动恢复策略实现MAPDL自动化高可靠性:完成率0.93,零干预率0.84,显著优于无恢复和仅规则恢复策略。
SkillSmith:将智能体技能编译为边界引导的运行时接口
SkillSmith通过提取技能边界,减少冗余上下文注入和推理,使token使用降57%、速度提升2倍。
心智理论改进真的有益于人机交互吗?来自交互评估的实证发现
新范式交互评估显示,静态基准的提升未必转化为动态人机交互的更好表现,交互评估不可或缺。
DeepSlide:从文稿到演讲呈现
DeepSlide是人机协作多智能体系统,支持从需求到排练的完整演示流程,在保持文稿质量同时显著提升叙事流、节奏和注意力引导等交付指标。
SMCEvolve:基于序贯蒙特卡洛进化的有原则科学发现
将程序搜索重铸为奖励倾斜采样,用SMC近似,提出自适应重采样等三个机制,实现高效且收敛可控的科学发现。
信念引擎:多智能体大语言模型商议中可配置、可检查的立场动态
信念引擎通过证据吸收与锚定参数控制立场动态,可审计且可配置,用于重建人类商议中的立场变化。