1463 条条目 · 10 个活跃源
2026年5月19日
04:00
ArXiv AI

如何训练你的顾问:使用顾问模型引导黑盒大语言模型

训练小型顾问模型动态生成建议,显著提升黑盒大模型性能,可迁移且鲁棒。

04:00
ArXiv AI

LLM-EDT: 大语言模型增强的跨域序列推荐与双阶段训练

提出LLM-EDT,用可迁移项目增强器和双阶段训练,解决跨域序列推荐中的不平衡与转换问题,提升预测性能。

04:00
ArXiv AI

单调与可分离集合函数:刻画与神经模型

提出单调且可分离的集合函数,证明无限集下不存在,但给出弱MAS模型,实验验证其有效性。

04:00
ArXiv AI

ADMIT:面向基于RAG的事实核查的少样本知识投毒攻击

提出ADMIT攻击,以极低投毒率(0.93×10⁻⁶)实现86%成功率,无需访问模型,比SOTA提升11.2%。

04:00
ArXiv AI

模型可以自助:面向LLM推理的无奖励自训练

提出SePT方法,通过自生成和在线数据刷新,无需外部奖励即可提升LLM的数学推理性能。

04:00
ArXiv AI

UniShield:一种自适应的多智能体统一伪造图像检测与定位框架

UniShield融合感知与检测智能体,动态选择模型,统一检测多种伪造图像,性能领先且适应性强。

04:00
ArXiv AI

高稀疏度下提升剪枝鲁棒性的权重集中正则化方法

提出WCR正则化,训练中放大少数参数权重,其余归零,使剪枝移除不重要参数,提升鲁棒性。

04:00
ArXiv AI

SARVLM:面向SAR图像语义理解的视觉语言基础模型

构建百万级SAR图文数据集,提出两阶段域迁移训练,开发SARVLM模型,在多项语义理解任务上超越现有模型。

04:00
ArXiv AI

SemanticOpt:迈向基于大语言模型的语义黑箱优化

SemanticOpt框架微调大语言模型联合数值与语义信息进行黑箱优化,效果优于传统方法。

04:00
ArXiv AI

数据库中的充分解释及其与数据库修复的联系

研究查询回答中元组的充分解释与充分度,探讨与数据库修复及因果必要解释的联系,并用回答集程序计算。

04:00
ArXiv AI

DR Tulu:基于演化规则的强化学习用于深度研究

提出演化规则强化学习(RLER),训练DR Tulu-8B,在长篇深度研究上超越开放和专有模型,成本极低。

04:00
ArXiv AI

图正则化稀疏自编码器用于大语言模型安全引导

GSAE通过图正则化提升稀疏自编码器解码器平滑性,以双门控控制器增强选择性拒绝,在多项基准中显著提升有害请求拒答率。

04:00
ArXiv AI

Structure-BiEval:面向Web信息系统,解耦LLM评估中结构与内容的自监督双轨框架

Structure-BiEval自监督框架解耦结构与内容,评估LLM,中型模型在Web格式化上有时优于大型,深层嵌套是一致挑战。

04:00
ArXiv AI

面向几何感知音频编码的二维量化

提出二维量化(Q2D2),将特征对投影到结构化2D网格,实现低令牌率与高码本利用率,音频压缩效率提升且重建质量达SOTA。

04:00
ArXiv AI

多项式神经层扩散:细胞层上的谱滤波方法

PolyNSD使用多项式谱滤波稳定传播,仅用对角限制映射即达新SOTA,降低计算开销。

04:00
ArXiv AI

EMFusion:一种面向无线网络中频率选择性电磁场预测的、具有不确定性感知的条件扩散框架

EMFusion条件扩散框架实现频率选择性EMF概率预测,集成上下文信息与不确定性估计,性能优于基线23.85%。

04:00
ArXiv AI

强制等变性的缺陷及其补偿:表达能力视角

强制等变约束削弱表达能力,但扩大模型可补偿,且扩大后泛化性更优。

04:00
ArXiv AI

LASER:面向半结构化工作流资源和运行时间估计的语言模型回归

LASER微调LLM对半结构化工作流进行多目标资源与运行时间回归,采用科学计数法和约束解码,性能超越人类专家。

04:00
ArXiv AI

HAI-Eval:评估协作编程中的人机协同

HAI-Eval通过设计协作必需任务,测试人机编程协同,实验表明协作显著优于单独表现,揭示共推理伙伴关系。

04:00
ArXiv AI

SafeGPT:防止企业大语言模型使用中的数据泄露和不道德输出

SafeGPT双面护栏系统,通过输入输出审核及人工反馈,降低企业LLM数据泄露与偏见风险,维持满意度。

04:00
ArXiv AI

基于自由能最小化的神经策略组合

提出自由能最小化框架实现策略组合,导出收敛梯度流与神经电路,在多智能体等任务中匹配或超越现有模型。

00:00
Hugging Face

介绍Ettin Reranker家族

文中未提供摘要,无法提炼。

2026年5月18日
21:55
TechCrunch

OSHA调查SpaceX星基地工人死亡事件

星基地事故率最高,工人死亡成最新安全隐忧。

21:29
TechCrunch

SandboxAQ将药物发现模型引入Claude——无需计算机博士学位

SandboxAQ认为药物发现困境在于访问而非模型性能,借助Claude降低门槛。

21:26
MarkTechPost

认识 MemPrivacy:通过本地可逆假名化保护用户数据且不破坏内存效用的边缘-云框架

MemPrivacy 框架利用本地可逆假名化,在保护用户隐私的同时不牺牲内存效用,解决云内存数据暴露问题。

20:18
MarkTechPost

随机梯度下降的频率偏差及Adam如何修正它

SGD偏向高频词导致低频词更新不足,Adam通过自适应学习率修正此偏差。

19:27
TechCrunch

Anthropic收购了曾被OpenAI、谷歌和Cloudflare使用的开发工具初创公司

纽约初创Stainless被收购,将停止所有托管产品。

17:34
TechCrunch

埃隆·马斯克在与山姆·奥尔特曼和OpenAI的诉讼中败诉

马斯克起诉OpenAI称遭不公对待,但因超过诉讼时效被陪审团一致裁定败诉。

16:32
TechCrunch

纽约市健康与医院系统称黑客在影响至少180万人的数据泄露中窃取了医疗数据和指纹

纽约公立医疗系统遭黑客攻击,超180万人信息泄露,含医疗数据和指纹,系2026年最大泄露之一。

16:00
Hugging Face

使用LoRA/DoRA微调NVIDIA Cosmos Predict 2.5以生成机器人视频

采用LoRA/DoRA高效微调技术优化Cosmos Predict模型,提升机器人视频生成质量

15:26
TechCrunch

Kin Health 筹集900万美元,为患者构建AI笔记记录工具

该应用记录就诊信息,AI自动生成摘要和后续步骤,并可分享给家人。

15:12
Hugging Face

PaddleOCR 3.5:使用Transformers后端运行OCR和文档解析任务

使用Transformers后端运行OCR和文档解析任务

14:56
TechCrunch

亚马逊新推出的Alexa+功能可生成播客节目

亚马逊Alexa+可按需生成定制AI播客,将其打造成个性化AI内容平台。

14:12
Hugging Face

开放智能体排行榜

暂无描述

13:42
TechCrunch

开源工具制造商Grafana Labs称黑客窃取其代码,拒绝支付赎金

黑客窃取代码库并威胁公开源码,Grafana Labs拒绝支付赎金

11:00
TechCrunch

韩国LetinAR正在打造AI眼镜的光学器件

韩国初创LetinAR的微型镜头,或成AI眼镜时代的光学核心。

10:00
OpenAI

OpenAI与戴尔合作,将Codex引入混合及本地企业环境

OpenAI与戴尔合作,助企业安全部署AI编码代理。

08:42
MarkTechPost

NVIDIA推出基于NVFP4的4位预训练方法,在12B混合Mamba-Transformer上经10T Token验证

NVIDIA推出NVFP4 4位预训练法,12B模型训10T token,准确率接近FP8基线(62.58% vs 62.62%)。

04:00
ArXiv AI

可验证的自主基础设施:面向主权AI系统的证明派生授权

提出分布式信任框架,以证明派生权限代替固定身份,确保自主AI执行可治理、可审计、有边界。

04:00
ArXiv AI

公平输出,偏见内在:大语言模型高风险决策中潜在偏见的因果效力与不对称性

模型输出公平但内部偏见可致决策反转且不对称,输出审计不足,需双重测试。

04:00
ArXiv AI

NOVA:AI知识发现的基本极限

提出NOVA框架分析AI知识发现的极限,揭示污染陷阱,证明发现成本服从Zipf缩放律。

04:00
ArXiv AI

SDOF:利用状态约束调度驯服多智能体编排中的对齐代价

SDOF通过状态约束调度多智能体,在招聘系统上实现86.5%任务完成率、100%精度阻止注入,路由准确率80.9%胜GPT-4o

04:00
ArXiv AI

ICRL:通过强化学习内化自我批评

ICRL联合训练求解器和批评者,将批评引导的成功转化为独立能力,无需外部批评即可自我改进,在推理任务上平均提升6-7分,8B批评者性能堪比32B。

04:00
ArXiv AI

NIMO控制器:基于模型上下文协议的自驱动实验室编排器

提出基于MCP的NIMO控制器,统一人类与AI代理接口,实现可视化无代码编程,经颜色匹配实验验证。

04:00
ArXiv AI

CAX-Agent:一种用于可靠APDL自动化的轻量级Agent框架

CAX-Agent以模型驱动恢复策略实现MAPDL自动化高可靠性:完成率0.93,零干预率0.84,显著优于无恢复和仅规则恢复策略。

04:00
ArXiv AI

SkillSmith:将智能体技能编译为边界引导的运行时接口

SkillSmith通过提取技能边界,减少冗余上下文注入和推理,使token使用降57%、速度提升2倍。

04:00
ArXiv AI

心智理论改进真的有益于人机交互吗?来自交互评估的实证发现

新范式交互评估显示,静态基准的提升未必转化为动态人机交互的更好表现,交互评估不可或缺。

04:00
ArXiv AI

DeepSlide:从文稿到演讲呈现

DeepSlide是人机协作多智能体系统,支持从需求到排练的完整演示流程,在保持文稿质量同时显著提升叙事流、节奏和注意力引导等交付指标。

04:00
ArXiv AI

SMCEvolve:基于序贯蒙特卡洛进化的有原则科学发现

将程序搜索重铸为奖励倾斜采样,用SMC近似,提出自适应重采样等三个机制,实现高效且收敛可控的科学发现。

04:00
ArXiv AI

信念引擎:多智能体大语言模型商议中可配置、可检查的立场动态

信念引擎通过证据吸收与锚定参数控制立场动态,可审计且可配置,用于重建人类商议中的立场变化。