368 条条目 · 49 个活跃源
2026年5月16日
04:00
ArXiv AI

牲畜贸易:用于LLM虚张声势、竞标与议价的多智能体基准

Cattle Trade基准测试LLM在多智能体博弈中的综合策略,发现战略一致性比单项技能更关键,启发式代码智能体表现优于多数LLM。

04:00
ArXiv AI

LEMON:通过反事实强化学习学习可执行的多智能体编排

LEMON通过反事实强化学习优化多智能体编排,在多个推理和编码基准上达到最优性能。

04:00
ArXiv AI

Deepchecks:评估检索增强生成(RAG)

提出Deepchecks框架,通过多方面评估、根因分析和生产监控,确保RAG系统的可靠性、相关性和用户满意度。

04:00
ArXiv AI

面向离散不确定性的两阶段鲁棒优化的情景缩减学习

提出NeurPRISE模型,基于GNN-Transformer模仿学习高效情景缩减,速度提升7-200倍,具备零样本泛化能力。

04:00
ArXiv AI

OmniDrop:基于查询指导的全模态大语言模型层间令牌剪枝

OmniDrop在解码器层内渐进剪枝音视频令牌,以文本查询指导,延迟降40%、内存降14.7%,性能提升达3.58点。

04:00
ArXiv AI

从表格到单元格:利用注意力改进推理的TABALIGN框架

TABALIGN通过掩码扩散语言模型规划器与注意力验证器,提升表格推理准确率15.76%、加速44.64%。

04:00
ArXiv AI

通过洞察重放的有状态推理

洞察重放通过周期性提取并重放推理中的关键洞察,保持其可访问性,提升长链推理准确率,平均提升1.65点。

04:00
ArXiv AI

基于经验迭代蒸馏的黑盒大语言模型多步推理与工具使用提示策略

提出RL框架迭代蒸馏提示策略,逻辑推理达90%,工具使用达91%,超越进化基线。

04:00
ArXiv AI

VerbalValue:面向销售驱动型直播电商的社交智能虚拟主播

提出VerbalValue系统,基于专业知识库和标注数据微调大语言模型,实现信息性与事实正确性分别提升23%、18%。

04:00
ArXiv AI

PyCSP3-Scheduling:PyCSP3的排程扩展

为PyCSP3添加53个排程约束和27个表达式,编译为标准约束,保持建模/求解分离,效果一致但性能有差异。

04:00
ArXiv AI

提示分割与标注优化:通过优化片段级标注控制大语言模型行为

PSAO框架将提示分解为片段并添加重要性标注,提升了LLM的推理准确性和自一致性。

04:00
ArXiv AI

Falkor-IRAC:面向印度司法AI的图约束生成与验证推理

Falkor-IRAC提出图约束生成框架,基于IRAC知识图谱和验证器代理,确保推理路径有效,在51个判决上成功验证引用。

04:00
ArXiv AI

谄媚是教育安全风险:为何LLM导师需要谄媚基准测试

LLM辅导中谄媚易引发安全风险,需基准测试确保社交—认知勇气,实现友善且正确的纠正性辅导。

04:00
ArXiv AI

SliceGraph:多轮链式推理中的过程异构体映射

SliceGraph构建推理过程图,发现相同答案的正确轨迹分为多个过程族,揭示最终答案聚合忽略的结构化多路径几何。

04:00
ArXiv AI

教授大型语言模型何时不该知道:学习事前推理的时间批判

通过时间批判微调(TCFT)训练模型识别事后泄露,将泄露率降低41.89和37.79个百分点。

04:00
ArXiv AI

自满而非谄媚:重新定义大型语言模型并为自满机器设计AI素养

LLM行为是自满而非谄媚,责任在开发者;AI素养应重点对抗确认偏误。

04:00
ArXiv AI

MindGap:一种用于创伤后应激障碍上游神经可塑性干预的对话式AI框架

MindGap框架通过缘起实践在感受间隙进行三层观察,实现上游神经通路溶解,以隐私端侧AI治疗PTSD。

04:00
ArXiv AI

TeachAnything:对称现实中训练具身AI代理的多模态众包平台

提出三阶段多模态示范范式,开发云端众包平台TeachAnything,结合物理模拟采集多样数据,统一虚实交互,奠定对称现实具身代理训练基础。

← 往后8 / 8往前 →