Aura · ArXiv AI

368 条条目 · 49 个活跃源

2026年5月16日

04:00

ArXiv AI

牲畜贸易：用于LLM虚张声势、竞标与议价的多智能体基准

Cattle Trade基准测试LLM在多智能体博弈中的综合策略，发现战略一致性比单项技能更关键，启发式代码智能体表现优于多数LLM。

04:00

ArXiv AI

LEMON：通过反事实强化学习学习可执行的多智能体编排

LEMON通过反事实强化学习优化多智能体编排，在多个推理和编码基准上达到最优性能。

04:00

ArXiv AI

Deepchecks：评估检索增强生成（RAG）

提出Deepchecks框架，通过多方面评估、根因分析和生产监控，确保RAG系统的可靠性、相关性和用户满意度。

04:00

ArXiv AI

面向离散不确定性的两阶段鲁棒优化的情景缩减学习

提出NeurPRISE模型，基于GNN-Transformer模仿学习高效情景缩减，速度提升7-200倍，具备零样本泛化能力。

04:00

ArXiv AI

OmniDrop：基于查询指导的全模态大语言模型层间令牌剪枝

OmniDrop在解码器层内渐进剪枝音视频令牌，以文本查询指导，延迟降40%、内存降14.7%，性能提升达3.58点。

04:00

ArXiv AI

从表格到单元格：利用注意力改进推理的TABALIGN框架

TABALIGN通过掩码扩散语言模型规划器与注意力验证器，提升表格推理准确率15.76%、加速44.64%。

04:00

ArXiv AI

通过洞察重放的有状态推理

洞察重放通过周期性提取并重放推理中的关键洞察，保持其可访问性，提升长链推理准确率，平均提升1.65点。

04:00

ArXiv AI

基于经验迭代蒸馏的黑盒大语言模型多步推理与工具使用提示策略

提出RL框架迭代蒸馏提示策略，逻辑推理达90%，工具使用达91%，超越进化基线。

04:00

ArXiv AI

VerbalValue：面向销售驱动型直播电商的社交智能虚拟主播

提出VerbalValue系统，基于专业知识库和标注数据微调大语言模型，实现信息性与事实正确性分别提升23%、18%。

04:00

ArXiv AI

PyCSP3-Scheduling：PyCSP3的排程扩展

为PyCSP3添加53个排程约束和27个表达式，编译为标准约束，保持建模/求解分离，效果一致但性能有差异。

04:00

ArXiv AI

提示分割与标注优化：通过优化片段级标注控制大语言模型行为

PSAO框架将提示分解为片段并添加重要性标注，提升了LLM的推理准确性和自一致性。

04:00

ArXiv AI

Falkor-IRAC：面向印度司法AI的图约束生成与验证推理

Falkor-IRAC提出图约束生成框架，基于IRAC知识图谱和验证器代理，确保推理路径有效，在51个判决上成功验证引用。

04:00

ArXiv AI

谄媚是教育安全风险：为何LLM导师需要谄媚基准测试

LLM辅导中谄媚易引发安全风险，需基准测试确保社交—认知勇气，实现友善且正确的纠正性辅导。

04:00

ArXiv AI

SliceGraph：多轮链式推理中的过程异构体映射

SliceGraph构建推理过程图，发现相同答案的正确轨迹分为多个过程族，揭示最终答案聚合忽略的结构化多路径几何。

04:00

ArXiv AI

教授大型语言模型何时不该知道：学习事前推理的时间批判

通过时间批判微调（TCFT）训练模型识别事后泄露，将泄露率降低41.89和37.79个百分点。

04:00

ArXiv AI

自满而非谄媚：重新定义大型语言模型并为自满机器设计AI素养

LLM行为是自满而非谄媚，责任在开发者；AI素养应重点对抗确认偏误。

04:00

ArXiv AI

MindGap：一种用于创伤后应激障碍上游神经可塑性干预的对话式AI框架

MindGap框架通过缘起实践在感受间隙进行三层观察，实现上游神经通路溶解，以隐私端侧AI治疗PTSD。

04:00

ArXiv AI

TeachAnything：对称现实中训练具身AI代理的多模态众包平台

提出三阶段多模态示范范式，开发云端众包平台TeachAnything，结合物理模拟采集多样数据，统一虚实交互，奠定对称现实具身代理训练基础。

← 往后8 / 8往前 →