牲畜贸易:用于LLM虚张声势、竞标与议价的多智能体基准
Cattle Trade基准测试LLM在多智能体博弈中的综合策略,发现战略一致性比单项技能更关键,启发式代码智能体表现优于多数LLM。
LEMON:通过反事实强化学习学习可执行的多智能体编排
LEMON通过反事实强化学习优化多智能体编排,在多个推理和编码基准上达到最优性能。
Deepchecks:评估检索增强生成(RAG)
提出Deepchecks框架,通过多方面评估、根因分析和生产监控,确保RAG系统的可靠性、相关性和用户满意度。
面向离散不确定性的两阶段鲁棒优化的情景缩减学习
提出NeurPRISE模型,基于GNN-Transformer模仿学习高效情景缩减,速度提升7-200倍,具备零样本泛化能力。
OmniDrop:基于查询指导的全模态大语言模型层间令牌剪枝
OmniDrop在解码器层内渐进剪枝音视频令牌,以文本查询指导,延迟降40%、内存降14.7%,性能提升达3.58点。
从表格到单元格:利用注意力改进推理的TABALIGN框架
TABALIGN通过掩码扩散语言模型规划器与注意力验证器,提升表格推理准确率15.76%、加速44.64%。
通过洞察重放的有状态推理
洞察重放通过周期性提取并重放推理中的关键洞察,保持其可访问性,提升长链推理准确率,平均提升1.65点。
基于经验迭代蒸馏的黑盒大语言模型多步推理与工具使用提示策略
提出RL框架迭代蒸馏提示策略,逻辑推理达90%,工具使用达91%,超越进化基线。
VerbalValue:面向销售驱动型直播电商的社交智能虚拟主播
提出VerbalValue系统,基于专业知识库和标注数据微调大语言模型,实现信息性与事实正确性分别提升23%、18%。
PyCSP3-Scheduling:PyCSP3的排程扩展
为PyCSP3添加53个排程约束和27个表达式,编译为标准约束,保持建模/求解分离,效果一致但性能有差异。
提示分割与标注优化:通过优化片段级标注控制大语言模型行为
PSAO框架将提示分解为片段并添加重要性标注,提升了LLM的推理准确性和自一致性。
Falkor-IRAC:面向印度司法AI的图约束生成与验证推理
Falkor-IRAC提出图约束生成框架,基于IRAC知识图谱和验证器代理,确保推理路径有效,在51个判决上成功验证引用。
谄媚是教育安全风险:为何LLM导师需要谄媚基准测试
LLM辅导中谄媚易引发安全风险,需基准测试确保社交—认知勇气,实现友善且正确的纠正性辅导。
SliceGraph:多轮链式推理中的过程异构体映射
SliceGraph构建推理过程图,发现相同答案的正确轨迹分为多个过程族,揭示最终答案聚合忽略的结构化多路径几何。
教授大型语言模型何时不该知道:学习事前推理的时间批判
通过时间批判微调(TCFT)训练模型识别事后泄露,将泄露率降低41.89和37.79个百分点。
自满而非谄媚:重新定义大型语言模型并为自满机器设计AI素养
LLM行为是自满而非谄媚,责任在开发者;AI素养应重点对抗确认偏误。
MindGap:一种用于创伤后应激障碍上游神经可塑性干预的对话式AI框架
MindGap框架通过缘起实践在感受间隙进行三层观察,实现上游神经通路溶解,以隐私端侧AI治疗PTSD。
TeachAnything:对称现实中训练具身AI代理的多模态众包平台
提出三阶段多模态示范范式,开发云端众包平台TeachAnything,结合物理模拟采集多样数据,统一虚实交互,奠定对称现实具身代理训练基础。