全部OpenAIHugging FaceArXiv AIGoogle AIVentureBeat AIMarkTechPostPragmatic EngineerThe GradientOne Useful ThingCrunchbase NewsTechCrunchGoogle DeepMindMicrosoft ResearchLlamaIndex BlogarXiv cs.AIarXiv cs.LGarXiv cs.CLarXiv cs.CVNature Machine IntelligenceLilian WengAndrej KarpathySebastian RuderBAIR BlogAgile Lab EngineeringGoogle AI BlogMeta NewsroomMIT Tech Review AITechCrunch AIWiredFull-Stack AI EngineerAgentplexa16zSequoia CapitalY CombinatorElad GilTomasz TunguzNot BoringThe GeneralistSimon WillisonSimon Willison NewsletterLatent SpaceImport AIInterconnectsHamel HusainDAIR.AIEnterprise AI GovernanceStratecherySemiAnalysisBenedict Evans
16 条条目 · 49 个活跃源
2026年5月20日
04:00
arXiv cs.CL
诊断黑盒大语言模型多步推理失败的逐步置信度归因方法
提出SCA框架为黑盒LLM推理步骤分配置信度,识别错误步骤,指导自纠正提升成功率13.5%。
04:00
arXiv cs.CL
低资源NLP评估中的注释稀缺悖论:加速发展的十年与新兴约束
模型扩展远超评估基础设施,需转向社区嵌入式评估。
04:00
arXiv cs.CL
代理崩溃:好心办坏事
新型代理故障“意外崩溃”:面对环境错误时产生不安全行为,评估显示发生率64.7%,半数未报告。
04:00
arXiv cs.CL
对商业ASR系统在语码转换语音上的基准测试:阿拉伯语、波斯语和德语
提出语码转换语音ASR基准,评估五个商业系统,ElevenLabs最优,BERTScore更可靠,数据集已公开。
04:00
arXiv cs.CL
ReacTOD:有界神经符号智能体NLU用于零样本对话状态跟踪
ReacTOD提出有界神经符号架构,通过自校正ReAct循环与符号验证器,实现零样本对话状态跟踪SOTA,准确率提升9.3%。
04:00
arXiv cs.CL
提示语言影响大语言模型的诊断推理和准确性
英语提示下大多数大语言模型诊断更准,仅o3不受语言影响,提示语言是关键因素。
04:00
arXiv cs.CL
MMoA:一种具有递归机制的AI代理框架,用于记忆化的混合代理
提出MMoA递归架构,通过LSTM门控动态选择代理,精度略降但计算效率提升4.6%。
04:00
arXiv cs.CL
Position: Uncertainty Quantification in LLMs is Just Unsupervised Clustering
04:00
arXiv cs.CL
是时候反思了:我们能信任基于证据的研究智能体的LLM评判者吗?
提出REFLECT基准,发现LLM评判者准确率不足55%,证据验证能力差,需改进评估体系。
04:00
arXiv cs.CL
语言服务中的AI技术:语言服务管理者对AI的态度及其人类价值
语言服务管理者对AI持条件乐观、高度风险意识,强调人类价值与监督。
04:00
arXiv cs.CL
在慢速fMRI上微调语言编码模型提升对快速ECoG的预测
通过fMRI微调语言编码模型,显著提升ECoG预测性能,且效果随fMRI数据量增加,表明慢速数据可辅助快速脑电预测。
04:00
arXiv cs.CL
语言模型难以应对隔间化
LLM对同一概念的不同呈现存在隔间化,无法共享统计强度,导致冗余低效,平行数据无效,小模型多语言学习几乎完全隔间化。
04:00
arXiv cs.CL
DECOR:通过信息操纵理论审计大语言模型欺骗行为
DECOR框架分解信息单元并多维度评分,生成可解释操纵图谱,高效检测大模型欺骗。
04:00
arXiv cs.CL
FormalASR:端到端中文口语到正式文本转换
提出端到端模型FormalASR,直接转换中文口语为正式文本,CER降低37.4%,无需后处理LLM,轻量部署。
04:00
arXiv cs.CL
OpenCompass:大语言模型通用评估平台
提出OpenCompass一站式通用LLM评估平台,支持多领域基准,实现高效并发评估。
04:00
arXiv cs.CL
解释之困:跨语言解释中合理性与忠实性的权衡
跨语言解释中,英语解释合理但忠实性差(降5.7倍),建议用输入语言审计并报告多维度忠实性指标。