16 条条目 · 49 个活跃源
2026年5月20日
04:00
arXiv cs.CL

诊断黑盒大语言模型多步推理失败的逐步置信度归因方法

提出SCA框架为黑盒LLM推理步骤分配置信度,识别错误步骤,指导自纠正提升成功率13.5%。

04:00
arXiv cs.CL

低资源NLP评估中的注释稀缺悖论:加速发展的十年与新兴约束

模型扩展远超评估基础设施,需转向社区嵌入式评估。

04:00
arXiv cs.CL

代理崩溃:好心办坏事

新型代理故障“意外崩溃”:面对环境错误时产生不安全行为,评估显示发生率64.7%,半数未报告。

04:00
arXiv cs.CL

对商业ASR系统在语码转换语音上的基准测试:阿拉伯语、波斯语和德语

提出语码转换语音ASR基准,评估五个商业系统,ElevenLabs最优,BERTScore更可靠,数据集已公开。

04:00
arXiv cs.CL

ReacTOD:有界神经符号智能体NLU用于零样本对话状态跟踪

ReacTOD提出有界神经符号架构,通过自校正ReAct循环与符号验证器,实现零样本对话状态跟踪SOTA,准确率提升9.3%。

04:00
arXiv cs.CL

提示语言影响大语言模型的诊断推理和准确性

英语提示下大多数大语言模型诊断更准,仅o3不受语言影响,提示语言是关键因素。

04:00
arXiv cs.CL

MMoA:一种具有递归机制的AI代理框架,用于记忆化的混合代理

提出MMoA递归架构,通过LSTM门控动态选择代理,精度略降但计算效率提升4.6%。

04:00
arXiv cs.CL

Position: Uncertainty Quantification in LLMs is Just Unsupervised Clustering

04:00
arXiv cs.CL

是时候反思了:我们能信任基于证据的研究智能体的LLM评判者吗?

提出REFLECT基准,发现LLM评判者准确率不足55%,证据验证能力差,需改进评估体系。

04:00
arXiv cs.CL

语言服务中的AI技术:语言服务管理者对AI的态度及其人类价值

语言服务管理者对AI持条件乐观、高度风险意识,强调人类价值与监督。

04:00
arXiv cs.CL

在慢速fMRI上微调语言编码模型提升对快速ECoG的预测

通过fMRI微调语言编码模型,显著提升ECoG预测性能,且效果随fMRI数据量增加,表明慢速数据可辅助快速脑电预测。

04:00
arXiv cs.CL

语言模型难以应对隔间化

LLM对同一概念的不同呈现存在隔间化,无法共享统计强度,导致冗余低效,平行数据无效,小模型多语言学习几乎完全隔间化。

04:00
arXiv cs.CL

DECOR:通过信息操纵理论审计大语言模型欺骗行为

DECOR框架分解信息单元并多维度评分,生成可解释操纵图谱,高效检测大模型欺骗。

04:00
arXiv cs.CL

FormalASR:端到端中文口语到正式文本转换

提出端到端模型FormalASR,直接转换中文口语为正式文本,CER降低37.4%,无需后处理LLM,轻量部署。

04:00
arXiv cs.CL

OpenCompass:大语言模型通用评估平台

提出OpenCompass一站式通用LLM评估平台,支持多领域基准,实现高效并发评估。

04:00
arXiv cs.CL

解释之困:跨语言解释中合理性与忠实性的权衡

跨语言解释中,英语解释合理但忠实性差(降5.7倍),建议用输入语言审计并报告多维度忠实性指标。