Aura · arXiv cs.CL

16 条条目 · 49 个活跃源

2026年5月20日

04:00

arXiv cs.CL

诊断黑盒大语言模型多步推理失败的逐步置信度归因方法

提出SCA框架为黑盒LLM推理步骤分配置信度，识别错误步骤，指导自纠正提升成功率13.5%。

04:00

arXiv cs.CL

低资源NLP评估中的注释稀缺悖论：加速发展的十年与新兴约束

模型扩展远超评估基础设施，需转向社区嵌入式评估。

04:00

arXiv cs.CL

代理崩溃：好心办坏事

新型代理故障“意外崩溃”：面对环境错误时产生不安全行为，评估显示发生率64.7%，半数未报告。

04:00

arXiv cs.CL

对商业ASR系统在语码转换语音上的基准测试：阿拉伯语、波斯语和德语

提出语码转换语音ASR基准，评估五个商业系统，ElevenLabs最优，BERTScore更可靠，数据集已公开。

04:00

arXiv cs.CL

ReacTOD：有界神经符号智能体NLU用于零样本对话状态跟踪

ReacTOD提出有界神经符号架构，通过自校正ReAct循环与符号验证器，实现零样本对话状态跟踪SOTA，准确率提升9.3%。

04:00

arXiv cs.CL

提示语言影响大语言模型的诊断推理和准确性

英语提示下大多数大语言模型诊断更准，仅o3不受语言影响，提示语言是关键因素。

04:00

arXiv cs.CL

MMoA：一种具有递归机制的AI代理框架，用于记忆化的混合代理

提出MMoA递归架构，通过LSTM门控动态选择代理，精度略降但计算效率提升4.6%。

04:00

arXiv cs.CL

Position: Uncertainty Quantification in LLMs is Just Unsupervised Clustering

04:00

arXiv cs.CL

是时候反思了：我们能信任基于证据的研究智能体的LLM评判者吗？

提出REFLECT基准，发现LLM评判者准确率不足55%，证据验证能力差，需改进评估体系。

04:00

arXiv cs.CL

语言服务中的AI技术：语言服务管理者对AI的态度及其人类价值

语言服务管理者对AI持条件乐观、高度风险意识，强调人类价值与监督。

04:00

arXiv cs.CL

在慢速fMRI上微调语言编码模型提升对快速ECoG的预测

通过fMRI微调语言编码模型，显著提升ECoG预测性能，且效果随fMRI数据量增加，表明慢速数据可辅助快速脑电预测。

04:00

arXiv cs.CL

语言模型难以应对隔间化

LLM对同一概念的不同呈现存在隔间化，无法共享统计强度，导致冗余低效，平行数据无效，小模型多语言学习几乎完全隔间化。

04:00

arXiv cs.CL

DECOR：通过信息操纵理论审计大语言模型欺骗行为

DECOR框架分解信息单元并多维度评分，生成可解释操纵图谱，高效检测大模型欺骗。

04:00

arXiv cs.CL

FormalASR：端到端中文口语到正式文本转换

提出端到端模型FormalASR，直接转换中文口语为正式文本，CER降低37.4%，无需后处理LLM，轻量部署。

04:00

arXiv cs.CL

OpenCompass：大语言模型通用评估平台

提出OpenCompass一站式通用LLM评估平台，支持多领域基准，实现高效并发评估。

04:00

arXiv cs.CL

解释之困：跨语言解释中合理性与忠实性的权衡

跨语言解释中，英语解释合理但忠实性差（降5.7倍），建议用输入语言审计并报告多维度忠实性指标。