使用词嵌入技术的领域无关游戏抽象
提出基于词嵌入的领域无关游戏抽象方法,将动作向量化并聚类,实验有效但未超越专用算法。
极低数据细粒度图像分类中预训练目标至关重要:一项基于骨干网络控制的研究
极低数据FGVC中,监督与对比预训练线性可分最强,MAE非线性更优,DINOv3表现差,建议根据分类器类型选目标。
运营商控制的6G:从连接基础设施到可保障数字服务
6G必须转向运营商主导,通过控制契约和保障经济实现可保障数字服务,Rakuten Mobile已验证可行性。
CTF4Nuclear:核裂变与核聚变模型的通用任务框架
提出核工程ML评估框架CTF,含多数据集和12项指标,基准测试揭示局限,旨在标准化提升可重复性。
AstraFlow:面向数据流的智能体大语言模型强化学习
AstraFlow通过解耦组件实现数据流控制,支持多策略、弹性异构跨区域RL,训练加速2.7倍且精度不变。
基于通用视界模型的离线强化学习
提出通用视界模型直接预测任意视界未来,配合缩尾分布稳定训练,显著提升离线强化学习性能。
面向多类别互补标签学习的有偏转移矩阵方法
通过设计有偏生成过程限制互补标签子集,提出BICL框架,实现多类别CLL中7倍准确率提升。
少量GPU,海量规模:PrismLLM实现忠实的大语言模型训练模拟
PrismLLM用不到1%的GPU忠实模拟大规模LLM训练,迭代时间误差仅0.58%,内存误差<0.01%。
反馈世界模型实现扩散策略的精确引导
推理时在线更新反馈状态,修正预测误差,减少76.4%,提升分布外任务成功率30%。
TFZ-Tree:一种面向资源受限设备的超轻量级波形分类框架
提出超轻量级波形分类框架TFZ-Tree,基于时频特征与Z检验树,在十种6G波形上达99.5%准确率,延迟<4ms。
面向群体归因的交互感知影响函数
提出交互感知影响函数,加入二阶交互项捕捉样例间协同效应,实验超越一阶方法。
中文标题:逻辑斯蒂固定点的尖锐谱阈值
中文摘要:发现软最大反馈系统稳定性的精确谱阈值,超越经典理论,扩展了可证稳定的边界。
VAGS: 用于图像编辑与生成的速率自适应引导尺度
提出无需训练的VAGS,通过速度场余弦相似度动态调整引导强度,提升图像编辑与生成的结构保真度。
α-TCAV:一种基于概念激活向量进行测试的统一框架
α-TCAV用平滑函数替代指示函数,解决CAV不稳定性,提供调参指导,建议将全预算用于单个CAV。
VLMs追踪而不跟踪:视觉路径跟随失败诊断
VLMs路径跟随常因局部相似干扰丢失目标路径,且规模扩大、推理或指令等标准补救均无效。
H-Mem:一种通过混合结构实现智能体记忆演化与检索的新型记忆机制
H-Mem通过混合结构(树与知识图谱)建模记忆演化与高效检索,在问答任务上达到最优性能。
ASRU:融合激活引导与强化遗忘的多模态大语言模型遗忘方法
ASRU通过激活引导和强化遗忘优化生成质量,提升遗忘效果与模型效用平衡。
连接硅与海马体:代数学确定性记忆"VaCoAl"作为Vector-HaSH和TEM的底层结构
VaCoAl代数学确定性超维记忆架构,提供位精确随机投影替代,代数解释多跳衰减,连接神经科学与工程。
DecomPose: 解耦类别级6D物体姿态估计中的跨类别优化冲突
提出DecomPose框架,通过难度感知梯度解耦与稳定性非对称分支,缓解跨类别优化冲突,提升6D姿态估计性能。
GRASP:学习在多人物非语言交互中立足社会推理
GRASP数据集含29万QA对,覆盖注视与手势事件,提出SGR奖励信号,提升多人物非语言交互理解。
UAM:VLA训练遗忘问题的双流视角
UAM通过双流架构分离语义与控制,保留VLM超95%多模态能力,无需冻结权重即实现高任务成功率。
观点:在标注流水线中,早期质量保证比后期验证更具成本效益
呼吁标注流水线优先早期质量保证(左移原则),比后期验证成本效益更高,可大幅降低错误率和成本。
海马-内嗅皮层启发的世界模型中的结构抽象与泛化
提出脑启发层次模型,通过逆模型和路径整合实现结构抽象与泛化,用于视觉预测和知识重用。
腿式机械臂的动态拾放学习
提出分层强化学习框架,实现动态拾放,仿真成功率86%,实物73%,负载达1.3kg,耗时4.06秒。
基于心脏模式引导的双向融合用于半监督心电图分割
提出CardioMix框架,用心脏模式引导双向CutMix,增强标注与未标注数据交互,提升半监督心电图分割性能。
DiLA: 解耦潜动作世界模型
DiLA通过内容-结构解耦,协同潜动作学习,兼顾高抽象与高保真生成,实现高质量视频建模与动作迁移。
BiomedAP:一种视觉引导的双锚点框架与门控跨模态融合,实现稳健的医学视觉-语言适配
提出视觉引导双锚框架与门控跨模态融合,增强医学VLM对提示扰动的鲁棒性,少样本精度领先。
CompactQE:通过小型开源权重LLM实现可解释的翻译质量评估
小型开源LLM单次提示即可同时输出质量分数、错误注释、纠正及后编辑,性能媲美大型专有LLM,超越传统指标。
Modeling Music as a Time-Frequency Image: A 2D Tokenizer for Music Generation
一种拓扑感知的时空交接框架,用于多无人机连续跟踪
提出拓扑感知的时空交接机制,实现多无人机跟踪中99.8%的身份交接成功率,远超外观重识别方法。
动态环境中的拉马克式遗传:关键变量如何影响进化动态
拉马克式遗传仅在环境变化冲突且不可预测时逊于达尔文式遗传,添加传感器可恢复其优势。
FSCM:频率增强的空间-光谱耦合曼巴用于红外高光谱图像彩色化
FSCM通过频率增强空间-光谱耦合曼巴和语义损失,实现红外高光谱图像高质量彩色化。
通过跨时间情感建模实现自然且具陪伴感的虚拟代理
CTEM框架连接行为历史与实时情感,形成闭环交互,显著提升代理的自然度与情感和谐。
顿悟作为结构推断:Transformer需要贝叶斯彩票
Transformer泛化延迟源于结构推断延迟,需贝叶斯彩票:MLP容量适中且注意力覆盖所有信息标记。
RoadmapBench:跨版本升级的长期自主软件开发评估
RoadmapBench包含115个跨版本长期编码任务,评估13个前沿模型,最好仅解决39.1%,表明长期软件开发仍是未解难题。
访问时机作为脚手架:强化学习方法在教育中应用生成式AI
强化学习控制生成式AI访问时机,提高学习效果与元认知准确性,优于无限制或完全禁止访问。
持续学习中的Shapley神经元价值:哪些神经元最重要?
利用Shapley值量化神经元重要性,冻结重要神经元实现无缓冲持续学习,在ImageNet-1k上准确率提升2.88%~6.46%。
GAP:几何锚点预训练实现数据高效的操作视觉运动学习
GAP通过模拟任务预训练池化层生成稳定几何锚点,轻量解耦,显著提升少样本操作学习成功率。
RaPD:通过语义增强隐式表示实现分辨率无关的像素扩散
RaPD在连续潜空间中进行扩散,固定成本即可任意分辨率渲染,生成质量与可扩展性俱佳。
面向细粒度开放词汇分割的解耦视觉-语言对齐
提出解耦对齐框架,拆分文本为概念与属性token,通过门控注意力与log聚合,提升泛化能力。
对抗训练改进PINN的时机与原因:神经正切核视角
基于GAN判别器影响PINN训练动态,理论阐明对抗训练有效性,新算法大幅提升精度。
通过自动分割和块蒸馏实现块注意力的泛化
提出自动分割与块蒸馏,使块注意力接近全注意力性能,建立实用部署路径。
LoCO:低秩组合旋转微调
LoCO通过低秩斜对称矩阵和组合旋转实现正交变换,保持几何结构,高效且性能优异。
SLIP与ETHICS:AI情感伴侣的分级干预
SLIP分级协议和ETHICS信号分类法,在AI情感伴侣中平衡安全与信任,但高能状态检测存在局限。
基于CBAM增强EfficientNet与证据深度学习的卫星图像野火烟雾密度不确定性感知分类
提出用EfficientNet-B3+CBAM+证据深度学习对卫星图像烟雾密度三分类并输出认知与偶然不确定性,准确率93.8%。
用于学习无限维哈密顿系统的辛神经算子
提出保持哈密顿PDE辛结构的神经算子,理论保证长期稳定性,数值实验能量行为更优。
CHoE:基于结构条件专家的跨域异构图提示学习
CHoE提出结构条件专家网络,实现跨域异构图提示学习,通过结构感知路由与语义融合提升少样本性能。
点击率预测的生成式长期用户兴趣建模
GenLI通过生成式模块捕获多样用户兴趣,简化检索至O(1),实现高效准确的点击率预测。