MR2-ByteTrack:面向AI增强型嵌入式视觉传感器节点的基于CNN和Transformer的视频目标检测
MR2-ByteTrack采用多分辨率推理和重新评分算法,在MCU上实现实时视频目标检测,能耗最高降低55%。
Ghosted Layers: Unconstrained Activation Alignment for Recovering Layer-Pruned LLMs
DrugSAGE:用于高效前沿药物发现的自我进化智能体经验
DrugSAGE通过跨任务记忆复用经验,在33个分子性质预测任务中排名第一,零测试搜索下超基线10-30%,实现高效前沿药物发现。
面向智能编码系统的运行时结构化任务分解
运行时结构化任务分解仅重试失败子任务,重试成本较单体系统降低51.7%,较静态分解降低73.2%。
随机时延下机器人遥操作的残差强化学习
提出残差强化学习框架,结合LSTM状态估计,应对随机延迟,实现鲁棒稳定遥操作。
RIDE:基于Retinex先验的解耦方法用于揭露隐蔽物体
RIDE利用Retinex同质分解与可区分性差距定理,通过任务驱动解耦实现隐蔽物体高效分割。
GRLO: 从零开始在开放式环境中实现可泛化强化学习
GRLO仅用5K提示和22.7GPU小时,将模型平均性能从24.1提升至63.1,数据量和算力分别减少46倍和68倍。
基于混合大语言模型的机器人任务调度智能框架
使用双LLM代理优化建筑机器人任务调度,平衡效率与资源,实时适应现场变化。
面向模式约束临床信息抽取的检索增强大语言模型
提出模块化RAG管道,结合模式约束提示与二次审计,最佳配置达80.36% F1,检索增强一致提升性能。
差分隐私模体保持的多模态哈希
通过度裁剪与噪声镜像下降生成差分隐私合成图,蒸馏保留拓扑模体,跨模态哈希性能达非私有的92.5%。
在利益冲突下学习
ML系统与用户利益冲突,现有方案缺乏激励。本文提出博弈论框架,最大化有益信息并最小化偏见操纵。
SkiP:何时跳过何时精炼以实现高效机器人操作
SkiP通过动作重标记动态跳过冗余步骤并精炼关键动作,减少15–40%执行步骤且成功率不降。
分布式学习中的数据归因脆弱性研究
分布式学习数据归因脆弱,单一攻击可大幅提高自身归因值而保持模型效用,揭示新攻击面。
RoPE在长上下文中无法区分位置和标记(被证明)
证明RoPE在长上下文中失去位置和令牌区分能力,局部性与一致性消失,调整超参数也无法兼得。
PrismQuant: 面向高斯混合源的率失真最优矢量量化
提出PrismQuant,仅需分量标签成本,全局反向注水分配比特,逼近理论率失真界,模型小巧性能优异。
DiffVAS:部分可观测环境下的扩散引导视觉主动搜索
DiffVAS利用扩散模型重建区域,结合强化学习规划,在部分可观测环境中同时搜索多样目标,效果显著。
神经点形式
提出神经点形式(NPFs),利用拉普拉斯技术建模点云微分形式,证明一致性,提供可解释几何特征。
DeltaPrompts:逃离多模态蒸馏中的零Delta陷阱
揭示零Delta陷阱,提出基于答案散度的提示筛选,构建200k高散度数据集DeltaPrompts,提升多模态蒸馏效果。
基于结构噪声初始化与引导的无调参指令视频编辑
提出无调参指令视频编辑框架,通过结构噪声初始化和引导机制提升内容一致性及视觉效果,性能领先。
具有学习可靠性的过程奖励
BetaPRM同时预测步骤成功率及其可靠性,基于此提出ACA自适应分配计算,减少33.57%token并提升准确率。
通过智能体程序分析检测多语言微服务中的权限提升
Neo结合大语言模型与程序分析,检测微服务权限提升漏洞,发现24个零日漏洞,精度81%、召回85%。
潜在视频预测有助于学习更好的世界模型
潜在预测模型在特征判别、鲁棒性、遮挡和时间方向等维度均优于其他模型,证明其作为世界模型的优势。
使用词嵌入技术的领域无关游戏抽象
提出基于词嵌入的领域无关游戏抽象方法,将动作向量化并聚类,实验有效但未超越专用算法。
极低数据细粒度图像分类中预训练目标至关重要:一项基于骨干网络控制的研究
极低数据FGVC中,监督与对比预训练线性可分最强,MAE非线性更优,DINOv3表现差,建议根据分类器类型选目标。
运营商控制的6G:从连接基础设施到可保障数字服务
6G必须转向运营商主导,通过控制契约和保障经济实现可保障数字服务,Rakuten Mobile已验证可行性。
CTF4Nuclear:核裂变与核聚变模型的通用任务框架
提出核工程ML评估框架CTF,含多数据集和12项指标,基准测试揭示局限,旨在标准化提升可重复性。
AstraFlow:面向数据流的智能体大语言模型强化学习
AstraFlow通过解耦组件实现数据流控制,支持多策略、弹性异构跨区域RL,训练加速2.7倍且精度不变。
基于通用视界模型的离线强化学习
提出通用视界模型直接预测任意视界未来,配合缩尾分布稳定训练,显著提升离线强化学习性能。
面向多类别互补标签学习的有偏转移矩阵方法
通过设计有偏生成过程限制互补标签子集,提出BICL框架,实现多类别CLL中7倍准确率提升。
少量GPU,海量规模:PrismLLM实现忠实的大语言模型训练模拟
PrismLLM用不到1%的GPU忠实模拟大规模LLM训练,迭代时间误差仅0.58%,内存误差<0.01%。
反馈世界模型实现扩散策略的精确引导
推理时在线更新反馈状态,修正预测误差,减少76.4%,提升分布外任务成功率30%。
TFZ-Tree:一种面向资源受限设备的超轻量级波形分类框架
提出超轻量级波形分类框架TFZ-Tree,基于时频特征与Z检验树,在十种6G波形上达99.5%准确率,延迟<4ms。
面向群体归因的交互感知影响函数
提出交互感知影响函数,加入二阶交互项捕捉样例间协同效应,实验超越一阶方法。
中文标题:逻辑斯蒂固定点的尖锐谱阈值
中文摘要:发现软最大反馈系统稳定性的精确谱阈值,超越经典理论,扩展了可证稳定的边界。
VAGS: 用于图像编辑与生成的速率自适应引导尺度
提出无需训练的VAGS,通过速度场余弦相似度动态调整引导强度,提升图像编辑与生成的结构保真度。
α-TCAV:一种基于概念激活向量进行测试的统一框架
α-TCAV用平滑函数替代指示函数,解决CAV不稳定性,提供调参指导,建议将全预算用于单个CAV。
VLMs追踪而不跟踪:视觉路径跟随失败诊断
VLMs路径跟随常因局部相似干扰丢失目标路径,且规模扩大、推理或指令等标准补救均无效。
H-Mem:一种通过混合结构实现智能体记忆演化与检索的新型记忆机制
H-Mem通过混合结构(树与知识图谱)建模记忆演化与高效检索,在问答任务上达到最优性能。
ASRU:融合激活引导与强化遗忘的多模态大语言模型遗忘方法
ASRU通过激活引导和强化遗忘优化生成质量,提升遗忘效果与模型效用平衡。
连接硅与海马体:代数学确定性记忆"VaCoAl"作为Vector-HaSH和TEM的底层结构
VaCoAl代数学确定性超维记忆架构,提供位精确随机投影替代,代数解释多跳衰减,连接神经科学与工程。
DecomPose: 解耦类别级6D物体姿态估计中的跨类别优化冲突
提出DecomPose框架,通过难度感知梯度解耦与稳定性非对称分支,缓解跨类别优化冲突,提升6D姿态估计性能。
GRASP:学习在多人物非语言交互中立足社会推理
GRASP数据集含29万QA对,覆盖注视与手势事件,提出SGR奖励信号,提升多人物非语言交互理解。
UAM:VLA训练遗忘问题的双流视角
UAM通过双流架构分离语义与控制,保留VLM超95%多模态能力,无需冻结权重即实现高任务成功率。
观点:在标注流水线中,早期质量保证比后期验证更具成本效益
呼吁标注流水线优先早期质量保证(左移原则),比后期验证成本效益更高,可大幅降低错误率和成本。
海马-内嗅皮层启发的世界模型中的结构抽象与泛化
提出脑启发层次模型,通过逆模型和路径整合实现结构抽象与泛化,用于视觉预测和知识重用。
腿式机械臂的动态拾放学习
提出分层强化学习框架,实现动态拾放,仿真成功率86%,实物73%,负载达1.3kg,耗时4.06秒。
基于心脏模式引导的双向融合用于半监督心电图分割
提出CardioMix框架,用心脏模式引导双向CutMix,增强标注与未标注数据交互,提升半监督心电图分割性能。
DiLA: 解耦潜动作世界模型
DiLA通过内容-结构解耦,协同潜动作学习,兼顾高抽象与高保真生成,实现高质量视频建模与动作迁移。
BiomedAP:一种视觉引导的双锚点框架与门控跨模态融合,实现稳健的医学视觉-语言适配
提出视觉引导双锚框架与门控跨模态融合,增强医学VLM对提示扰动的鲁棒性,少样本精度领先。
CompactQE:通过小型开源权重LLM实现可解释的翻译质量评估
小型开源LLM单次提示即可同时输出质量分数、错误注释、纠正及后编辑,性能媲美大型专有LLM,超越传统指标。