WWW.YOUINFO.SITE
标签聚合 cvpr

/tag/cvpr

IT之家 · 2026-05-19 07:22:40+08:00 · tech

IT之家 5 月 19 日消息,小米技术官方宣布,近日,小米在 CVPR 2026 NTIRE 赛事中获三项奖项。其中,小米玄戒多媒体算法团队夺得高效超分辨率赛道冠军,小米大模型应用团队获人像修复赛道冠军与反光消除赛道亚军。 IT之家注:NTIRE(New Trends in Image Restoration and Enhancement)由 CVPR 组委会承办,是全球规模最大、水平最高的图像恢复与增强领域学术研讨会。 据小米技术介绍,在 NTIRE 高效超分辨率挑战赛的最终评估中,小米玄戒多媒体算法团队依托在芯片多媒体影像算法领域的软硬融合方向积累,延续了上一届冠军方案 SPAN 技术路线,提出了全新一代方法 SPANV2 ,并以综合得分 4.43 位列第一 ,在推理速度、计算量、参数规模之间取得了整体均衡。 与上一代 SPAN 相比,SPANV2 的改动集中在两处:一是让网络在修复图像时不再套用一种固定策略处理全图,而是能根据画面内容自适应判断哪里需要精修、以什么方式精修;二是把 GPU 在注意力计算中原本需要三次读写显存的步骤合并为一次完成,省下了大量重复的数据搬运开销。两点叠加,使模型在画质几乎无损的前提下,推理速度再次被提高。 在人像修复赛道上, 小米大模型应用团队提出了双阶段级联框架 + 单步扩散细化的技术方案 ,从全球参赛队伍中脱颖而出, 获第一名(Team name: MiPlusCV) ,在无参考图像质量与身份一致性综合评测中全面领先。 小米官方表示,真实世界中的老照片、模糊、压缩损伤、噪声和低分辨率往往属于复合退化,若直接一步生成,容易出现结构漂移、人脸失真甚至身份变化。为此,团队采用了更稳健的双阶段设计: 第一阶段:基于 OSDFace 进行粗修复与结构恢复,重点解决五官布局恢复、严重退化修正和整体人脸结构稳定,确保人脸结构修复正确 第二阶段:基于 Z-Image One-step Diffusion 进行细节增强,进一步补充皮肤纹理、发丝、边缘和高频细节,确保细节真实自然 此外,小米团队还引入了单步扩散细节增强机制(One-step Diffusion),将复杂的多步推理压缩至单步完成,在保证生成质量的同时提升推理效率。 最后是反光消除赛道,小米大模型应用团队基于 RDNet-XL 架构,通过骨干网络升级、扩散模型知识蒸馏与渐进式多分辨率训练策略, 在 CVPR 2026 主观评分中荣获第二名(4.31 分),同时多项客观指标位列第一 。 团队的技术路线非常清晰:以强大的骨干网络为基础,用扩散模型知识蒸馏攻克困难样本,通过渐进式训练稳定优化过程。 方案基于 XReflection 框架中的 RDNet(Reversible Decoupling Network)架构,将原始骨干从 FocalNet-L 替换为更大规模的 FocalNet-XL。这一升级带来了显著的多尺度表征能力提升和全局上下文建模增强,使模型能够更精确地抑制反射并保留细节。 针对强反射、复杂反射等困难样本,团队创新性地引入了扩散模型知识蒸馏策略: 困难样本生成:使用扩散模型 SOTA 方法(WindowSeat、DAI)对大规模开源图像进行反光消除,生成 1000 对高质量伪标签数据; 域对齐处理:将每张反射图像通过与扩散模型相同的 VAE 编码器-解码器处理,用重建图像作为网络输入,消除 VAE 编解码带来的域差异; 蒸馏训练:以扩散模型的输出作为教师信号,对已完成渐进式训练的模型进行额外蒸馏训练。 此外,为了在大分辨率图像上实现稳定训练,团队还采用了三阶段渐进式分辨率训练策略(384×384 → 512×512 → 768×768)。这种从小到大的训练方式,使模型先学习局部反射模式,再逐步扩展至全局结构理解,避免了直接在大分辨率上训练的不稳定性。 IT之家附技术报告如下: 人像修复: https://arxiv.org/abs/2604.10532 反光消除: https://arxiv.org/abs/2604.10321 高效图像超分辨率: https://arxiv.org/abs/2604.03198

www.ithome.com · 2026-04-22 17:21:28+08:00 · tech

IT之家 4 月 22 日消息,小米技术今日宣布,开源视频消除技术 SVOR,该技术可以移除视频中出现的路人。 官方表示,现有的方法大多在理想条件下设计和验证,而真实世界的视频远比论文里的测试场景复杂 —— 模型识别的掩码边缘不够准、物体消除后阴影仍然留在画面里、目标快速移动时逐帧处理频繁“跟丢”导致闪烁。 为此小米提出了 SVOR(Stable Video Object Removal) 框架,专门针对上述三类“不完美条件”设计了对应的解决方案:用 MUSE 窗口化联合策略解决运动抖动,用 DA-Seg 去噪感知分割提升遮罩容错能力,并通过课程式两阶段训练让模型真正学会处理阴影和反射残留。 SVOR 在多个标准数据集和退化遮罩基准 上均达到了新的 SOTA 水平 ,并在 CVPR 2026 物理感知视频实例消除挑战赛中从 18 支参赛队伍中脱颖而出, 荣获第一名 。 相关论文已经发布,项目代码也已开源,并准备好 skill 供直接调用,IT之家附相关链接如下: 论文 : https://arxiv.org/abs/2603.09283 GitHub : https://github.com/xiaomi-research/svor Skill : https://clawhub.ai/wangfei1204/mi-visionforge-svor 小米还表示,在视频消除的评测方案上也做了较多工作,包括评测数据收集整理和创新性评测方法,将在合适的时间进行开源。