WWW.YOUINFO.SITE
标签聚合 音效

/tag/音效

IT之家 · 2026-05-29 17:13:13+08:00 · tech

IT之家 5 月 29 日消息,小米大模型应用团队今日发布 ControlFoley 开源模型 ,面向视频同步音效生成中的“可控性”难题,统一支持文本引导视频配音、文本控制视频配音和参考音频控制视频配音三类任务。 ControlFoley 在多个视频音效生成任务上达到 开源 SOTA 表现 ,在语义对齐、时间同步、声音质量以及多模态控制能力上取得全面提升。代码、模型权重、技术报告、在线 Demo 和开箱即用 Skill 均已开放。 给一段无声视频自动配上音效,已经不再是新鲜事。视频音效生成模型可以根据画面内容生成匹配的声音,让无声视频变得更完整、更有沉浸感。 然而,如果模型只会根据画面自动猜声音,创作者就很难真正控制配音结果。视频音效生成的下一步,需要从“看画面配声音”走向“按意图配声音”。为此,小米大模型应用团队提出并开源了 ControlFoley,一个统一且可控的视频音效生成框架。 它不只让视频“有声音”,更希望让声音真正“按你想要的来” 。 ControlFoley 的核心目标,是构建一个统一的可控视频音效生成框架,让模型同时具备三类能力: TV2A:文本引导视频配音 。根据视频和文本提示生成同步音效,文本用于补充和细化画面中的声音语义。 TC-V2A:文本控制视频配音 。当文本和视频语义发生冲突时,模型仍能遵循文本意图生成目标声音,同时保持和视频动作的时间同步。 AC-V2A:参考音频控制视频配音 。根据视频和参考音频生成同步音效,让输出声音在音色和风格上贴近参考音频,同时不破坏视频节奏。 这意味着,ControlFoley 不只是一个“视频生音频”模型,而是一个 面向创作控制的 多模态 音频生成 模型 。 ▲ ControlFoley 模型架构:联合视觉编码、时间-音色解耦与多模态鲁棒训练共同支撑可控视频音效生成 联合视觉编码:既理解画面,也听懂控制意图 在视频音效生成中,视觉信息非常强势。它能告诉模型画面中发生了什么,但也容易在多模态融合时压制文本控制。为此, 团队新提出并自训练了时空音视频编码器 CAV-MAE-ST ,用来增强模型对音视频事件、动作节奏和时间同步关系的理解。 ▲ 时空音视频编码器 CAV-MAE-ST 简单理解,CLIP 更擅长理解视觉与文本之间的通用语义关系;CAV-MAE-ST 则面向视频配音任务重新设计和训练,更关注“动作什么时候发生、声音应该什么时候出现”这类音视频时空对应关系。它通过视频帧与音频特征的联合建模,帮助模型捕捉动作节奏、音频事件和时间同步线索。 二者结合后,ControlFoley 既能保留强音画同步能力,又能在文本与视觉发生冲突时更好地响应文本控制。这让模型在“画面是一回事,用户想要另一种声音”的场景下,不再只是被画面牵着走。 时间-音色解耦:让参考音频控制风格,而不扰乱同步 参考音频控制的难点在于:一段音频里同时包含“听起来像什么”和“什么时候发生”两类信息。如果模型直接使用参考音频,参考音频里的节奏和时间结构可能会干扰视频本身的动作同步。结果就是,声音风格没控稳,音画同步也被破坏。 ControlFoley 采用时间-音色解耦策略 ,抑制参考音频中冗余的时间信息,保留更关键的全局音色特征。这样一来,参考音频主要负责控制“声音听起来像什么”,视频则继续负责控制“声音什么时候发生”。 模态鲁棒训练:一个模型,适配多种输入组合 真实使用中,用户提供的条件并不固定:有时只有视频,有时有视频和文本,有时还会额外提供参考音频。 ControlFoley 采用随机模态 dropout 和统一多模态表示对齐训练,让模型在不同条件组合下都能保持稳定。同时,模型通过统一 REPA 对齐目标,将生成音频的内部表示与聚合后的多模态条件对齐,提升语义一致性和控制鲁棒性。换句话说,ControlFoley 不是为某一个单点任务“特化”出来的模型,而是一个 统一覆盖 TV2A、TC-V2A、AC-V2A 的多任务框架 。 在常规视频配音任务 TV2A 上,ControlFoley 在 VGGSound-Test、Kling-Audio-Eval、MovieGen-Audio-Bench 等多个 benchmark 上取得 开源 SOTA 表现 。 结果对比显示,ControlFoley 在多个数据集上均取得更好的语义对齐、时间同步和声音质量表现。 下图展示了典型视频配音结果的频谱对比。以乐器演奏和体育运动两类典型场景为例,ControlFoley 生成的音频在动作发生的关键时刻能够对齐视频节奏,同时保留更完整的高频细节;相比之下,部分方法会出现声音事件错位、漏掉关键动作声音,或生成与画面不匹配的音频。直观来看,ControlFoley 不仅能“配上声音”,也更能把声音配准、配细。 对标商业闭源系统 Kling-Foley,ControlFoley 在关键体验指标上同样展现出竞争力。在语义对齐、时间同步和声音质量等关键体验指标上,ControlFoley 相比 Kling-Foley 展现出稳定优势;完整客观指标可见技术报告。 ControlFoley 的相关资源已经开放,IT之家附开源链接: 技术报告 : https://arxiv.org/abs/2604.15086 GitHub : https://github.com/xiaomi-research/controlfoley 模型权重 : https://huggingface.co/YJX-Xiaomi/ControlFoley 项目主页 / 在线体验 : https://yjx-research.github.io/ControlFoley_web_page/ 一键调用 Skill : https://clawhub.ai/yjx-research/controlfoley-audio-generator 完整结果对比 : https://yjx-research.github.io/ControlFoley/

IT之家 · 2026-05-08 09:20:18+08:00 · tech

IT之家 5 月 8 日消息,韶音 OpenDots 2 耳夹耳机今日 10:00 正式开售, 到手价 1298 元 。 韶音 OpenDots 2 耳夹耳机 升级柔韧钛片 ,优化宽厚比,动钛弧自带 9g 预紧力,采用不对称弧形设计;内置 11.8mm 对称双单元 ,失真相比上一代优化 70%;搭载全新升级杜比音效。 韶音 OpenDots 2 耳夹耳机有白金缮、黑芒星、银雪松三种颜色可选; 不区分左右耳 ,搭载内置 AI 通话降噪技术;支持 无线充电 ,耳机续航 10 小时,搭配充电盒续航 40 小时。 韶音 OpenDots 2 耳夹耳机支持 IP57 级防尘防水 ,升级蓝牙 6.1,支持双设备连接,IT之家附这款耳机详细参数如下: 京东 韶音(SHOKZ) OpenDots 2 开放式蓝牙耳机 1298 元 直达链接

IT之家 · 2026-05-06 23:50:02+08:00 · tech

IT之家 5 月 6 日消息,最近几乎天天都能出现关于微软 Xbox 的新闻,今天也不例外。Xbox CEO 阿莎 · 夏尔马宣布,Xbox 主机将在 5 月 13 日上线 新的开机音效和开机动画 。新的开机动画会展示新版 Xbox 标志,开机音效也会在现有版本基础上做出轻微调整。 微软上个月首次公布新版 Xbox 标志。随后,微软已经推出以新标志为主题的 Xbox 动态背景,也为 Xbox 玩家提供了头像。 据IT之家了解,新版 Xbox 标志采用了更明显的玻璃质感。同时,微软也在部分下一代 Project Helix 材料中使用了这一设计。 开机动画更新的消息发布前一天,夏尔马刚刚公布她接手 Xbox 后的 首次重大组织调整 。调整内容包括部分资深员工出走、人员晋升,以及引入更多具备技术专长的新成员,以支持 Xbox 平台团队。夏尔马还从微软 CoreAI 部门带来了多名前同事,引入目前尚不具备的、拥有消费者和技术专长的新领导者。 夏尔马也在通过一系列动作塑造自己的 Xbox 方向,包括推进玩家呼声很高的主机功能、下调 Xbox Game Pass 价格,以及把 Microsoft Gaming 重新改回 Xbox。

www.ithome.com · 2026-05-04 19:11:49+08:00 · tech

IT之家 5 月 4 日消息,索尼现已在京东上架 SA-RS9 无线后环绕, 定价为 5870 元 ,部分地区国补后到手价低至 4990 元。 该机内置 80mm 穹顶扬声器、80mm 中 / 低频扬声器、16mm 高频扬声器。配备 360 度智能穹顶声场 2.0 技术,可实现清晰有层次感的音效。同时,其支持多种摆放方式,提供影院级别 IMAX Enhanced 音效,可通过手机 App 便捷操作。 京东 索尼 SA-RS9 无线后环绕 5870 元 直达链接

www.ithome.com · 2026-04-29 10:33:13+08:00 · tech

IT之家 4 月 29 日消息,韶音官方今日宣布,OpenDots 2 耳夹耳机开启预售, 到手价 1298 元 。 韶音 OpenDots 2 耳夹耳机 升级柔韧钛片 ,优化宽厚比,动钛弧自带 9g 预紧力,采用不对称弧形设计;内置 11.8mm 对称双单元 ,失真相比上一代优化 70%;搭载全新升级杜比音效。 韶音 OpenDots 2 耳夹耳机有白金缮、黑芒星、银雪松三种颜色可选; 不区分左右耳 ,搭载内置 AI 通话降噪技术;支持 无线充电 ,耳机续航 10 小时,搭配充电盒续航 40 小时。 韶音 OpenDots 2 耳夹耳机支持 IP57 级防尘防水 ,升级蓝牙 6.1,支持双设备连接,IT之家附这款耳机详细参数如下: 京东 韶音(SHOKZ) OpenDots 2 开放式蓝牙耳机 1298 元 直达链接

www.ithome.com · 2026-04-28 19:54:54+08:00 · tech

IT之家 4 月 28 日消息,在今天的发布会中,一加 Buds Ace 3 耳机正式发布, 定价为 329 元 ,部分地区国补后低至 279.65 元。 京东 一加 Buds Ace 3 耳机 329 元 直达链接 新品采用入耳式设计,拥有 IP55 认证,可选太空银 / 星际黑双色,整体重量 4.4g,搭配圆润耳机充电盒。 该耳机配备 12mm 动圈,支持 55dB 降噪效果,拥有 47ms 超低游戏延迟,同时配备 FPS 游戏专属音效。同时支持 AI 同声传译和面对面翻译功能。耳机至高提供 54 小时续航。 IT之家附产品参数:

www.ithome.com · 2026-04-25 16:00:50+08:00 · tech

IT之家 4 月 25 日消息,一加今日官宣一加 Buds Ace 3 耳机将于 4 月 28 日 19:00 发布,提供星际黑、钛空银两款配色。 预热海报显示,这款新品配备 FPS 游戏专属音效 ,脚步声清晰可辨;47ms 超低游戏延迟,音画同步。外观方面,新品采用入耳式设计,搭配圆润耳机充电盒。 IT之家注意到, 前代一加 Buds Ace 2 无线耳机发布于 2024 年 12 月 ,定价 179 元、 首发 169 元 ;提供潜航黑、瞬影青 2 款配色。一加 Buds Ace 2 无线耳机续航 43 小时,内置 100% TPU 弹性外膜 + 12.4mm 动圈,支持 BassWave 2.0 动态低音。 ▲ 一加 Buds Ace 2

www.ithome.com · 2026-04-17 14:54:01+08:00 · tech

IT之家 4 月 17 日消息,一加 Buds Ace 3 耳机今日现身官网,并公开了部分配置信息。 一加 Buds Ace 3 耳机支持 FPS 游戏专属音效、55dB 降噪与 54h 续航 ,有钛空银与星际黑两种颜色可选。 作为参考,前代一加 Buds Ace 2 无线耳机发布于 2024 年 12 月,定价 179 元、 首发 169 元; 提供潜航黑、瞬影青 2 款配色。 ▲ 一加 Buds Ace 2 一加 Buds Ace 2 无线耳机续航 43 小时,内置 100% TPU 弹性外膜 + 12.4mm 动圈,支持 BassWave 2.0 动态低音。IT之家附前代一加 Buds Ace 2 无线耳机主要卖点如下: