WWW.YOUINFO.SITE
标签聚合 声音

/tag/声音

LinuxDo 最新话题 · 2026-06-11 00:36:32+08:00 · tech

本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容: 我的帖子已经打上 开源推广 标签: 是 我的开源项目完整开源,无未开源部分: 是 我的开源项目已链接认可 LINUX DO 社区: 是 我帖子内的项目介绍,AI生成、润色内容部分已截图发出: 是 以上选择我承诺是永久有效的,接受社区和佬友监督: 是 以下为项目介绍正文内容,AI生成、润色内容已使用截图方式发出 我用 flutter 做了一个开源的语音生成 app,主要还是利用了目前小米免费的 mimo 语音生成模型并利用 ai 对需要生成的语音文字进行打标签和润色。当然需要填你自己的 MIMO 的 API,和用于润色这个文字的 AI 模型的 API。 开源官网: https://shenghui.cloudlark.net/ 开源仓库: https://github.com/FuKun0113/shenghui-ai-voice-studio 软件截图: 1 个帖子 - 1 位参与者 阅读完整话题

LinuxDo 最新话题 · 2026-06-10 17:37:55+08:00 · tech

本帖使用社区公益推广,符合推广要求。我申明并遵循社区要求的以下内容: 我的项目是免费使用的,无收费(变相收费、赞助)部分: 是 我的帖子已经打上 公益推广 标签: 是 我的项目属于个人项目,与公司或商业机构无关: 是 我的项目不存在QQ、TG等群组引流: 是 我的项目不存在非运营必要的网站引流: 是 我的项目不存在为他人推广、AFF: 是 我的项目无关联的商业项目: 是 我的站点存在登录,并已接入 LINUX DO Connect: 是 我帖子内的项目介绍,AI生成、润色内容部分已截图发出: 是 以上选择我承诺是永久有效的,接受社区和佬友监督: 是 以下为项目介绍正文内容,AI生成、润色内容已使用截图方式发出 https://tts.cngov.cc.cd/ 使用Linux.do账号登录即可获得,每天50次免费生成机会,欢迎体验,玩的开心 14 个帖子 - 8 位参与者 阅读完整话题

IT之家 · 2026-06-09 05:30:32+08:00 · tech

IT之家 6 月 9 日消息,苹果今日宣布,Siri AI 将提供“全新的语音体验”, 让用户可以自定义语音助手的声音 。 在支持苹果最新端侧模型的设备上,Siri AI 将带来更具表现力的声音,同时系统范围内的语音输入准确度也会显著提升。 从截图可以看到, 用户可以通过带有滑块的新界面,根据个人喜好调整 Siri 语音的表现力和节奏 。而在 iOS 27 开发者预览版 Beta 1 中,该功能仅限美国用户使用。 此外,自定义 Siri AI 语音助手的能力并非所有机型都有,以下是 Siri AI 语音自定义功能的最低硬件要求: iPhone Air、iPhone 17 Pro、配备 M4 及后续芯片且内存至少 12GB 的 iPad,以及配备 M3 及后续芯片且内存至少 12GB 的 Mac。 IT之家注意到,更新后的语音输入引擎将以精致文本形式捕捉语音, 实时自动处理大小写、标点和格式化 。苹果表示,提高语音理解意味着用户可以更自然地与 Siri AI 对话,并相信自己的话语会准确且如预期般呈现。 根据苹果官方介绍,苹果称 Siri AI 是“全新版本的 Siri”,并表示它比之前的智能助手版本更具对话性,功能也更强大。 Siri AI 支持在系统范围内使用,能够读取屏幕上的内容并与你的应用程序互动;并配有独立 App,屏幕顶部的灵动岛会冒出很大的气泡。

LinuxDo 最新话题 · 2026-06-08 20:56:59+08:00 · tech

ASR现在是真的很强,不过不是变声技术不讨论 TTS这方面,我个人感觉综合效果最好的还是GPT-SoVITS(情感专精 IndexTTS2),但是从使用水平上(还原度、活人感、音色覆盖面、电颤音、性能、易用性、样本强依赖等等)上面都还不太行,也有一年没更新了,没感到技术进步 VC更是沉默的羔羊,我个人只用过RVC,以RVC为基座的各种变声器,B站上乱七八糟一大堆,说好用吧,技术也没有进步多少,收费倒是着急。转歌声,不说处理歌声有多麻烦,就算是干净的歌声,音域覆盖不全电音撕裂是常态,音高曲线的优化算法也不见踪影,还得让人来修音(话说修音技术感觉发展也很迟缓),最终效果只能忍受瑕疵,连优化到完美的路子都没有 虚拟歌姬算是音色创造比较成熟的路子了,无奈闭源,应用场景局限 到底什么时候才能等到音色技术发展到可以将音色的情感等等声音细节都解析调制,能制造定制化的音色啊,变声或者单纯合成声音都行啊,这样我就可以给自己换一套超酷的可爱声音了(或者嘴替)! 以上内容均来自个人经验,最希望是我太落伍,创造声音的最前沿到底是怎么样的呢? 4 个帖子 - 3 位参与者 阅读完整话题

LinuxDo 最新话题 · 2026-06-04 15:07:05+08:00 · tech

昨天玩了下站内佬的虚拟伴侣项目,成功跑起来了: github.com GitHub - Open-LLM-VTuber/Open-LLM-VTuber: Talk to any LLM with hands-free voice interaction,... Talk to any LLM with hands-free voice interaction, voice interruption, and Live2D taking face running locally across platforms 现在想搞个声音克隆,让ai回答的时候文字转成克隆的tts; 在站内查了下,相关的帖子大多都是半年前一年前的了。。。 大概查到这些: GitHub - RVC-Boss/GPT-SoVITS: 1 min voice data can also be used to train a good TTS model! (few shot voice cloning) · GitHub GitHub - index-tts/index-tts: An Industrial-Level Controllable and Efficient Zero-Shot Text-To-Speech System · GitHub VoxCPM/README_zh.md at main · OpenBMB/VoxCPM · GitHub 声音复刻简介_声音复刻购买指南_声音复刻操作指南-腾讯云 音色快速复刻 - MiniMax 开放平台文档中心 我是更倾向于调api的方式(怕电脑跑不动),目前想着用minimax,但好像挺昂贵啊 佬们有没有其他或者做成了的方案捏? 6 个帖子 - 6 位参与者 阅读完整话题

LinuxDo 最新话题 · 2026-06-02 15:58:03+08:00 · tech

各位佬们,贴主是程序员,专门搞研发的,一心只写代码,很少接触别的行业。 想搞点副业,搞点钱,想知道其他行业现在被 AI 冲击成什么样了,避避坑。 比方说,短视频制作?当然,短视频制作很多方向。 写小说?做问答?做个人 ip?做技术博客?做软件,接私活?做网站?做信息差,资讯搬运?还是做一些倒卖?或者知识付费?还是做做小红书,接接广告。还是给当地的餐饮老板做做管理系统,给卖衣服的做做管理系统? 大家不要局限于软件行业,感觉现在一些小软件,很多人都能 vibe 出来了,但是真正能进入生产的,还是少数,肯定还是得专业程序员来。 我倒觉得倒卖 token,卖 gpt plus 会员,做中转站有前途呢,毕竟这玩意以后是刚需。 有没有接过广告的,说说都能给多少钱,卖什么的。 软件开发还有希望吗? 我想尝试些其他的。 2 个帖子 - 2 位参与者 阅读完整话题

IT之家 · 2026-05-29 17:13:13+08:00 · tech

IT之家 5 月 29 日消息,小米大模型应用团队今日发布 ControlFoley 开源模型 ,面向视频同步音效生成中的“可控性”难题,统一支持文本引导视频配音、文本控制视频配音和参考音频控制视频配音三类任务。 ControlFoley 在多个视频音效生成任务上达到 开源 SOTA 表现 ,在语义对齐、时间同步、声音质量以及多模态控制能力上取得全面提升。代码、模型权重、技术报告、在线 Demo 和开箱即用 Skill 均已开放。 给一段无声视频自动配上音效,已经不再是新鲜事。视频音效生成模型可以根据画面内容生成匹配的声音,让无声视频变得更完整、更有沉浸感。 然而,如果模型只会根据画面自动猜声音,创作者就很难真正控制配音结果。视频音效生成的下一步,需要从“看画面配声音”走向“按意图配声音”。为此,小米大模型应用团队提出并开源了 ControlFoley,一个统一且可控的视频音效生成框架。 它不只让视频“有声音”,更希望让声音真正“按你想要的来” 。 ControlFoley 的核心目标,是构建一个统一的可控视频音效生成框架,让模型同时具备三类能力: TV2A:文本引导视频配音 。根据视频和文本提示生成同步音效,文本用于补充和细化画面中的声音语义。 TC-V2A:文本控制视频配音 。当文本和视频语义发生冲突时,模型仍能遵循文本意图生成目标声音,同时保持和视频动作的时间同步。 AC-V2A:参考音频控制视频配音 。根据视频和参考音频生成同步音效,让输出声音在音色和风格上贴近参考音频,同时不破坏视频节奏。 这意味着,ControlFoley 不只是一个“视频生音频”模型,而是一个 面向创作控制的 多模态 音频生成 模型 。 ▲ ControlFoley 模型架构:联合视觉编码、时间-音色解耦与多模态鲁棒训练共同支撑可控视频音效生成 联合视觉编码:既理解画面,也听懂控制意图 在视频音效生成中,视觉信息非常强势。它能告诉模型画面中发生了什么,但也容易在多模态融合时压制文本控制。为此, 团队新提出并自训练了时空音视频编码器 CAV-MAE-ST ,用来增强模型对音视频事件、动作节奏和时间同步关系的理解。 ▲ 时空音视频编码器 CAV-MAE-ST 简单理解,CLIP 更擅长理解视觉与文本之间的通用语义关系;CAV-MAE-ST 则面向视频配音任务重新设计和训练,更关注“动作什么时候发生、声音应该什么时候出现”这类音视频时空对应关系。它通过视频帧与音频特征的联合建模,帮助模型捕捉动作节奏、音频事件和时间同步线索。 二者结合后,ControlFoley 既能保留强音画同步能力,又能在文本与视觉发生冲突时更好地响应文本控制。这让模型在“画面是一回事,用户想要另一种声音”的场景下,不再只是被画面牵着走。 时间-音色解耦:让参考音频控制风格,而不扰乱同步 参考音频控制的难点在于:一段音频里同时包含“听起来像什么”和“什么时候发生”两类信息。如果模型直接使用参考音频,参考音频里的节奏和时间结构可能会干扰视频本身的动作同步。结果就是,声音风格没控稳,音画同步也被破坏。 ControlFoley 采用时间-音色解耦策略 ,抑制参考音频中冗余的时间信息,保留更关键的全局音色特征。这样一来,参考音频主要负责控制“声音听起来像什么”,视频则继续负责控制“声音什么时候发生”。 模态鲁棒训练:一个模型,适配多种输入组合 真实使用中,用户提供的条件并不固定:有时只有视频,有时有视频和文本,有时还会额外提供参考音频。 ControlFoley 采用随机模态 dropout 和统一多模态表示对齐训练,让模型在不同条件组合下都能保持稳定。同时,模型通过统一 REPA 对齐目标,将生成音频的内部表示与聚合后的多模态条件对齐,提升语义一致性和控制鲁棒性。换句话说,ControlFoley 不是为某一个单点任务“特化”出来的模型,而是一个 统一覆盖 TV2A、TC-V2A、AC-V2A 的多任务框架 。 在常规视频配音任务 TV2A 上,ControlFoley 在 VGGSound-Test、Kling-Audio-Eval、MovieGen-Audio-Bench 等多个 benchmark 上取得 开源 SOTA 表现 。 结果对比显示,ControlFoley 在多个数据集上均取得更好的语义对齐、时间同步和声音质量表现。 下图展示了典型视频配音结果的频谱对比。以乐器演奏和体育运动两类典型场景为例,ControlFoley 生成的音频在动作发生的关键时刻能够对齐视频节奏,同时保留更完整的高频细节;相比之下,部分方法会出现声音事件错位、漏掉关键动作声音,或生成与画面不匹配的音频。直观来看,ControlFoley 不仅能“配上声音”,也更能把声音配准、配细。 对标商业闭源系统 Kling-Foley,ControlFoley 在关键体验指标上同样展现出竞争力。在语义对齐、时间同步和声音质量等关键体验指标上,ControlFoley 相比 Kling-Foley 展现出稳定优势;完整客观指标可见技术报告。 ControlFoley 的相关资源已经开放,IT之家附开源链接: 技术报告 : https://arxiv.org/abs/2604.15086 GitHub : https://github.com/xiaomi-research/controlfoley 模型权重 : https://huggingface.co/YJX-Xiaomi/ControlFoley 项目主页 / 在线体验 : https://yjx-research.github.io/ControlFoley_web_page/ 一键调用 Skill : https://clawhub.ai/yjx-research/controlfoley-audio-generator 完整结果对比 : https://yjx-research.github.io/ControlFoley/

V2EX - 技术 · 2026-05-24 17:52:28+08:00 · tech

昨天碰到一个音画不同步问题(数字人说话时一旦声音和画面出现了细微的偏差,整个视频看起来就非常奇怪,嘴型对不上),恁是 vibe 了一整天都没解决。有时候通过 vibe coding 来解决问题,就像是在抽盲盒。由于音视频开发的细节太多,导致 AI 没办法很细致地解决延迟、同步问题。这咋整呢?要么就自己一行一行地去看代码、梳理逻辑,要么就继续 vibe coding 碰概率。而且我发现 vibe coding 到最后真的什么都学不到,没有任何技术上的成长。唯一的收获可能就是做出了一个产品,或者实现了某一个功能。如果将来 AI 能够短时间变得更聪明倒还好,这样大家也不用再关心技术问题了。如果没有的话,或者像自动驾驶从 L2 到 L4 这么缓慢进步,一直 vibe coding 是一件对职业发展很不利的事情,长期如此技术成长基本上就停滞了。所以我觉得现阶段还是非常有必要去搞清楚技术原理,理解架构。并在此基础上去用 AI 来加速开发,而不是一直 vibe coding 下去,什么都不管。如果只是写一个网页、一个插件或者一个简单的 app 或者快速出原型,倒是无关紧要。但如果是像 CyberVerse 这样想要持续更新的项目,这种方式一定是不可持续的,欠下的技术债,终有一天要还。今天开始认真地研究代码、研究逻辑,把 bug 找出来。

V2EX - 技术 · 2026-05-24 17:52:28+08:00 · tech

昨天碰到一个音画不同步问题(数字人说话时一旦声音和画面出现了细微的偏差,整个视频看起来就非常奇怪,嘴型对不上),恁是 vibe 了一整天都没解决。有时候通过 vibe coding 来解决问题,就像是在抽盲盒。由于音视频开发的细节太多,导致 AI 没办法很细致地解决延迟、同步问题。这咋整呢?要么就自己一行一行地去看代码、梳理逻辑,要么就继续 vibe coding 碰概率。而且我发现 vibe coding 到最后真的什么都学不到,没有任何技术上的成长。唯一的收获可能就是做出了一个产品,或者实现了某一个功能。如果将来 AI 能够短时间变得更聪明倒还好,这样大家也不用再关心技术问题了。如果没有的话,或者像自动驾驶从 L2 到 L4 这么缓慢进步,一直 vibe coding 是一件对职业发展很不利的事情,长期如此技术成长基本上就停滞了。所以我觉得现阶段还是非常有必要去搞清楚技术原理,理解架构。并在此基础上去用 AI 来加速开发,而不是一直 vibe coding 下去,什么都不管。如果只是写一个网页、一个插件或者一个简单的 app 或者快速出原型,倒是无关紧要。但如果是像 CyberVerse 这样想要持续更新的项目,这种方式一定是不可持续的,欠下的技术债,终有一天要还。今天开始认真地研究代码、研究逻辑,把 bug 找出来。

V2EX - 技术 · 2026-05-24 17:52:28+08:00 · tech

昨天碰到一个音画不同步问题(数字人说话时一旦声音和画面出现了细微的偏差,整个视频看起来就非常奇怪,嘴型对不上),恁是 vibe 了一整天都没解决。有时候通过 vibe coding 来解决问题,就像是在抽盲盒。由于音视频开发的细节太多,导致 AI 没办法很细致地解决延迟、同步问题。这咋整呢?要么就自己一行一行地去看代码、梳理逻辑,要么就继续 vibe coding 碰概率。而且我发现 vibe coding 到最后真的什么都学不到,没有任何技术上的成长。唯一的收获可能就是做出了一个产品,或者实现了某一个功能。如果将来 AI 能够短时间变得更聪明倒还好,这样大家也不用再关心技术问题了。如果没有的话,或者像自动驾驶从 L2 到 L4 这么缓慢进步,一直 vibe coding 是一件对职业发展很不利的事情,长期如此技术成长基本上就停滞了。所以我觉得现阶段还是非常有必要去搞清楚技术原理,理解架构。并在此基础上去用 AI 来加速开发,而不是一直 vibe coding 下去,什么都不管。如果只是写一个网页、一个插件或者一个简单的 app 或者快速出原型,倒是无关紧要。但如果是像 CyberVerse 这样想要持续更新的项目,这种方式一定是不可持续的,欠下的技术债,终有一天要还。今天开始认真地研究代码、研究逻辑,把 bug 找出来。

V2EX - 技术 · 2026-05-24 17:34:25+08:00 · tech

昨天碰到一个音画不同步问题(数字人说话时一旦声音和画面出现了细微的偏差,整个视频看起来就非常奇怪,嘴型对不上),恁是 vibe 了一整天都没解决。有时候通过 vibe coding 来解决问题,就像是在抽盲盒。由于音视频开发的细节太多,导致 AI 没办法很细致地解决延迟、同步问题。这咋整呢?要么就自己一行一行地去看代码、梳理逻辑,要么就继续 vibe coding 碰概率。而且我发现 vibe coding 到最后真的什么都学不到,没有任何技术上的成长。唯一的收获可能就是做出了一个产品,或者实现了某一个功能。如果将来 AI 能够短时间变得更聪明倒还好,这样大家也不用再关心技术问题了。如果没有的话,或者像自动驾驶从 L2 到 L4 这么缓慢进步,一直 vibe coding 是一件对职业发展很不利的事情,长期如此技术成长基本上就停滞了。所以我觉得现阶段还是非常有必要去搞清楚技术原理,理解架构。并在此基础上去用 AI 来加速开发,而不是一直 vibe coding 下去,什么都不管。如果只是写一个网页、一个插件或者一个简单的 app 或者快速出原型,倒是无关紧要。但如果是像 CyberVerse 这样想要持续更新的项目,这种方式一定是不可持续的,欠下的技术债,终有一天要还。今天开始认真地研究代码、研究逻辑,把 bug 找出来。

V2EX - 技术 · 2026-05-24 16:39:19+08:00 · tech

昨天碰到一个音画不同步问题(数字人说话时一旦声音和画面出现了细微的偏差,整个视频看起来就非常奇怪,嘴型对不上),恁是 vibe 了一整天都没解决。有时候通过 vibe coding 来解决问题,就像是在抽盲盒。由于音视频开发的细节太多,导致 AI 没办法很细致地解决延迟、同步问题。这咋整呢?要么就自己一行一行地去看代码、梳理逻辑,要么就继续 vibe coding 碰概率。而且我发现 vibe coding 到最后真的什么都学不到,没有任何技术上的成长。唯一的收获可能就是做出了一个产品,或者实现了某一个功能。如果将来 AI 能够短时间变得更聪明倒还好,这样大家也不用再关心技术问题了。如果没有的话,或者像自动驾驶从 L2 到 L4 这么缓慢进步,一直 vibe coding 是一件对职业发展很不利的事情,长期如此技术成长基本上就停滞了。所以我觉得现阶段还是非常有必要去搞清楚技术原理,理解架构。并在此基础上去用 AI 来加速开发,而不是一直 vibe coding 下去,什么都不管。如果只是写一个网页、一个插件或者一个简单的 app 或者快速出原型,倒是无关紧要。但如果是像 CyberVerse 这样想要持续更新的项目,这种方式一定是不可持续的,欠下的技术债,终有一天要还。今天开始认真地研究代码、研究逻辑,把 bug 找出来。