各位姥,请教下Google flow 可以反代,或者有cli吗,我想使用omini模型 3 个帖子 - 3 位参与者 阅读完整话题
omini很好用啊,生成速度快,一致性也挺好,3.5flsh更不用说,上桌吃菜完全没问题,基础设施非常强,整个AI生态感觉也闭环了。 在Google的生态下Gemini的产品用起来是真舒服,Ultra套餐降到100刀,不算AI功能其他的权益也不错,正价订阅起来也简单。 Google对国内市场的态度也是最务实的,现在就期待3.5pro出来后影响力能不能超过OAI和A\。 13 个帖子 - 11 位参与者 阅读完整话题
如题,Google flow已经可以体验omini flash模型了。 佬友们可以去测试一下。 我初步测试下来一致性、打斗方面都拉完了,也可能是flash模型的缘故?10秒视频要30积分。 1 个帖子 - 1 位参与者 阅读完整话题
本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容: 我的帖子已经打上 开源推广 标签: 是 我的开源项目完整开源,无未开源部分: 是 我的开源项目已链接认可 LINUX DO 社区: 是 我帖子内的项目介绍,AI生成、润色内容部分已截图发出: 是 以上选择我承诺是永久有效的,接受社区和佬友监督: 是 以下为项目介绍正文内容,AI生成、润色内容已使用截图方式发出 上次hermes接入了minimax (我的 token plan plus 套餐有语音额度)对接到QQ,实现了音色克隆和语音合成,小助手能使用我喜欢的角色的声音发语音,简直不要太棒。 但是问题随之而来——克隆音色不包含在套餐的 我克隆一个音色,15元的体验金只剩下5元(我查询了一下克隆花了9.9元) 所以就考虑自己部署一个TTS模型实现声音克隆和合成。 我的硬件设备是:16G内存+6GB显存(RTX 3060) 采用的模型是:omini-voice (如果有更好的模型大家可以推荐一下) 对应Github仓库: mllt992/xrilang-voice-clone-ominovoice: 基于ominovoice的音色克隆和语音合成。 聊聊这个过程遇到的问题: 首先遇到的第一个问题是性能问题。最开始克隆和合成都非常慢,然后发现没有成功启用显卡,但是启用显卡后发现,竟然内存不足了。 于是让AI分析项目,设计优化方案。 当然还存在一些不足 上图出现错误的原因我觉得有个因素就是提供的示例音频太长太大了 第二个问题是缺乏感情。音色虽然克隆了,也能合成了,但是对于一些句子,感情控制的不到位。 尤其是我克隆用的示例音频是游戏角色的语音,带有一定强烈的情感和风格,(比如语速快的。弄出来之后不管啥句子语速快,就不太合适)然后就是合成的语音,速度感情不到位,不能很好的适配文案。 想法是能不能先对文案做个分析?目前的方式是 做了一层服务侧的自动韵律增强。文案理解和模型解码参数接在一起,让语音在合成前先被拆成更适合朗读的小段,再对每一段单独调速度、停顿和风格提示,最后再拼回去 但是就这句话来说,感觉还是 太受到克隆示例音色的感情风格影响 了。(不过声音我觉得还是很还原的)比如“好耶”节奏慢了,不够欢快。“呜呜呜”是“呜(轻轻的短音停顿一下)呜(轻轻的短音停顿一下)呜(轻轻的短音停顿一下)”这样的,不是连贯的呜呜呜。 (感觉可能有点过度处理了)不知道还可以从哪些方面入手优化一下。 同样的角色音频同样的文案,对比了一下minimax生成的结果——呜呜呜差远了!!!! 但是对比了下huggingface上这个模型的效果,感觉还是会比直接使用模型好一些 What should I Do OmniVoice本地部署实现音色克隆和语音合成 | 小黄花 2 个帖子 - 2 位参与者 阅读完整话题
5月18日消息,据报道,美国公用事业巨头NextEra Energy目前正就收购竞争对手Dominion Energy进行谈判,该笔交易方案主要以股票交换形式进行,对Dominion的估值约为每股76美元,总价约660亿美元。若最终达成,这将成为迄今为止电力行业规模最大的一笔交易。NextEra计划以约0.8股自身股票交换1股Dominion发行在外的股票,交易总额中还将包含一小部分现金成分。交易完成后,NextEra的股东将持有合并后新公司约75%的股份。(界面)