发现阿里在今年4月发布的这个语音转文字模型效果不错,比豆包还强,而且价格和豆包的一样,都是八毛一小时。就是调接口的回复速度比豆包的稍慢,空格和大小写的输出可能不如豆包。 支持docker 部署 GitHub - yeahhe365/fun-asr-openai-proxy: OpenAI-compatible transcription proxy for Alibaba Cloud Bailian Fun-ASR · GitHub 1 个帖子 - 1 位参与者 阅读完整话题
ASR现在是真的很强,不过不是变声技术不讨论 TTS这方面,我个人感觉综合效果最好的还是GPT-SoVITS(情感专精 IndexTTS2),但是从使用水平上(还原度、活人感、音色覆盖面、电颤音、性能、易用性、样本强依赖等等)上面都还不太行,也有一年没更新了,没感到技术进步 VC更是沉默的羔羊,我个人只用过RVC,以RVC为基座的各种变声器,B站上乱七八糟一大堆,说好用吧,技术也没有进步多少,收费倒是着急。转歌声,不说处理歌声有多麻烦,就算是干净的歌声,音域覆盖不全电音撕裂是常态,音高曲线的优化算法也不见踪影,还得让人来修音(话说修音技术感觉发展也很迟缓),最终效果只能忍受瑕疵,连优化到完美的路子都没有 虚拟歌姬算是音色创造比较成熟的路子了,无奈闭源,应用场景局限 到底什么时候才能等到音色技术发展到可以将音色的情感等等声音细节都解析调制,能制造定制化的音色啊,变声或者单纯合成声音都行啊,这样我就可以给自己换一套超酷的可爱声音了(或者嘴替)! 以上内容均来自个人经验,最希望是我太落伍,创造声音的最前沿到底是怎么样的呢? 4 个帖子 - 3 位参与者 阅读完整话题
我平时用来输出词级字幕,最近测试了 qwen 的 asr 感觉准确率和时间戳都不是很准啊。。
我平时用来输出词级字幕,最近测试了 qwen 的 asr 感觉准确率和时间戳都不是很准啊。。
我平时用来输出词级字幕,最近测试了 qwen 的 asr 感觉准确率和时间戳都不是很准啊。。
我平时用来输出词级字幕,最近测试了 qwen 的 asr 感觉准确率和时间戳都不是很准啊。。
我平时用来输出词级字幕,最近测试了 qwen 的 asr 感觉准确率和时间戳都不是很准啊。。
我平时用来输出词级字幕,最近测试了 qwen 的 asr 感觉准确率和时间戳都不是很准啊。。
我平时用来输出词级字幕,最近测试了 qwen 的 asr 感觉准确率和时间戳都不是很准啊。。
我平时用来输出词级字幕,最近测试了 qwen 的 asr 感觉准确率和时间戳都不是很准啊。。
我平时用来输出词级字幕,最近测试了 qwen 的 asr 感觉准确率和时间戳都不是很准啊。。
我平时用来输出词级字幕,最近测试了 qwen 的 asr 感觉准确率和时间戳都不是很准啊。。
大家好,最近做了一套本地音频处理 + 伪知识库的应用,想听听大家对开源价值的看法。 这个项目大概做的是: 导入音频 / 视频,通过 ASR 模型转录 对转录文本做切分、整理、结构化 生成一个偏“伪知识库”的索引 它更像是一套完整工作流,而不是单一工具。核心价值在于把音频资料转成可检索、可复用的个人知识资产。 现在纠结的点是:这个项目对本地部署要求比较高。因为强依赖 ASR 等模型,体验比较依赖 GPU 。如果走 API ,成本又不低,我这边估算大概 1 元 / 小时音频,长期用下来并不便宜。 所以我有点犹豫: 这种强依赖本地模型和 GPU 的项目,开源对大家还有意义吗? 如果很多人没有合适的显卡,项目会不会只能停留在“看起来不错,但跑不起来”? 如果我只把工作流、代码结构、模型适配层、数据处理逻辑开源,模型让用户自己选择,这样是否有价值? 是否应该同时支持本地模型和 API 模式,哪怕 API 成本较高? 对这种项目来说,大家更关心一键部署,还是更关心架构和实现思路? 我目前的想法是,如果开源,会尽量把边界写清楚: 本地部署需要一定 GPU API 模式可以跑,但成本需要用户自己评估 项目重点是音频处理工作流和知识库构建逻辑 模型可以替换,不绑定某一个具体供应商 想问问大家:如果你们看到这样的项目,会觉得有参考价值吗?还是说部署门槛太高,开源意义有限? 也欢迎有类似需求的朋友聊聊你们的使用场景
大家好,最近做了一套本地音频处理 + 伪知识库的应用,想听听大家对开源价值的看法。 这个项目大概做的是: 导入音频 / 视频,通过 ASR 模型转录 对转录文本做切分、整理、结构化 生成一个偏“伪知识库”的索引 它更像是一套完整工作流,而不是单一工具。核心价值在于把音频资料转成可检索、可复用的个人知识资产。 现在纠结的点是:这个项目对本地部署要求比较高。因为强依赖 ASR 等模型,体验比较依赖 GPU 。如果走 API ,成本又不低,我这边估算大概 1 元 / 小时音频,长期用下来并不便宜。 所以我有点犹豫: 这种强依赖本地模型和 GPU 的项目,开源对大家还有意义吗? 如果很多人没有合适的显卡,项目会不会只能停留在“看起来不错,但跑不起来”? 如果我只把工作流、代码结构、模型适配层、数据处理逻辑开源,模型让用户自己选择,这样是否有价值? 是否应该同时支持本地模型和 API 模式,哪怕 API 成本较高? 对这种项目来说,大家更关心一键部署,还是更关心架构和实现思路? 我目前的想法是,如果开源,会尽量把边界写清楚: 本地部署需要一定 GPU API 模式可以跑,但成本需要用户自己评估 项目重点是音频处理工作流和知识库构建逻辑 模型可以替换,不绑定某一个具体供应商 想问问大家:如果你们看到这样的项目,会觉得有参考价值吗?还是说部署门槛太高,开源意义有限? 也欢迎有类似需求的朋友聊聊你们的使用场景
大家好,最近做了一套本地音频处理 + 伪知识库的应用,想听听大家对开源价值的看法。 这个项目大概做的是: 导入音频 / 视频,通过 ASR 模型转录 对转录文本做切分、整理、结构化 生成一个偏“伪知识库”的索引 它更像是一套完整工作流,而不是单一工具。核心价值在于把音频资料转成可检索、可复用的个人知识资产。 现在纠结的点是:这个项目对本地部署要求比较高。因为强依赖 ASR 等模型,体验比较依赖 GPU 。如果走 API ,成本又不低,我这边估算大概 1 元 / 小时音频,长期用下来并不便宜。 所以我有点犹豫: 这种强依赖本地模型和 GPU 的项目,开源对大家还有意义吗? 如果很多人没有合适的显卡,项目会不会只能停留在“看起来不错,但跑不起来”? 如果我只把工作流、代码结构、模型适配层、数据处理逻辑开源,模型让用户自己选择,这样是否有价值? 是否应该同时支持本地模型和 API 模式,哪怕 API 成本较高? 对这种项目来说,大家更关心一键部署,还是更关心架构和实现思路? 我目前的想法是,如果开源,会尽量把边界写清楚: 本地部署需要一定 GPU API 模式可以跑,但成本需要用户自己评估 项目重点是音频处理工作流和知识库构建逻辑 模型可以替换,不绑定某一个具体供应商 想问问大家:如果你们看到这样的项目,会觉得有参考价值吗?还是说部署门槛太高,开源意义有限? 也欢迎有类似需求的朋友聊聊你们的使用场景
大家好,最近做了一套本地音频处理 + 伪知识库的应用,想听听大家对开源价值的看法。 这个项目大概做的是: 导入音频 / 视频,通过 ASR 模型转录 对转录文本做切分、整理、结构化 生成一个偏“伪知识库”的索引 它更像是一套完整工作流,而不是单一工具。核心价值在于把音频资料转成可检索、可复用的个人知识资产。 现在纠结的点是:这个项目对本地部署要求比较高。因为强依赖 ASR 等模型,体验比较依赖 GPU 。如果走 API ,成本又不低,我这边估算大概 1 元 / 小时音频,长期用下来并不便宜。 所以我有点犹豫: 这种强依赖本地模型和 GPU 的项目,开源对大家还有意义吗? 如果很多人没有合适的显卡,项目会不会只能停留在“看起来不错,但跑不起来”? 如果我只把工作流、代码结构、模型适配层、数据处理逻辑开源,模型让用户自己选择,这样是否有价值? 是否应该同时支持本地模型和 API 模式,哪怕 API 成本较高? 对这种项目来说,大家更关心一键部署,还是更关心架构和实现思路? 我目前的想法是,如果开源,会尽量把边界写清楚: 本地部署需要一定 GPU API 模式可以跑,但成本需要用户自己评估 项目重点是音频处理工作流和知识库构建逻辑 模型可以替换,不绑定某一个具体供应商 想问问大家:如果你们看到这样的项目,会觉得有参考价值吗?还是说部署门槛太高,开源意义有限? 也欢迎有类似需求的朋友聊聊你们的使用场景
大家好,最近做了一套本地音频处理 + 伪知识库的应用,想听听大家对开源价值的看法。 这个项目大概做的是: 导入音频 / 视频,通过 ASR 模型转录 对转录文本做切分、整理、结构化 生成一个偏“伪知识库”的索引 它更像是一套完整工作流,而不是单一工具。核心价值在于把音频资料转成可检索、可复用的个人知识资产。 现在纠结的点是:这个项目对本地部署要求比较高。因为强依赖 ASR 等模型,体验比较依赖 GPU 。如果走 API ,成本又不低,我这边估算大概 1 元 / 小时音频,长期用下来并不便宜。 所以我有点犹豫: 这种强依赖本地模型和 GPU 的项目,开源对大家还有意义吗? 如果很多人没有合适的显卡,项目会不会只能停留在“看起来不错,但跑不起来”? 如果我只把工作流、代码结构、模型适配层、数据处理逻辑开源,模型让用户自己选择,这样是否有价值? 是否应该同时支持本地模型和 API 模式,哪怕 API 成本较高? 对这种项目来说,大家更关心一键部署,还是更关心架构和实现思路? 我目前的想法是,如果开源,会尽量把边界写清楚: 本地部署需要一定 GPU API 模式可以跑,但成本需要用户自己评估 项目重点是音频处理工作流和知识库构建逻辑 模型可以替换,不绑定某一个具体供应商 想问问大家:如果你们看到这样的项目,会觉得有参考价值吗?还是说部署门槛太高,开源意义有限? 也欢迎有类似需求的朋友聊聊你们的使用场景
大家好,最近做了一套本地音频处理 + 伪知识库的应用,想听听大家对开源价值的看法。 这个项目大概做的是: 导入音频 / 视频,通过 ASR 模型转录 对转录文本做切分、整理、结构化 生成一个偏“伪知识库”的索引 它更像是一套完整工作流,而不是单一工具。核心价值在于把音频资料转成可检索、可复用的个人知识资产。 现在纠结的点是:这个项目对本地部署要求比较高。因为强依赖 ASR 等模型,体验比较依赖 GPU 。如果走 API ,成本又不低,我这边估算大概 1 元 / 小时音频,长期用下来并不便宜。 所以我有点犹豫: 这种强依赖本地模型和 GPU 的项目,开源对大家还有意义吗? 如果很多人没有合适的显卡,项目会不会只能停留在“看起来不错,但跑不起来”? 如果我只把工作流、代码结构、模型适配层、数据处理逻辑开源,模型让用户自己选择,这样是否有价值? 是否应该同时支持本地模型和 API 模式,哪怕 API 成本较高? 对这种项目来说,大家更关心一键部署,还是更关心架构和实现思路? 我目前的想法是,如果开源,会尽量把边界写清楚: 本地部署需要一定 GPU API 模式可以跑,但成本需要用户自己评估 项目重点是音频处理工作流和知识库构建逻辑 模型可以替换,不绑定某一个具体供应商 想问问大家:如果你们看到这样的项目,会觉得有参考价值吗?还是说部署门槛太高,开源意义有限? 也欢迎有类似需求的朋友聊聊你们的使用场景
大家好,最近做了一套本地音频处理 + 伪知识库的应用,想听听大家对开源价值的看法。 这个项目大概做的是: 导入音频 / 视频,通过 ASR 模型转录 对转录文本做切分、整理、结构化 生成一个偏“伪知识库”的索引 它更像是一套完整工作流,而不是单一工具。核心价值在于把音频资料转成可检索、可复用的个人知识资产。 现在纠结的点是:这个项目对本地部署要求比较高。因为强依赖 ASR 等模型,体验比较依赖 GPU 。如果走 API ,成本又不低,我这边估算大概 1 元 / 小时音频,长期用下来并不便宜。 所以我有点犹豫: 这种强依赖本地模型和 GPU 的项目,开源对大家还有意义吗? 如果很多人没有合适的显卡,项目会不会只能停留在“看起来不错,但跑不起来”? 如果我只把工作流、代码结构、模型适配层、数据处理逻辑开源,模型让用户自己选择,这样是否有价值? 是否应该同时支持本地模型和 API 模式,哪怕 API 成本较高? 对这种项目来说,大家更关心一键部署,还是更关心架构和实现思路? 我目前的想法是,如果开源,会尽量把边界写清楚: 本地部署需要一定 GPU API 模式可以跑,但成本需要用户自己评估 项目重点是音频处理工作流和知识库构建逻辑 模型可以替换,不绑定某一个具体供应商 想问问大家:如果你们看到这样的项目,会觉得有参考价值吗?还是说部署门槛太高,开源意义有限? 也欢迎有类似需求的朋友聊聊你们的使用场景
大家好,最近做了一套本地音频处理 + 伪知识库的应用,想听听大家对开源价值的看法。 这个项目大概做的是: 导入音频 / 视频,通过 ASR 模型转录 对转录文本做切分、整理、结构化 生成一个偏“伪知识库”的索引 它更像是一套完整工作流,而不是单一工具。核心价值在于把音频资料转成可检索、可复用的个人知识资产。 现在纠结的点是:这个项目对本地部署要求比较高。因为强依赖 ASR 等模型,体验比较依赖 GPU 。如果走 API ,成本又不低,我这边估算大概 1 元 / 小时音频,长期用下来并不便宜。 所以我有点犹豫: 这种强依赖本地模型和 GPU 的项目,开源对大家还有意义吗? 如果很多人没有合适的显卡,项目会不会只能停留在“看起来不错,但跑不起来”? 如果我只把工作流、代码结构、模型适配层、数据处理逻辑开源,模型让用户自己选择,这样是否有价值? 是否应该同时支持本地模型和 API 模式,哪怕 API 成本较高? 对这种项目来说,大家更关心一键部署,还是更关心架构和实现思路? 我目前的想法是,如果开源,会尽量把边界写清楚: 本地部署需要一定 GPU API 模式可以跑,但成本需要用户自己评估 项目重点是音频处理工作流和知识库构建逻辑 模型可以替换,不绑定某一个具体供应商 想问问大家:如果你们看到这样的项目,会觉得有参考价值吗?还是说部署门槛太高,开源意义有限? 也欢迎有类似需求的朋友聊聊你们的使用场景