求推荐：适合中文有声书旁白配音的 TTS 模型/方案

发布时间：2026-05-25T14:26:00+08:00 阅读：0 分类：tech

求推荐：适合中文有声书旁白配音的 TTS 模型/方案

我现在在做有声书/故事类内容的自动配音。角色对白部分目前问题不大，因为每个角色说的话相对短，TTS 的情绪、音色和表现力比较容易控制，效果也还可以。现在主要卡在"旁白"上，因为旁白文本通常很长，需要承担大量叙述、转场、气氛铺垫和情绪推进。

如果直接用普通 TTS 生成，常见问题是：

语调太平，像播报或机械朗读；
长文本情绪不稳定，前后听感不一致；
缺少有声书旁白需要的节奏感、停顿和抑扬顿挫；
语速、段落停顿、情绪推进不太好控制；
分段生成再拼接时，容易出现语气断裂或衔接不自然。

我想找的是更适合"中文有声书旁白"的 TTS 模型或生成方案。目标效果大概是：

普通话清晰，适合长时间听；
语速可控，不能太快；
情绪有层次，但不要戏剧化过头；
有自然停顿和叙述节奏；
能稳定处理较长旁白文本；
最好能通过 prompt / instruction 控制旁白风格。

想求助各位佬：有没有适合中文有声书旁白的 TTS 模型或方案推荐？

1 个帖子 - 1 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文