我现在在做有声书/故事类内容的自动配音。角色对白部分目前问题不大,因为每个角色说的话相对短,TTS 的情绪、音色和表现力比较容易控制,效果也还可以。现在主要卡在"旁白"上,因为旁白文本通常很长,需要承担大量叙述、转场、气氛铺垫和情绪推进。
如果直接用普通 TTS 生成,常见问题是:
- 语调太平,像播报或机械朗读;
- 长文本情绪不稳定,前后听感不一致;
- 缺少有声书旁白需要的节奏感、停顿和抑扬顿挫;
- 语速、段落停顿、情绪推进不太好控制;
- 分段生成再拼接时,容易出现语气断裂或衔接不自然。
我想找的是更适合"中文有声书旁白"的 TTS 模型或生成方案。目标效果大概是:
- 普通话清晰,适合长时间听;
- 语速可控,不能太快;
- 情绪有层次,但不要戏剧化过头;
- 有自然停顿和叙述节奏;
- 能稳定处理较长旁白文本;
- 最好能通过 prompt / instruction 控制旁白风格。
想求助各位佬:有没有适合中文有声书旁白的 TTS 模型或方案推荐?
1 个帖子 - 1 位参与者