求推荐:适合中文有声书旁白配音的 TTS 模型/方案

求推荐:适合中文有声书旁白配音的 TTS 模型/方案
求推荐:适合中文有声书旁白配音的 TTS 模型/方案

我现在在做有声书/故事类内容的自动配音。角色对白部分目前问题不大,因为每个角色说的话相对短,TTS 的情绪、音色和表现力比较容易控制,效果也还可以。现在主要卡在"旁白"上,因为旁白文本通常很长,需要承担大量叙述、转场、气氛铺垫和情绪推进。

如果直接用普通 TTS 生成,常见问题是:

  1. 语调太平,像播报或机械朗读;
  2. 长文本情绪不稳定,前后听感不一致;
  3. 缺少有声书旁白需要的节奏感、停顿和抑扬顿挫;
  4. 语速、段落停顿、情绪推进不太好控制;
  5. 分段生成再拼接时,容易出现语气断裂或衔接不自然。

我想找的是更适合"中文有声书旁白"的 TTS 模型或生成方案。目标效果大概是:

  1. 普通话清晰,适合长时间听;
  2. 语速可控,不能太快;
  3. 情绪有层次,但不要戏剧化过头;
  4. 有自然停顿和叙述节奏;
  5. 能稳定处理较长旁白文本;
  6. 最好能通过 prompt / instruction 控制旁白风格。

想求助各位佬:有没有适合中文有声书旁白的 TTS 模型或方案推荐?

1 个帖子 - 1 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文