我现在在做有声书/故事类内容的自动配音。角色对白部分目前问题不大,因为每个角色说的话相对短,TTS 的情绪、音色和表现力比较容易控制,效果也还可以。现在主要卡在"旁白"上,因为旁白文本通常很长,需要承担大量叙述、转场、气氛铺垫和情绪推进。 如果直接用普通 TTS 生成,常见问题是: 语调太平,像播报或机械朗读; 长文本情绪不稳定,前后听感不一致; 缺少有声书旁白需要的节奏感、停顿和抑扬顿挫; 语速、段落停顿、情绪推进不太好控制; 分段生成再拼接时,容易出现语气断裂或衔接不自然。 我想找的是更适合"中文有声书旁白"的 TTS 模型或生成方案。目标效果大概是: 普通话清晰,适合长时间听; 语速可控,不能太快; 情绪有层次,但不要戏剧化过头; 有自然停顿和叙述节奏; 能稳定处理较长旁白文本; 最好能通过 prompt / instruction 控制旁白风格。 想求助各位佬:有没有适合中文有声书旁白的 TTS 模型或方案推荐? 1 个帖子 - 1 位参与者 阅读完整话题
有请彦祖
有请彦祖
有请彦祖