WWW.YOUINFO.SITE
标签聚合 tts

/tag/tts

LinuxDo 最新话题 · 2026-06-10 17:37:55+08:00 · tech

本帖使用社区公益推广,符合推广要求。我申明并遵循社区要求的以下内容: 我的项目是免费使用的,无收费(变相收费、赞助)部分: 是 我的帖子已经打上 公益推广 标签: 是 我的项目属于个人项目,与公司或商业机构无关: 是 我的项目不存在QQ、TG等群组引流: 是 我的项目不存在非运营必要的网站引流: 是 我的项目不存在为他人推广、AFF: 是 我的项目无关联的商业项目: 是 我的站点存在登录,并已接入 LINUX DO Connect: 是 我帖子内的项目介绍,AI生成、润色内容部分已截图发出: 是 以上选择我承诺是永久有效的,接受社区和佬友监督: 是 以下为项目介绍正文内容,AI生成、润色内容已使用截图方式发出 https://tts.cngov.cc.cd/ 使用Linux.do账号登录即可获得,每天50次免费生成机会,欢迎体验,玩的开心 14 个帖子 - 8 位参与者 阅读完整话题

v2ex · 2026-05-31 23:11:15+08:00 · tech

最近这一年的语音技术,包括 stt 和 tts 发展的都很快,市面上也出现了想 typeless 这类 voice 的 ai 产品形态,但是像是电影里面那种 jarvis 或者 samantha 形态的产品似乎还没怎么出现。 想问问 v 友们是怎么看待语音交互这种形态的,类似的场景可能是如果有一封邮件进来,然后直接说一句话,ai 就能帮你处理好这样。但是语音这种低信息密度的形式,能够支撑这样的产品吗?我对这些还是挺疑惑的。

v2ex · 2026-05-31 19:37:50+08:00 · tech

最近这一年的语音技术,包括 stt 和 tts 发展的都很快,市面上也出现了想 typeless 这类 voice 的 ai 产品形态,但是像是电影里面那种 jarvis 或者 samantha 形态的产品似乎还没怎么出现。 想问问 v 友们是怎么看待语音交互这种形态的,类似的场景可能是如果有一封邮件进来,然后直接说一句话,ai 就能帮你处理好这样。但是语音这种低信息密度的形式,能够支撑这样的产品吗?我对这些还是挺疑惑的。

v2ex · 2026-05-31 19:37:50+08:00 · tech

最近这一年的语音技术,包括 stt 和 tts 发展的都很快,市面上也出现了想 typeless 这类 voice 的 ai 产品形态,但是像是电影里面那种 jarvis 或者 samantha 形态的产品似乎还没怎么出现。 想问问 v 友们是怎么看待语音交互这种形态的,类似的场景可能是如果有一封邮件进来,然后直接说一句话,ai 就能帮你处理好这样。但是语音这种低信息密度的形式,能够支撑这样的产品吗?我对这些还是挺疑惑的。

v2ex · 2026-05-31 18:01:28+08:00 · tech

最近这一年的语音技术,包括 stt 和 tts 发展的都很快,市面上也出现了想 typeless 这类 voice 的 ai 产品形态,但是像是电影里面那种 jarvis 或者 samantha 形态的产品似乎还没怎么出现。 想问问 v 友们是怎么看待语音交互这种形态的,类似的场景可能是如果有一封邮件进来,然后直接说一句话,ai 就能帮你处理好这样。但是语音这种低信息密度的形式,能够支撑这样的产品吗?我对这些还是挺疑惑的。

v2ex · 2026-05-31 15:07:12+08:00 · tech

最近这一年的语音技术,包括 stt 和 tts 发展的都很快,市面上也出现了想 typeless 这类 voice 的 ai 产品形态,但是像是电影里面那种 jarvis 或者 samantha 形态的产品似乎还没怎么出现。 想问问 v 友们是怎么看待语音交互这种形态的,类似的场景可能是如果有一封邮件进来,然后直接说一句话,ai 就能帮你处理好这样。但是语音这种低信息密度的形式,能够支撑这样的产品吗?我对这些还是挺疑惑的。

LinuxDo 最新话题 · 2026-05-27 21:35:47+08:00 · tech

本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容: 我的帖子已经打上 开源推广 标签: 是 我的开源项目完整开源,无未开源部分: 是 我的开源项目已链接认可 LINUX DO 社区: 是 我帖子内的项目介绍,AI生成、润色内容部分已截图发出: 是 以上选择我承诺是永久有效的,接受社区和佬友监督: 是 以下为项目介绍正文内容,AI生成、润色内容已使用截图方式发出 这阵子mimo api-key都用不完是吧?用各位佬无私提供的mimo key手搓了一个声音克隆voice clone的项目,话说你们都要蹬2.5pro的模型吧?模型列表里的mimo-v2.5-tts-voiceclone效果也非常棒,克隆出来的效果也很出色。废话不多说,上个demo 预览地址,点我立马试试看 可以我内置的apikey,都是各位佬提供的,不保证额度一直够。如果不够或者蹬完了,也可以在页面最下方用自己的key和url,代码开源,不会保留或传播你的key。 如果觉得不错的,只求给我的项目点个小星星 项目地址 GitHub - wj6015/mimo-clone · GitHub 4 个帖子 - 3 位参与者 阅读完整话题

LinuxDo 最新话题 · 2026-05-26 21:55:37+08:00 · tech

MOSS-TTS-v1.5 当前支持 31 种语言 。它保留了 MOSS-TTS 1.0 支持的 20 种语言,并继续训练扩展到粤语、荷兰语、芬兰语、印地语、马其顿语、马来语、罗马尼亚语、斯瓦希里语、他加禄语、泰语和越南语。 仓库: GitHub - OpenMOSS/MOSS-TTS: MOSS‑TTS Family is an open‑source speech and sound generation model family from MOSI.AI and the OpenMOSS team. It is designed for high‑fidelity, high‑expressiveness, and complex real‑world scenarios, covering stable long‑form speech, multi‑speaker dialogue, voice/character design, environmental sound effects, and real‑time streaming TTS. · GitHub huggingface: OpenMOSS-Team/MOSS-TTS-v1.5 · Hugging Face 魔搭: MOSS-TTS-v1.5 PS:当前TTS也是疯狂迭代起来了 希望有更小更快更好的模型~ 2 个帖子 - 2 位参与者 阅读完整话题

LinuxDo 最新话题 · 2026-05-26 15:03:09+08:00 · tech

本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容: 我的帖子已经打上 开源推广 标签: 是 我的开源项目完整开源,无未开源部分: 是 我的开源项目已链接认可 LINUX DO 社区: 是 我帖子内的项目介绍,AI生成、润色内容部分已截图发出: 是 以上选择我承诺是永久有效的,接受社区和佬友监督: 是 以下为项目介绍正文内容,AI生成、润色内容已使用截图方式发出 Bob 很好用,懂得都懂,但是自带的离线语音合成读起来就很机械。 后来偶然间了解到了 edge-tts(Edge浏览器的朗读功能),就想着能不能把它集成到 Bob 中,让 Bob 用户也能享受到大模块或者说带有情感的朗读。 其实之前随便写了写,一直自用的。在网上搜了搜相关插件很少或者说都不能用了,现在重新拿出来并调研了网上的几种逆向方案实现,做了个插件分享给大家和需要的朋友。 github.com GitHub - zpj80231/bob-plugin-microsoft-tts: 基于 Microsoft Azure / Edge TTS 的免 API Key 文字转语音 Bob... 基于 Microsoft Azure / Edge TTS 的免 API Key 文字转语音 Bob 插件 支持 Edge TTS、Azure 认知服务、Azure 体验服务和 OpenAI 兼容网关四种合成方案。 支持简体中文、繁体中文、英语、日语、韩语常用语音。 支持情感风格、语速、音调、音量和输出音质配置。 支持长文本自动分块、并发合成和音频拼接。 内置 429 限流和 5xx 服务端错误的指数退避重试。 1 个帖子 - 1 位参与者 阅读完整话题

v2ex · 2026-05-26 01:38:17+08:00 · tech

MOSS-TTS-Nano Web 工具:本地部署的轻量级语音合成方案 概述 MOSS-TTS-Nano 来自 MOSI.AI / OpenMOSS 团队,属于 MOSS-TTS 系列里的轻量版本。官方介绍里说它是一个开源多语言小型语音生成模型,参数量大约 0.1B ,也就是 1 亿参数级别,目标就是实时语音生成、CPU 可运行、部署简单,所以我尝试用了自己的小水管服务器部署了下,感觉还不错。 核心特性 本地推理 :所有语音合成在本地完成,数据不出网,无第三方 API 调用 29 种预置音色 :覆盖中文、英文、日语、韩语、法语、德语等 10+ 语言的多口音音色 WAV 无损输出 :48kHz 采样率,支持音频元信息解析(时长、声道数、采样率) 使用方式 浏览器打开工具页面: 输入文本(支持中英文及多语言) 选择音色 点击生成,等待合成完成 在线试听或下载 WAV 文件 点我跳转: 文字转语音工具

v2ex · 2026-05-26 00:38:17+08:00 · tech

MOSS-TTS-Nano Web 工具:本地部署的轻量级语音合成方案 概述 MOSS-TTS-Nano 来自 MOSI.AI / OpenMOSS 团队,属于 MOSS-TTS 系列里的轻量版本。官方介绍里说它是一个开源多语言小型语音生成模型,参数量大约 0.1B ,也就是 1 亿参数级别,目标就是实时语音生成、CPU 可运行、部署简单,所以我尝试用了自己的小水管服务器部署了下,感觉还不错。 核心特性 本地推理 :所有语音合成在本地完成,数据不出网,无第三方 API 调用 29 种预置音色 :覆盖中文、英文、日语、韩语、法语、德语等 10+ 语言的多口音音色 WAV 无损输出 :48kHz 采样率,支持音频元信息解析(时长、声道数、采样率) 使用方式 浏览器打开工具页面: 输入文本(支持中英文及多语言) 选择音色 点击生成,等待合成完成 在线试听或下载 WAV 文件 点我跳转: 文字转语音工具