IT之家 5 月 21 日消息,腾讯会议今日宣布「AI 同传」正式上线,可模仿用户音色、时延低于 3 秒,发言和翻译几乎同步。 据介绍,该功能不用插件、不用外接设备,会议里的每一位参会者, 都能独立开启属于自己的「AI 同传」 ,你听你想听的语言,他听他想听的语言,每个人的发言都被清晰对应、精准传递。开启「模仿你的音色」后,在收听者一侧,就像你本人正在用一口流利的英文亲口在说话。 腾讯会议 AI 同传能做到时延低于 3 秒, 发言和翻译几乎同步, 跨语言对话可以像母语沟通一样连续地流动起来。 腾讯会议 AI 同传 支持调节同传与原声音量 。在一些重要的会议场合,收听方可保留一定的原声音量,方便实时核验关键信息有没有被准确传达;而在更多的日常沟通中,原声直接关掉,让双方对话节奏更干净。 进入会议后,点击下方工具栏-应用-开启 AI 同传。若需要对 AI 同传进行设置,点击上方“正在同传”图标,即可设置。 IT之家注意到,腾讯会议 AI 同传和原来就有的 文字转写、会中字幕 已经完整打通。在同一场跨语言会议里,可听、可译、可见、可记,四个维度同时在线。
IT之家 5 月 20 日消息,据通义实验室消息,通义千问团队发布了 Qwen3.5-LiveTranslate-Flash 实时语音翻译模型,该模型在语种覆盖、延迟控制和音色保留等方面实现显著突破,旨在解决跨境直播、跨国会议等场景中的实时同传痛点。 IT之家附官方详细介绍如下: 跨境直播卡顿、跨国会议延迟、AI 配音“机器感”太重…… 实时同传一直卡在“延迟、语种、音色”三大痛点。 Qwen3.5-LiveTranslate-Flash 给出了解决方案: 支持 60 种语言的音频输入和文字输出,29 种语言的音频输出,端到端字均延迟低至 2.8 秒,还能保留说话人的原声特征。 核心亮点速览 Qwen3.5-LiveTranslate 输入音频和输出文本语种从 18 种提升至 60 种,输出音频从 10 种提升至 29 种; 语音同传字均延迟降低至 2.8 秒; 支持实时音色克隆,翻译后仍保留说话人原声特征; 内置热词能力,专有名词和行业术语翻译更精准。 Qwen3.5-LiveTranslate 能听懂和翻译 60 种语言,其中 29 种可以实现语音输出。输入音频和输出文本语种从 18 个大幅提升至 60 个,输出音频语向从 10 个提升至 29 个,覆盖更多国家与区域的语言互译组合,满足跨境会议、直播出海、在线课堂、商务谈判等多语同传需求。 引入全新 Readable Unit(可读单元)实时翻译技术,在保证译文可读性与语义连贯的前提下,实现更激进的流式输出。端到端字均延迟降低到 2.8 秒,适用于直播、连麦、发布会等对时延极敏感的场景。 支持 Real-time Voice Cloning(动态跨语言音色克隆)。在同传过程中自动捕捉并复刻说话人音色特征,译文在不同语言间依旧保持“同一个人”的声音质感与情绪表现力。主播、嘉宾、主持人的身份一致性大幅提升,沉浸感拉满。 内置动态热词(Hotword)引擎,最高支持 1000 个自定义词条。对人名、地名、品牌、产品型号、行业术语进行优先识别与优先翻译。支持场景动态配置与实时更新,显著降低技术发布会、医疗 / 法律 / 金融会议、企业内训中“术语翻错、名字听错”的风险。 我们将模型放入高频实战环境,复杂场景依旧稳定发挥: 跨国会议 & 出境旅游 多语混说 / 复杂口音:会议室多语种交替发言、带口音表达,模型精准切分并同步译。 智能硬件落地:搭配千问 AI 眼镜在泰国点餐实测,语音交互 + 实时同传无缝衔接,沟通零障碍。 直播带货 & 影视出海 数字与规格精准翻译:直播连麦中,商品参数、价格、折扣数字翻译准确率极高,带货宣发不断档。 古文 / 文化内容同传:准确理解并翻译古典文言文,语义连贯且保留文化韵味,字幕与配音同步流畅。 视觉消歧辅助 结合多模态理解能力,在语境模糊时自动引入视觉信息辅助判断,大幅降低“一词多义”导致的翻译歧义。 在公开多语言语音翻译基准(FLEURS、CoVoST2)上,Qwen3.5-LiveTranslate-Flash 翻译准确率优于当前主流语音大模型,显著优于前代 Qwen3-LiveTranslate-Flash,在语言覆盖和翻译质量上均实现突破。 凭借可读单元流式策略,Qwen3.5-LiveTranslate-Flash 相比 Qwen3-LiveTranslate-Flash 将首字延迟降低 3.45 秒、字均延迟降低 1.88 秒,最终实现端到端字均延迟 2.8 秒,翻译质量几乎无损。 相比上一代,Qwen3.5-LiveTranslate-Flash 在核心参数与功能上实现了全面进阶,详细对比如下: Qwen3.5-LiveTranslate 是基于 Qwen3.5-Omni Thinker-Talker 架构打造的翻译大模型。面向同声传译场景,我们采用 chunk-wise 流式输入机制,引入可读单元来控制语音合成粒度,在保证同传体感的同时有效降低时延。此外,借助动态跨语言音色克隆技术,模型在翻译时能够实时识别并模仿说话人的原始音色。 从“能翻译”到“实时同传”,Qwen3.5-LiveTranslate-Flash 用更低延迟、更多语种、更自然音色,为跨境协作、内容出海、智能硬件提供新一代语音基础设施。 立即体验 Blog: https://qwen.ai/blog?id=qwen3.5-livetranslate Demo: https://omni.qwen.ai/live-translate 阿里云百炼:即将上线
大家好,我最近做了一个 iPhone App ,叫 NonetPlay 。 它做的事情比较窄:实时语音翻译,但尽量完全在手机本地跑。 起因是我自己有过几次很尴尬的场景:人在路上、地铁里、飞机上,或者网络很差的时候,想用语音翻译,但常见工具要么需要联网,要么离线模式只适合打字翻译,不适合持续对话。 所以我想试一个方向: 如果把语音识别和翻译模型都放到 iPhone 上,能不能做到“够用”的实时沟通? 现在 NonetPlay 的核心能力是: - 语音识别在本地跑 - 翻译模型在本地跑 - 不需要账号 - 不需要把语音传到服务器 - 下载模型后可以在飞行模式下使用 当前版本也有明显边界: - 不是为了替代 DeepL / Google 这种高质量云端翻译 - 模型体积比较大,第一次下载需要耐心 - 离线模型的表达质量肯定不如云端大模型 - 更适合“先能沟通”,不适合严肃法律 / 医疗文本翻译 App Store: https://apps.apple.com/us/app/nonetplay-ai-interpreter/id6761640051 我现在最想问 V 友两个问题: 1. 你们有没有真实遇到过“需要语音翻译,但网络或隐私不允许上传音频”的场景? 2. 如果离线翻译质量只能做到“沟通够用”,你们会接受吗,还是宁愿继续用云端工具? 如果有人对 iPhone 端侧模型、模型下载、延迟或电量有兴趣,我也可以展开讲一些实现取舍。 App Store 页面截图:
大家好,我最近做了一个 iPhone App ,叫 NonetPlay 。 它做的事情比较窄:实时语音翻译,但尽量完全在手机本地跑。 起因是我自己有过几次很尴尬的场景:人在路上、地铁里、飞机上,或者网络很差的时候,想用语音翻译,但常见工具要么需要联网,要么离线模式只适合打字翻译,不适合持续对话。 所以我想试一个方向: 如果把语音识别和翻译模型都放到 iPhone 上,能不能做到“够用”的实时沟通? 现在 NonetPlay 的核心能力是: - 语音识别在本地跑 - 翻译模型在本地跑 - 不需要账号 - 不需要把语音传到服务器 - 下载模型后可以在飞行模式下使用 当前版本也有明显边界: - 不是为了替代 DeepL / Google 这种高质量云端翻译 - 模型体积比较大,第一次下载需要耐心 - 离线模型的表达质量肯定不如云端大模型 - 更适合“先能沟通”,不适合严肃法律 / 医疗文本翻译 App Store: https://apps.apple.com/us/app/nonetplay-ai-interpreter/id6761640051 我现在最想问 V 友两个问题: 1. 你们有没有真实遇到过“需要语音翻译,但网络或隐私不允许上传音频”的场景? 2. 如果离线翻译质量只能做到“沟通够用”,你们会接受吗,还是宁愿继续用云端工具? 如果有人对 iPhone 端侧模型、模型下载、延迟或电量有兴趣,我也可以展开讲一些实现取舍。 App Store 页面截图:
大家好,我最近做了一个 iPhone App ,叫 NonetPlay 。 它做的事情比较窄:实时语音翻译,但尽量完全在手机本地跑。 起因是我自己有过几次很尴尬的场景:人在路上、地铁里、飞机上,或者网络很差的时候,想用语音翻译,但常见工具要么需要联网,要么离线模式只适合打字翻译,不适合持续对话。 所以我想试一个方向: 如果把语音识别和翻译模型都放到 iPhone 上,能不能做到“够用”的实时沟通? 现在 NonetPlay 的核心能力是: - 语音识别在本地跑 - 翻译模型在本地跑 - 不需要账号 - 不需要把语音传到服务器 - 下载模型后可以在飞行模式下使用 当前版本也有明显边界: - 不是为了替代 DeepL / Google 这种高质量云端翻译 - 模型体积比较大,第一次下载需要耐心 - 离线模型的表达质量肯定不如云端大模型 - 更适合“先能沟通”,不适合严肃法律 / 医疗文本翻译 App Store: https://apps.apple.com/us/app/nonetplay-ai-interpreter/id6761640051 我现在最想问 V 友两个问题: 1. 你们有没有真实遇到过“需要语音翻译,但网络或隐私不允许上传音频”的场景? 2. 如果离线翻译质量只能做到“沟通够用”,你们会接受吗,还是宁愿继续用云端工具? 如果有人对 iPhone 端侧模型、模型下载、延迟或电量有兴趣,我也可以展开讲一些实现取舍。 App Store 页面截图:
大家好,我最近做了一个 iPhone App ,叫 NonetPlay 。 它做的事情比较窄:实时语音翻译,但尽量完全在手机本地跑。 起因是我自己有过几次很尴尬的场景:人在路上、地铁里、飞机上,或者网络很差的时候,想用语音翻译,但常见工具要么需要联网,要么离线模式只适合打字翻译,不适合持续对话。 所以我想试一个方向: 如果把语音识别和翻译模型都放到 iPhone 上,能不能做到“够用”的实时沟通? 现在 NonetPlay 的核心能力是: - 语音识别在本地跑 - 翻译模型在本地跑 - 不需要账号 - 不需要把语音传到服务器 - 下载模型后可以在飞行模式下使用 当前版本也有明显边界: - 不是为了替代 DeepL / Google 这种高质量云端翻译 - 模型体积比较大,第一次下载需要耐心 - 离线模型的表达质量肯定不如云端大模型 - 更适合“先能沟通”,不适合严肃法律 / 医疗文本翻译 App Store: https://apps.apple.com/us/app/nonetplay-ai-interpreter/id6761640051 我现在最想问 V 友两个问题: 1. 你们有没有真实遇到过“需要语音翻译,但网络或隐私不允许上传音频”的场景? 2. 如果离线翻译质量只能做到“沟通够用”,你们会接受吗,还是宁愿继续用云端工具? 如果有人对 iPhone 端侧模型、模型下载、延迟或电量有兴趣,我也可以展开讲一些实现取舍。 App Store 页面截图:
大家好,我最近做了一个 iPhone App ,叫 NonetPlay 。 它做的事情比较窄:实时语音翻译,但尽量完全在手机本地跑。 起因是我自己有过几次很尴尬的场景:人在路上、地铁里、飞机上,或者网络很差的时候,想用语音翻译,但常见工具要么需要联网,要么离线模式只适合打字翻译,不适合持续对话。 所以我想试一个方向: 如果把语音识别和翻译模型都放到 iPhone 上,能不能做到“够用”的实时沟通? 现在 NonetPlay 的核心能力是: - 语音识别在本地跑 - 翻译模型在本地跑 - 不需要账号 - 不需要把语音传到服务器 - 下载模型后可以在飞行模式下使用 当前版本也有明显边界: - 不是为了替代 DeepL / Google 这种高质量云端翻译 - 模型体积比较大,第一次下载需要耐心 - 离线模型的表达质量肯定不如云端大模型 - 更适合“先能沟通”,不适合严肃法律 / 医疗文本翻译 App Store: https://apps.apple.com/us/app/nonetplay-ai-interpreter/id6761640051 我现在最想问 V 友两个问题: 1. 你们有没有真实遇到过“需要语音翻译,但网络或隐私不允许上传音频”的场景? 2. 如果离线翻译质量只能做到“沟通够用”,你们会接受吗,还是宁愿继续用云端工具? 如果有人对 iPhone 端侧模型、模型下载、延迟或电量有兴趣,我也可以展开讲一些实现取舍。 App Store 页面截图:
由于工作需要,我经常需要使用同传,目前用下来的对比,如果有佬补充感激不尽 以下只是个人使用后的对比,针对场景主要是实时同传而且尽量免费 我目前使用过的翻译器如下,欧陆,苹果自带,豆包,谷歌翻译,元宝 欧陆词典:识别率不够好,如果有口音基本会跑偏 苹果自带:使用起来不够友好,很容易卡顿 谷歌翻译:速度比较慢,以及翻译出来的中文很离谱,完全读不顺,我有时候还要翻一下原文记录 豆包:速度可以,但是很尴尬会读出来,目前我还不知道怎么取消语音输出,还有一个问题就是无法保留原文 元宝:速度可以,翻译出来的中文也可以,目前用起来最舒服的软件,而且中英记录都会保存下来 总结: 元宝 > 豆包 >= 欧陆 > 谷歌 > 苹果 我目前还没有用过有道和亲爱的翻译官,所以无法对这2者作评价 3 个帖子 - 2 位参与者 阅读完整话题
36氪获悉,5月21日,腾讯会议AI同传功能正式上线,参会者开启后,系统会将发言人的语音进行实时识别和翻译,并合成语音即时播报,传递到会议另一端,首期支持中英双向互译。此外,腾讯会议AI同传能做到时延低于3秒,发言与翻译几乎同步进行。