同传 - WWW.YOUINFO.SITE - WWW.YOUINFO.SITE

IT之家 · 2026-05-21 15:55:07+08:00 · tech

IT之家 5 月 21 日消息，腾讯会议今日宣布「AI 同传」正式上线，可模仿用户音色、时延低于 3 秒，发言和翻译几乎同步。据介绍，该功能不用插件、不用外接设备，会议里的每一位参会者，都能独立开启属于自己的「AI 同传」，你听你想听的语言，他听他想听的语言，每个人的发言都被清晰对应、精准传递。开启「模仿你的音色」后，在收听者一侧，就像你本人正在用一口流利的英文亲口在说话。腾讯会议 AI 同传能做到时延低于 3 秒，发言和翻译几乎同步，跨语言对话可以像母语沟通一样连续地流动起来。腾讯会议 AI 同传支持调节同传与原声音量。在一些重要的会议场合，收听方可保留一定的原声音量，方便实时核验关键信息有没有被准确传达；而在更多的日常沟通中，原声直接关掉，让双方对话节奏更干净。进入会议后，点击下方工具栏-应用-开启 AI 同传。若需要对 AI 同传进行设置，点击上方“正在同传”图标，即可设置。 IT之家注意到，腾讯会议 AI 同传和原来就有的文字转写、会中字幕已经完整打通。在同一场跨语言会议里，可听、可译、可见、可记，四个维度同时在线。

AI 同传 2.8 秒延迟，阿里通义千问发布实时语音翻译模型 Qwen3.5-LiveTranslate

IT之家 · 2026-05-20 15:43:24+08:00 · tech

IT之家 5 月 20 日消息，据通义实验室消息，通义千问团队发布了 Qwen3.5-LiveTranslate-Flash 实时语音翻译模型，该模型在语种覆盖、延迟控制和音色保留等方面实现显著突破，旨在解决跨境直播、跨国会议等场景中的实时同传痛点。 IT之家附官方详细介绍如下：跨境直播卡顿、跨国会议延迟、AI 配音“机器感”太重…… 实时同传一直卡在“延迟、语种、音色”三大痛点。 Qwen3.5-LiveTranslate-Flash 给出了解决方案：支持 60 种语言的音频输入和文字输出，29 种语言的音频输出，端到端字均延迟低至 2.8 秒，还能保留说话人的原声特征。核心亮点速览 Qwen3.5-LiveTranslate 输入音频和输出文本语种从 18 种提升至 60 种，输出音频从 10 种提升至 29 种；语音同传字均延迟降低至 2.8 秒；支持实时音色克隆，翻译后仍保留说话人原声特征；内置热词能力，专有名词和行业术语翻译更精准。 Qwen3.5-LiveTranslate 能听懂和翻译 60 种语言，其中 29 种可以实现语音输出。输入音频和输出文本语种从 18 个大幅提升至 60 个，输出音频语向从 10 个提升至 29 个，覆盖更多国家与区域的语言互译组合，满足跨境会议、直播出海、在线课堂、商务谈判等多语同传需求。引入全新 Readable Unit（可读单元）实时翻译技术，在保证译文可读性与语义连贯的前提下，实现更激进的流式输出。端到端字均延迟降低到 2.8 秒，适用于直播、连麦、发布会等对时延极敏感的场景。支持 Real-time Voice Cloning（动态跨语言音色克隆）。在同传过程中自动捕捉并复刻说话人音色特征，译文在不同语言间依旧保持“同一个人”的声音质感与情绪表现力。主播、嘉宾、主持人的身份一致性大幅提升，沉浸感拉满。内置动态热词（Hotword）引擎，最高支持 1000 个自定义词条。对人名、地名、品牌、产品型号、行业术语进行优先识别与优先翻译。支持场景动态配置与实时更新，显著降低技术发布会、医疗 / 法律 / 金融会议、企业内训中“术语翻错、名字听错”的风险。我们将模型放入高频实战环境，复杂场景依旧稳定发挥：跨国会议 & 出境旅游多语混说 / 复杂口音：会议室多语种交替发言、带口音表达，模型精准切分并同步译。智能硬件落地：搭配千问 AI 眼镜在泰国点餐实测，语音交互 + 实时同传无缝衔接，沟通零障碍。直播带货 & 影视出海数字与规格精准翻译：直播连麦中，商品参数、价格、折扣数字翻译准确率极高，带货宣发不断档。古文 / 文化内容同传：准确理解并翻译古典文言文，语义连贯且保留文化韵味，字幕与配音同步流畅。视觉消歧辅助结合多模态理解能力，在语境模糊时自动引入视觉信息辅助判断，大幅降低“一词多义”导致的翻译歧义。在公开多语言语音翻译基准（FLEURS、CoVoST2）上，Qwen3.5-LiveTranslate-Flash 翻译准确率优于当前主流语音大模型，显著优于前代 Qwen3-LiveTranslate-Flash，在语言覆盖和翻译质量上均实现突破。凭借可读单元流式策略，Qwen3.5-LiveTranslate-Flash 相比 Qwen3-LiveTranslate-Flash 将首字延迟降低 3.45 秒、字均延迟降低 1.88 秒，最终实现端到端字均延迟 2.8 秒，翻译质量几乎无损。相比上一代，Qwen3.5-LiveTranslate-Flash 在核心参数与功能上实现了全面进阶，详细对比如下： Qwen3.5-LiveTranslate 是基于 Qwen3.5-Omni Thinker-Talker 架构打造的翻译大模型。面向同声传译场景，我们采用 chunk-wise 流式输入机制，引入可读单元来控制语音合成粒度，在保证同传体感的同时有效降低时延。此外，借助动态跨语言音色克隆技术，模型在翻译时能够实时识别并模仿说话人的原始音色。从“能翻译”到“实时同传”，Qwen3.5-LiveTranslate-Flash 用更低延迟、更多语种、更自然音色，为跨境协作、内容出海、智能硬件提供新一代语音基础设施。立即体验 Blog： https://qwen.ai/blog?id=qwen3.5-livetranslate Demo： https://omni.qwen.ai/live-translate 阿里云百炼：即将上线

[分享创造] 做了个离线 iPhone 同传 App，想听听这个场景是否成立

v2ex · 2026-05-08 01:27:35+08:00 · tech

大家好，我最近做了一个 iPhone App ，叫 NonetPlay 。它做的事情比较窄：实时语音翻译，但尽量完全在手机本地跑。起因是我自己有过几次很尴尬的场景：人在路上、地铁里、飞机上，或者网络很差的时候，想用语音翻译，但常见工具要么需要联网，要么离线模式只适合打字翻译，不适合持续对话。所以我想试一个方向：如果把语音识别和翻译模型都放到 iPhone 上，能不能做到“够用”的实时沟通？现在 NonetPlay 的核心能力是： - 语音识别在本地跑 - 翻译模型在本地跑 - 不需要账号 - 不需要把语音传到服务器 - 下载模型后可以在飞行模式下使用当前版本也有明显边界： - 不是为了替代 DeepL / Google 这种高质量云端翻译 - 模型体积比较大，第一次下载需要耐心 - 离线模型的表达质量肯定不如云端大模型 - 更适合“先能沟通”，不适合严肃法律 / 医疗文本翻译 App Store： https://apps.apple.com/us/app/nonetplay-ai-interpreter/id6761640051 我现在最想问 V 友两个问题： 1. 你们有没有真实遇到过“需要语音翻译，但网络或隐私不允许上传音频”的场景？ 2. 如果离线翻译质量只能做到“沟通够用”，你们会接受吗，还是宁愿继续用云端工具？如果有人对 iPhone 端侧模型、模型下载、延迟或电量有兴趣，我也可以展开讲一些实现取舍。 App Store 页面截图：

[分享创造] 做了个离线 iPhone 同传 App，想听听这个场景是否成立

v2ex · 2026-05-08 00:27:35+08:00 · tech

大家好，我最近做了一个 iPhone App ，叫 NonetPlay 。它做的事情比较窄：实时语音翻译，但尽量完全在手机本地跑。起因是我自己有过几次很尴尬的场景：人在路上、地铁里、飞机上，或者网络很差的时候，想用语音翻译，但常见工具要么需要联网，要么离线模式只适合打字翻译，不适合持续对话。所以我想试一个方向：如果把语音识别和翻译模型都放到 iPhone 上，能不能做到“够用”的实时沟通？现在 NonetPlay 的核心能力是： - 语音识别在本地跑 - 翻译模型在本地跑 - 不需要账号 - 不需要把语音传到服务器 - 下载模型后可以在飞行模式下使用当前版本也有明显边界： - 不是为了替代 DeepL / Google 这种高质量云端翻译 - 模型体积比较大，第一次下载需要耐心 - 离线模型的表达质量肯定不如云端大模型 - 更适合“先能沟通”，不适合严肃法律 / 医疗文本翻译 App Store： https://apps.apple.com/us/app/nonetplay-ai-interpreter/id6761640051 我现在最想问 V 友两个问题： 1. 你们有没有真实遇到过“需要语音翻译，但网络或隐私不允许上传音频”的场景？ 2. 如果离线翻译质量只能做到“沟通够用”，你们会接受吗，还是宁愿继续用云端工具？如果有人对 iPhone 端侧模型、模型下载、延迟或电量有兴趣，我也可以展开讲一些实现取舍。 App Store 页面截图：

[分享创造] 做了个离线 iPhone 同传 App，想听听这个场景是否成立

v2ex · 2026-05-07 23:27:35+08:00 · tech

大家好，我最近做了一个 iPhone App ，叫 NonetPlay 。它做的事情比较窄：实时语音翻译，但尽量完全在手机本地跑。起因是我自己有过几次很尴尬的场景：人在路上、地铁里、飞机上，或者网络很差的时候，想用语音翻译，但常见工具要么需要联网，要么离线模式只适合打字翻译，不适合持续对话。所以我想试一个方向：如果把语音识别和翻译模型都放到 iPhone 上，能不能做到“够用”的实时沟通？现在 NonetPlay 的核心能力是： - 语音识别在本地跑 - 翻译模型在本地跑 - 不需要账号 - 不需要把语音传到服务器 - 下载模型后可以在飞行模式下使用当前版本也有明显边界： - 不是为了替代 DeepL / Google 这种高质量云端翻译 - 模型体积比较大，第一次下载需要耐心 - 离线模型的表达质量肯定不如云端大模型 - 更适合“先能沟通”，不适合严肃法律 / 医疗文本翻译 App Store： https://apps.apple.com/us/app/nonetplay-ai-interpreter/id6761640051 我现在最想问 V 友两个问题： 1. 你们有没有真实遇到过“需要语音翻译，但网络或隐私不允许上传音频”的场景？ 2. 如果离线翻译质量只能做到“沟通够用”，你们会接受吗，还是宁愿继续用云端工具？如果有人对 iPhone 端侧模型、模型下载、延迟或电量有兴趣，我也可以展开讲一些实现取舍。 App Store 页面截图：

[分享创造] 做了个离线 iPhone 同传 App，想听听这个场景是否成立

v2ex · 2026-05-07 23:27:35+08:00 · tech

大家好，我最近做了一个 iPhone App ，叫 NonetPlay 。它做的事情比较窄：实时语音翻译，但尽量完全在手机本地跑。起因是我自己有过几次很尴尬的场景：人在路上、地铁里、飞机上，或者网络很差的时候，想用语音翻译，但常见工具要么需要联网，要么离线模式只适合打字翻译，不适合持续对话。所以我想试一个方向：如果把语音识别和翻译模型都放到 iPhone 上，能不能做到“够用”的实时沟通？现在 NonetPlay 的核心能力是： - 语音识别在本地跑 - 翻译模型在本地跑 - 不需要账号 - 不需要把语音传到服务器 - 下载模型后可以在飞行模式下使用当前版本也有明显边界： - 不是为了替代 DeepL / Google 这种高质量云端翻译 - 模型体积比较大，第一次下载需要耐心 - 离线模型的表达质量肯定不如云端大模型 - 更适合“先能沟通”，不适合严肃法律 / 医疗文本翻译 App Store： https://apps.apple.com/us/app/nonetplay-ai-interpreter/id6761640051 我现在最想问 V 友两个问题： 1. 你们有没有真实遇到过“需要语音翻译，但网络或隐私不允许上传音频”的场景？ 2. 如果离线翻译质量只能做到“沟通够用”，你们会接受吗，还是宁愿继续用云端工具？如果有人对 iPhone 端侧模型、模型下载、延迟或电量有兴趣，我也可以展开讲一些实现取舍。 App Store 页面截图：

[分享创造] 做了个离线 iPhone 同传 App，想听听这个场景是否成立

v2ex · 2026-05-07 22:51:51+08:00 · tech

大家好，我最近做了一个 iPhone App ，叫 NonetPlay 。它做的事情比较窄：实时语音翻译，但尽量完全在手机本地跑。起因是我自己有过几次很尴尬的场景：人在路上、地铁里、飞机上，或者网络很差的时候，想用语音翻译，但常见工具要么需要联网，要么离线模式只适合打字翻译，不适合持续对话。所以我想试一个方向：如果把语音识别和翻译模型都放到 iPhone 上，能不能做到“够用”的实时沟通？现在 NonetPlay 的核心能力是： - 语音识别在本地跑 - 翻译模型在本地跑 - 不需要账号 - 不需要把语音传到服务器 - 下载模型后可以在飞行模式下使用当前版本也有明显边界： - 不是为了替代 DeepL / Google 这种高质量云端翻译 - 模型体积比较大，第一次下载需要耐心 - 离线模型的表达质量肯定不如云端大模型 - 更适合“先能沟通”，不适合严肃法律 / 医疗文本翻译 App Store： https://apps.apple.com/us/app/nonetplay-ai-interpreter/id6761640051 我现在最想问 V 友两个问题： 1. 你们有没有真实遇到过“需要语音翻译，但网络或隐私不允许上传音频”的场景？ 2. 如果离线翻译质量只能做到“沟通够用”，你们会接受吗，还是宁愿继续用云端工具？如果有人对 iPhone 端侧模型、模型下载、延迟或电量有兴趣，我也可以展开讲一些实现取舍。 App Store 页面截图：

目前本人同传翻译器的使用对比

linux.do · 2026-05-05 11:28:56+08:00 · tech

由于工作需要，我经常需要使用同传，目前用下来的对比，如果有佬补充感激不尽以下只是个人使用后的对比，针对场景主要是实时同传而且尽量免费我目前使用过的翻译器如下，欧陆，苹果自带，豆包，谷歌翻译，元宝欧陆词典：识别率不够好，如果有口音基本会跑偏苹果自带：使用起来不够友好，很容易卡顿谷歌翻译：速度比较慢，以及翻译出来的中文很离谱，完全读不顺，我有时候还要翻一下原文记录豆包：速度可以，但是很尴尬会读出来，目前我还不知道怎么取消语音输出，还有一个问题就是无法保留原文元宝：速度可以，翻译出来的中文也可以，目前用起来最舒服的软件，而且中英记录都会保存下来总结：元宝 > 豆包 >= 欧陆 > 谷歌 > 苹果我目前还没有用过有道和亲爱的翻译官，所以无法对这2者作评价 3 个帖子 - 2 位参与者阅读完整话题

腾讯会议推出“AI同传”功能

36氪 · None · tech

36氪获悉，5月21日，腾讯会议AI同传功能正式上线，参会者开启后，系统会将发言人的语音进行实时识别和翻译，并合成语音即时播报，传递到会议另一端，首期支持中英双向互译。此外，腾讯会议AI同传能做到时延低于3秒，发言与翻译几乎同步进行。

/tag/同传