WWW.YOUINFO.SITE
标签聚合 Qwen3.5

/tag/Qwen3.5

V2EX - 技术 · 2026-06-09 20:53:28+08:00 · tech

显卡只是 3080 显存 10G ,之前跑 qwen3.5 9b mtp 只有 75token/s,都是 q4 ,今天试了一下 Gemma4 12b 速度 85~105token/s,现在 MTP 技术那么牛吗?测了几个问题感觉质量还比 qwen3.5 9b 好那么一丢丢。有没有大神解惑? llama-server.exe ^ --model "emma-4-12B-it-qat-q4_0-unquantized-heretic-Q4_0.gguf" ^ --mmproj "mmproj-gemma-4-12b-it-qat-q4_0.gguf" ^ --model-draft "gemma-4-12b-qat-it-assistant-Q4_0_Q4emb.gguf" ^ --spec-type draft-mtp --spec-draft-n-max 3 ^ --spec-draft-type-k q4_0 --spec-draft-type-v q4_0 ^ --n-gpu-layers-draft 999 ^ --cache-type-k q4_0 ^ --cache-type-v q4_0 ^ --n-gpu-layers 999 ^ --no-mmap ^ --cache-prompt ^ --mlock ^ --kv-unified ^ --parallel 1 ^ -fa on ^ --fit off ^ --ctx-size 100000 --n-predict 10000 ^ --host 0.0.0.0 --port 11432

V2EX - 技术 · 2026-06-09 19:53:28+08:00 · tech

显卡只是 3080 显存 10G ,之前跑 qwen3.5 9b mtp 只有 75token/s,都是 q4 ,今天试了一下 Gemma4 12b 速度 85~105token/s,现在 MTP 技术那么牛吗?测了几个问题感觉质量还比 qwen3.5 9b 好那么一丢丢。有没有大神解惑? llama-server.exe ^ --model "emma-4-12B-it-qat-q4_0-unquantized-heretic-Q4_0.gguf" ^ --mmproj "mmproj-gemma-4-12b-it-qat-q4_0.gguf" ^ --model-draft "gemma-4-12b-qat-it-assistant-Q4_0_Q4emb.gguf" ^ --spec-type draft-mtp --spec-draft-n-max 3 ^ --spec-draft-type-k q4_0 --spec-draft-type-v q4_0 ^ --n-gpu-layers-draft 999 ^ --cache-type-k q4_0 ^ --cache-type-v q4_0 ^ --n-gpu-layers 999 ^ --no-mmap ^ --cache-prompt ^ --mlock ^ --kv-unified ^ --parallel 1 ^ -fa on ^ --fit off ^ --ctx-size 100000 --n-predict 10000 ^ --host 0.0.0.0 --port 11432

IT之家 · 2026-05-20 15:43:24+08:00 · tech

IT之家 5 月 20 日消息,据通义实验室消息,通义千问团队发布了 Qwen3.5-LiveTranslate-Flash 实时语音翻译模型,该模型在语种覆盖、延迟控制和音色保留等方面实现显著突破,旨在解决跨境直播、跨国会议等场景中的实时同传痛点。 IT之家附官方详细介绍如下: 跨境直播卡顿、跨国会议延迟、AI 配音“机器感”太重…… 实时同传一直卡在“延迟、语种、音色”三大痛点。 Qwen3.5-LiveTranslate-Flash 给出了解决方案: 支持 60 种语言的音频输入和文字输出,29 种语言的音频输出,端到端字均延迟低至 2.8 秒,还能保留说话人的原声特征。 核心亮点速览 Qwen3.5-LiveTranslate 输入音频和输出文本语种从 18 种提升至 60 种,输出音频从 10 种提升至 29 种; 语音同传字均延迟降低至 2.8 秒; 支持实时音色克隆,翻译后仍保留说话人原声特征; 内置热词能力,专有名词和行业术语翻译更精准。 Qwen3.5-LiveTranslate 能听懂和翻译 60 种语言,其中 29 种可以实现语音输出。输入音频和输出文本语种从 18 个大幅提升至 60 个,输出音频语向从 10 个提升至 29 个,覆盖更多国家与区域的语言互译组合,满足跨境会议、直播出海、在线课堂、商务谈判等多语同传需求。 引入全新 Readable Unit(可读单元)实时翻译技术,在保证译文可读性与语义连贯的前提下,实现更激进的流式输出。端到端字均延迟降低到 2.8 秒,适用于直播、连麦、发布会等对时延极敏感的场景。 支持 Real-time Voice Cloning(动态跨语言音色克隆)。在同传过程中自动捕捉并复刻说话人音色特征,译文在不同语言间依旧保持“同一个人”的声音质感与情绪表现力。主播、嘉宾、主持人的身份一致性大幅提升,沉浸感拉满。 内置动态热词(Hotword)引擎,最高支持 1000 个自定义词条。对人名、地名、品牌、产品型号、行业术语进行优先识别与优先翻译。支持场景动态配置与实时更新,显著降低技术发布会、医疗 / 法律 / 金融会议、企业内训中“术语翻错、名字听错”的风险。 我们将模型放入高频实战环境,复杂场景依旧稳定发挥: 跨国会议 & 出境旅游 多语混说 / 复杂口音:会议室多语种交替发言、带口音表达,模型精准切分并同步译。 智能硬件落地:搭配千问 AI 眼镜在泰国点餐实测,语音交互 + 实时同传无缝衔接,沟通零障碍。 直播带货 & 影视出海 数字与规格精准翻译:直播连麦中,商品参数、价格、折扣数字翻译准确率极高,带货宣发不断档。 古文 / 文化内容同传:准确理解并翻译古典文言文,语义连贯且保留文化韵味,字幕与配音同步流畅。 视觉消歧辅助 结合多模态理解能力,在语境模糊时自动引入视觉信息辅助判断,大幅降低“一词多义”导致的翻译歧义。 在公开多语言语音翻译基准(FLEURS、CoVoST2)上,Qwen3.5-LiveTranslate-Flash 翻译准确率优于当前主流语音大模型,显著优于前代 Qwen3-LiveTranslate-Flash,在语言覆盖和翻译质量上均实现突破。 凭借可读单元流式策略,Qwen3.5-LiveTranslate-Flash 相比 Qwen3-LiveTranslate-Flash 将首字延迟降低 3.45 秒、字均延迟降低 1.88 秒,最终实现端到端字均延迟 2.8 秒,翻译质量几乎无损。 相比上一代,Qwen3.5-LiveTranslate-Flash 在核心参数与功能上实现了全面进阶,详细对比如下: Qwen3.5-LiveTranslate 是基于 Qwen3.5-Omni Thinker-Talker 架构打造的翻译大模型。面向同声传译场景,我们采用 chunk-wise 流式输入机制,引入可读单元来控制语音合成粒度,在保证同传体感的同时有效降低时延。此外,借助动态跨语言音色克隆技术,模型在翻译时能够实时识别并模仿说话人的原始音色。 从“能翻译”到“实时同传”,Qwen3.5-LiveTranslate-Flash 用更低延迟、更多语种、更自然音色,为跨境协作、内容出海、智能硬件提供新一代语音基础设施。 立即体验 Blog: https://qwen.ai/blog?id=qwen3.5-livetranslate Demo: https://omni.qwen.ai/live-translate 阿里云百炼:即将上线

LinuxDo 最新话题 · 2026-05-09 07:04:30+08:00 · tech

各位佬,小弟需要一个问题,看大家都在用MTP给大模型加速,速度几乎都提升了一倍。于是我也试了试,我的环境是A100,vllm0.16.x,Qwen3.5 27B稠密模型,上下文开到256k。 mtp参数如下:–speculative-config ‘{“method”: “mtp”, “num_speculative_tokens”: 2}’ 启动日志中显示已经使用了MTP,但是速度和没开之前是一样的,毫无提升,都是25-27token每秒。希望各位指点一二,万分感谢! 3 个帖子 - 3 位参与者 阅读完整话题

LinuxDo 最新话题 · 2026-05-08 12:41:18+08:00 · tech

我需要思考模式,但是不像其他在线模式那样思考过程会折叠 像下面只是发了一个"你好",他连思考过程都返回完整的输出在终端上 #启动方式如下 vllm serve /root/models/huggingface/Qwen3.5-9B-AWQ \ --served-model-name Qwen3.5-9B-AWQ-Thinking \ --tensor-parallel-size 2 \ --enable-auto-tool-choice \ --tool-call-parser qwen3_coder \ --trust-remote-code \ --host 10.1.1.128 \ --api-key 123456 \ --port 8000 下面是使用硅基流动在线的模型,思考过程就会折叠起来 6 个帖子 - 3 位参与者 阅读完整话题