显卡只是 3080 显存 10G ,之前跑 qwen3.5 9b mtp 只有 75token/s,都是 q4 ,今天试了一下 Gemma4 12b 速度 85~105token/s,现在 MTP 技术那么牛吗?测了几个问题感觉质量还比 qwen3.5 9b 好那么一丢丢。有没有大神解惑? llama-server.exe ^ --model "emma-4-12B-it-qat-q4_0-unquantized-heretic-Q4_0.gguf" ^ --mmproj "mmproj-gemma-4-12b-it-qat-q4_0.gguf" ^ --model-draft "gemma-4-12b-qat-it-assistant-Q4_0_Q4emb.gguf" ^ --spec-type draft-mtp --spec-draft-n-max 3 ^ --spec-draft-type-k q4_0 --spec-draft-type-v q4_0 ^ --n-gpu-layers-draft 999 ^ --cache-type-k q4_0 ^ --cache-type-v q4_0 ^ --n-gpu-layers 999 ^ --no-mmap ^ --cache-prompt ^ --mlock ^ --kv-unified ^ --parallel 1 ^ -fa on ^ --fit off ^ --ctx-size 100000 --n-predict 10000 ^ --host 0.0.0.0 --port 11432
显卡只是 3080 显存 10G ,之前跑 qwen3.5 9b mtp 只有 75token/s,都是 q4 ,今天试了一下 Gemma4 12b 速度 85~105token/s,现在 MTP 技术那么牛吗?测了几个问题感觉质量还比 qwen3.5 9b 好那么一丢丢。有没有大神解惑? llama-server.exe ^ --model "emma-4-12B-it-qat-q4_0-unquantized-heretic-Q4_0.gguf" ^ --mmproj "mmproj-gemma-4-12b-it-qat-q4_0.gguf" ^ --model-draft "gemma-4-12b-qat-it-assistant-Q4_0_Q4emb.gguf" ^ --spec-type draft-mtp --spec-draft-n-max 3 ^ --spec-draft-type-k q4_0 --spec-draft-type-v q4_0 ^ --n-gpu-layers-draft 999 ^ --cache-type-k q4_0 ^ --cache-type-v q4_0 ^ --n-gpu-layers 999 ^ --no-mmap ^ --cache-prompt ^ --mlock ^ --kv-unified ^ --parallel 1 ^ -fa on ^ --fit off ^ --ctx-size 100000 --n-predict 10000 ^ --host 0.0.0.0 --port 11432
上下文只要到了64k就不回复了,目前使用cline,自动/compact 效果不好,上下文达到了80%,还没来及压缩就不行了,有什么的工具比较好用的?因为是内网环境,完全无互联网,win10专业版,不让升级系统,内网模型是openai标准接口的 4 个帖子 - 4 位参与者 阅读完整话题
接到了国产化适配的活,满脑子有点懵逼,上来请教一下佬友 能跑得起两个Qwen3.5-38B的程度吗? 有没有做个qwen vl或者glm、internvl的适配呢? 还有就是YOLO、CLIP等的 1 个帖子 - 1 位参与者 阅读完整话题
现在go里的DeepSeek计费是按原价计费,降价后的DeepSeek额度参考 qwen3.5plus 应该至少翻3倍 3 个帖子 - 3 位参与者 阅读完整话题
前几天用感觉还可以,今天有个连接报错才发现模型不是claude-opus-4-6是qwen3.5-plus 还有他这个后台自己换模型 43 个帖子 - 39 位参与者 阅读完整话题
IT之家 5 月 20 日消息,据通义实验室消息,通义千问团队发布了 Qwen3.5-LiveTranslate-Flash 实时语音翻译模型,该模型在语种覆盖、延迟控制和音色保留等方面实现显著突破,旨在解决跨境直播、跨国会议等场景中的实时同传痛点。 IT之家附官方详细介绍如下: 跨境直播卡顿、跨国会议延迟、AI 配音“机器感”太重…… 实时同传一直卡在“延迟、语种、音色”三大痛点。 Qwen3.5-LiveTranslate-Flash 给出了解决方案: 支持 60 种语言的音频输入和文字输出,29 种语言的音频输出,端到端字均延迟低至 2.8 秒,还能保留说话人的原声特征。 核心亮点速览 Qwen3.5-LiveTranslate 输入音频和输出文本语种从 18 种提升至 60 种,输出音频从 10 种提升至 29 种; 语音同传字均延迟降低至 2.8 秒; 支持实时音色克隆,翻译后仍保留说话人原声特征; 内置热词能力,专有名词和行业术语翻译更精准。 Qwen3.5-LiveTranslate 能听懂和翻译 60 种语言,其中 29 种可以实现语音输出。输入音频和输出文本语种从 18 个大幅提升至 60 个,输出音频语向从 10 个提升至 29 个,覆盖更多国家与区域的语言互译组合,满足跨境会议、直播出海、在线课堂、商务谈判等多语同传需求。 引入全新 Readable Unit(可读单元)实时翻译技术,在保证译文可读性与语义连贯的前提下,实现更激进的流式输出。端到端字均延迟降低到 2.8 秒,适用于直播、连麦、发布会等对时延极敏感的场景。 支持 Real-time Voice Cloning(动态跨语言音色克隆)。在同传过程中自动捕捉并复刻说话人音色特征,译文在不同语言间依旧保持“同一个人”的声音质感与情绪表现力。主播、嘉宾、主持人的身份一致性大幅提升,沉浸感拉满。 内置动态热词(Hotword)引擎,最高支持 1000 个自定义词条。对人名、地名、品牌、产品型号、行业术语进行优先识别与优先翻译。支持场景动态配置与实时更新,显著降低技术发布会、医疗 / 法律 / 金融会议、企业内训中“术语翻错、名字听错”的风险。 我们将模型放入高频实战环境,复杂场景依旧稳定发挥: 跨国会议 & 出境旅游 多语混说 / 复杂口音:会议室多语种交替发言、带口音表达,模型精准切分并同步译。 智能硬件落地:搭配千问 AI 眼镜在泰国点餐实测,语音交互 + 实时同传无缝衔接,沟通零障碍。 直播带货 & 影视出海 数字与规格精准翻译:直播连麦中,商品参数、价格、折扣数字翻译准确率极高,带货宣发不断档。 古文 / 文化内容同传:准确理解并翻译古典文言文,语义连贯且保留文化韵味,字幕与配音同步流畅。 视觉消歧辅助 结合多模态理解能力,在语境模糊时自动引入视觉信息辅助判断,大幅降低“一词多义”导致的翻译歧义。 在公开多语言语音翻译基准(FLEURS、CoVoST2)上,Qwen3.5-LiveTranslate-Flash 翻译准确率优于当前主流语音大模型,显著优于前代 Qwen3-LiveTranslate-Flash,在语言覆盖和翻译质量上均实现突破。 凭借可读单元流式策略,Qwen3.5-LiveTranslate-Flash 相比 Qwen3-LiveTranslate-Flash 将首字延迟降低 3.45 秒、字均延迟降低 1.88 秒,最终实现端到端字均延迟 2.8 秒,翻译质量几乎无损。 相比上一代,Qwen3.5-LiveTranslate-Flash 在核心参数与功能上实现了全面进阶,详细对比如下: Qwen3.5-LiveTranslate 是基于 Qwen3.5-Omni Thinker-Talker 架构打造的翻译大模型。面向同声传译场景,我们采用 chunk-wise 流式输入机制,引入可读单元来控制语音合成粒度,在保证同传体感的同时有效降低时延。此外,借助动态跨语言音色克隆技术,模型在翻译时能够实时识别并模仿说话人的原始音色。 从“能翻译”到“实时同传”,Qwen3.5-LiveTranslate-Flash 用更低延迟、更多语种、更自然音色,为跨境协作、内容出海、智能硬件提供新一代语音基础设施。 立即体验 Blog: https://qwen.ai/blog?id=qwen3.5-livetranslate Demo: https://omni.qwen.ai/live-translate 阿里云百炼:即将上线
刚才用 hermes 配合本地模型 qwen3.5 9B + openwalk skils ,测试了几组功能,突然想起来看看能不能看 v2ex,结果是能看,还不错;美中不足,就是本地有点慢
刚才用 hermes 配合本地模型 qwen3.5 9B + openwalk skils ,测试了几组功能,突然想起来看看能不能看 v2ex,结果是能看,还不错;美中不足,就是本地有点慢
最近炼了一个小模型放出来给大家玩,专门针对 OpenCode (还有 Claude Code )做了蒸馏。 FP8 量化后权重大概 13GB ,单张 24GB 显卡用 vLLM 就能跑 200K 上下文。 核心目标:claude 的风格,降低 tool call 的失败率,让 agent 能跑更长的连续任务。 蹲一下:Bug 反馈、奇怪的 trace 、改进建议都欢迎 🙏 🤗 HF: Qwen3.5-Sonnet-9B
最近炼了一个小模型放出来给大家玩,专门针对 OpenCode (还有 Claude Code )做了蒸馏。 FP8 量化后权重大概 13GB ,单张 24GB 显卡用 vLLM 就能跑 200K 上下文。 核心目标:claude 的风格,降低 tool call 的失败率,让 agent 能跑更长的连续任务。 蹲一下:Bug 反馈、奇怪的 trace 、改进建议都欢迎 🙏 🤗 HF: Qwen3.5-Sonnet-9B
最近炼了一个小模型放出来给大家玩,专门针对 OpenCode (还有 Claude Code )做了蒸馏。 FP8 量化后权重大概 13GB ,单张 24GB 显卡用 vLLM 就能跑 200K 上下文。 核心目标:claude 的风格,降低 tool call 的失败率,让 agent 能跑更长的连续任务。 蹲一下:Bug 反馈、奇怪的 trace 、改进建议都欢迎 🙏 🤗 HF: Qwen3.5-Sonnet-9B
本地部署的 ollama run qwen3.5 竟然是蒸馏的Gemini 18 个帖子 - 17 位参与者 阅读完整话题
脑洞一下:假如给梵高配上 Qwen3.5B ?
脑洞一下:假如给梵高配上 Qwen3.5B ?
各位佬,小弟需要一个问题,看大家都在用MTP给大模型加速,速度几乎都提升了一倍。于是我也试了试,我的环境是A100,vllm0.16.x,Qwen3.5 27B稠密模型,上下文开到256k。 mtp参数如下:–speculative-config ‘{“method”: “mtp”, “num_speculative_tokens”: 2}’ 启动日志中显示已经使用了MTP,但是速度和没开之前是一样的,毫无提升,都是25-27token每秒。希望各位指点一二,万分感谢! 3 个帖子 - 3 位参与者 阅读完整话题
脑洞一下:假如给梵高配上 Qwen3.5B ?
脑洞一下:假如给梵高配上 Qwen3.5B ?
我需要思考模式,但是不像其他在线模式那样思考过程会折叠 像下面只是发了一个"你好",他连思考过程都返回完整的输出在终端上 #启动方式如下 vllm serve /root/models/huggingface/Qwen3.5-9B-AWQ \ --served-model-name Qwen3.5-9B-AWQ-Thinking \ --tensor-parallel-size 2 \ --enable-auto-tool-choice \ --tool-call-parser qwen3_coder \ --trust-remote-code \ --host 10.1.1.128 \ --api-key 123456 \ --port 8000 下面是使用硅基流动在线的模型,思考过程就会折叠起来 6 个帖子 - 3 位参与者 阅读完整话题
佬们,哪里有便宜的 qwen3.5-9b 可以用啊;硅基流的太慢了,还经常调用失败! 12 个帖子 - 10 位参与者 阅读完整话题