Unsloth 团队为 Qwen3.6 发布了 MTP ( Multi Token Prediction ) GGUF 量化版本,可 Qwen3.6 的本地推理速度提升 1.4-2.2 倍,精度无任何损失。 除 Qwen3.6 外,Unsloth 这次还回溯发布了 Qwen3.5 系列的 MTP GGUF ,覆盖 0.8B 、2B 、4B 、9B 、27B 、35B-A3B 、122B-A10B 、397B-A17B 全家族。这意味着已经在用 Qwen3.5 系列做本地推理的开发者可以直接迁到 MTP 版本而不换模型。 原文: Qwen3.6 MTP GGUF 发布:本地推理 1.4-2.2 倍加速,精度无损
Unsloth 团队为 Qwen3.6 发布了 MTP ( Multi Token Prediction ) GGUF 量化版本,可 Qwen3.6 的本地推理速度提升 1.4-2.2 倍,精度无任何损失。 除 Qwen3.6 外,Unsloth 这次还回溯发布了 Qwen3.5 系列的 MTP GGUF ,覆盖 0.8B 、2B 、4B 、9B 、27B 、35B-A3B 、122B-A10B 、397B-A17B 全家族。这意味着已经在用 Qwen3.5 系列做本地推理的开发者可以直接迁到 MTP 版本而不换模型。 原文: Qwen3.6 MTP GGUF 发布:本地推理 1.4-2.2 倍加速,精度无损
使用的是Unsloth家的动态,选的Qwen3.6-27B-UD-Q5_K_XL.gguf量化版本,用的是5090单卡,32G vram,大家可以根据这个表格,快速选配下 目前输出感觉是 qwen 3.6 27B ≈ Jackrong/Qwen3.5-27B-GLM5.1 > qwen 3.6 35B_A3B ≈ qwen 3.5 27B 再期待下 其他家对 qwen 3.6 27B的进一步变种专训结果,有机会在Herems上再跑下~ 附上启动参数, -ngl 99 -c 262144 -np 1 -fa on --cache-type-k q4_0 --cache-type-v q4_0 –no-mmap --mlock --threads 16 --threads-batch 16 --batch-size 256 --ubatch-size 256 –temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.0 --presence-penalty 0.0 --repeat-penalty 1.0 2 个帖子 - 1 位参与者 阅读完整话题
4070 12G挑战一下 huggingface.co unsloth/Qwen3.6-27B-GGUF at main We’re on a journey to advance and democratize artificial intelligence through open source and open science. 4 个帖子 - 4 位参与者 阅读完整话题