hermes agent 主用
Unsloth 团队为 Qwen3.6 发布了 MTP ( Multi Token Prediction ) GGUF 量化版本,可 Qwen3.6 的本地推理速度提升 1.4-2.2 倍,精度无任何损失。 除 Qwen3.6 外,Unsloth 这次还回溯发布了 Qwen3.5 系列的 MTP GGUF ,覆盖 0.8B 、2B 、4B 、9B 、27B 、35B-A3B 、122B-A10B 、397B-A17B 全家族。这意味着已经在用 Qwen3.5 系列做本地推理的开发者可以直接迁到 MTP 版本而不换模型。 原文: Qwen3.6 MTP GGUF 发布:本地推理 1.4-2.2 倍加速,精度无损
Unsloth 团队为 Qwen3.6 发布了 MTP ( Multi Token Prediction ) GGUF 量化版本,可 Qwen3.6 的本地推理速度提升 1.4-2.2 倍,精度无任何损失。 除 Qwen3.6 外,Unsloth 这次还回溯发布了 Qwen3.5 系列的 MTP GGUF ,覆盖 0.8B 、2B 、4B 、9B 、27B 、35B-A3B 、122B-A10B 、397B-A17B 全家族。这意味着已经在用 Qwen3.5 系列做本地推理的开发者可以直接迁到 MTP 版本而不换模型。 原文: Qwen3.6 MTP GGUF 发布:本地推理 1.4-2.2 倍加速,精度无损
模型: Qwen3.6-27B-Q4_K_M-mtp.gguf 上下文: 220672 MTP: pt=3 KV cache: q4_0 这个输出速度,简直绝了,从来没有过这么丝滑的体验 把pi放进nono里运行,加一层防护更安心,和它一起完成了另一个模型在远端的部署准备工作 智力还行,速度绝了 5 个帖子 - 5 位参与者 阅读完整话题
4070 12G挑战一下 huggingface.co unsloth/Qwen3.6-27B-GGUF at main We’re on a journey to advance and democratize artificial intelligence through open source and open science. 4 个帖子 - 4 位参与者 阅读完整话题