十三个模型评测测试报告
1). 测试概述
本次测试针对以下十三个模型进行了统一条件下的对比评测:
-
Gemma-4-31B-IT-Uncensored
-
QwOpus3.6-27B
-
Qwen3.6-27B-Neo-Code
-
Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2
-
Qwen3.6-27B-MTP
-
SuperGemma4-26B-Uncensored
-
Qwen3.6-35B-A3B-Uncensored
-
Qwen3.6-27B
-
Gemma-4-31B-IT-Claude-Opus
-
Gemma 4 - 26B A4B x Claude Opus 4.6
-
Qwen3.6-27B-Claude-Opus-Reasoning
-
Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled
-
SuperGemma4-26B-Abliterated-Multimodal
我下载的都是Q4_K_M量化版
2).电脑硬件参数
硬件类型 型号/规格 显卡 NVIDIA GeForce RTX 4090 内存 64GB DDR5 CPU Intel Core i9-13900K测试目标是从逻辑推理能力、代码生成能力、响应速度、运行稳定性四个维度,评估十三个模型在实际使用场景中的综合表现。
2. 测试方法与统一设置
为保证横向比较公平,本次评测使用了完全一致的测试方式和参数设置。
2.1 统一参数
-
temperature:0.0
-
top_p:1.0
-
每题采样次数:1
-
不使用 LLM 裁判
-
逻辑题采用 exact match 评分
-
代码题采用程序执行与测试通过率评分
2.2 测试集规模
-
GSM8K:20 题
-
BBH:20 题
-
HumanEval+:10 题
-
MBPP+:10 题
2.3 评分公式
-
逻辑分 = (GSM8K + BBH) / 2
-
代码分 = (HumanEval+ + MBPP+) / 2
-
总分 = (逻辑分 + 代码分) / 2
2.4 评测命令
本次评测使用 run_eval.py 进行:
python run_eval.py --base-url http://localhost:1234/api/v1/chat --models qwen3.6-27b-mtp --gsm8k-limit 20 --bbh-limit 5 --humaneval-limit 10 --mbpp-limit 10 --request-timeout 900
3. 总体结果汇总
排名 模型 逻辑分 代码分 总分 平均时延 执行失败率 1 Gemma-4-31B-IT-Uncensored 0.9500 1.0000 0.9750 17.64s 0.00 2 QwOpus3.6-27B 0.9000 1.0000 0.9500 44.63s 0.00 3 Qwen3.6-27B-Neo-Code 0.9000 0.9500 0.9250 101.76s 0.05 3 Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 0.8500 1.0000 0.9250 38.25s 0.00 3 Qwen3.6-27B-MTP 0.8500 1.0000 0.9250 84.37s 0.00 6 SuperGemma4-26B-Uncensored 0.8750 0.9500 0.9125 4.90s 0.05 6 Qwen3.6-35B-A3B-Uncensored 0.8750 0.9500 0.9125 100.35s 0.05 8 Qwen3.6-27B 0.9500 0.8500 0.9000 149.94s 0.15 9 Gemma-4-31B-IT-Claude-Opus 0.8500 0.9000 0.8750 69.27s 0.10 10 Gemma 4 - 26B A4B x Claude Opus 4.6 0.7750 0.9500 0.8625 18.49s 0.05 11 Qwen3.6-27B-Claude-Opus-Reasoning 0.6500 1.0000 0.8250 9.10s 0.00 12 Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled 0.6000 1.0000 0.8000 58.25s 0.00 13 SuperGemma4-26B-Abliterated-Multimodal 0.7250 0.5000 0.6125 8.04s 0.504. 单模型详细测试结果
4.1 Gemma-4-31B-IT-Uncensored
4.1.1 分项成绩 测试项 正确 / 通过情况 得分 平均时延 执行失败率 GSM8K 19 / 20 0.95 21.24s - BBH 19 / 20 0.95 29.62s - HumanEval+ 10 / 10 1.00 15.36s 0.00 MBPP+ 10 / 10 1.00 4.35s 0.00 4.1.2 表现分析-
以 0.9750 总分断层登顶,是十三个模型中综合实力最强的。
-
逻辑能力极强,GSM8K 和 BBH 均达到 0.95。BBH 0.95 远超第二名的 0.85。
-
代码能力满分,HumanEval+ 和 MBPP+ 全部通过。
-
执行失败率为 0,稳定性最佳之一。
-
速度适中(17.64s)。
Gemma-4-31B-IT-Uncensored 是本次测试中 综合实力最强、无明显短板 的模型。是当前最值得推荐的全能型首选模型。
4.2 QwOpus3.6-27B(2026-05-26 第二次评测)
4.2.1 分项成绩 测试项 正确 / 通过情况 得分 平均时延 执行失败率 GSM8K 19 / 20 0.95 18.78s - BBH 17 / 20 0.85 36.19s - HumanEval+ 10 / 10 1.00 24.53s 0.00 MBPP+ 10 / 10 1.00 99.03s 0.00 4.2.2 表现分析-
总分 0.9500,独占第二。
-
BBH 0.85,较首轮 0.70 大幅提升(+0.15),是本轮最大亮点。
-
代码双满分 + 零失败。
-
平均时延 44.63s,速度中等。
-
唯一在「代码满分 + BBH ≥ 0.85」双条件同时满足的模型。
QwOpus3.6-27B 经第二次评测后 总分 0.9500、独占第二。是当前最接近 Gemma-4-31B 的模型(差距仅 0.025)。
4.3 Qwen3.6-27B-Neo-Code
4.3.1 分项成绩 测试项 正确 / 通过情况 得分 平均时延 执行失败率 GSM8K 19 / 20 0.95 95.95s - BBH 17 / 20 0.85 111.04s - HumanEval+ 10 / 10 1.00 102.49s 0.00 MBPP+ 9 / 10 0.90 97.57s 0.10 4.3.2 表现分析-
以 0.9250 总分并列第三。
-
BBH 0.85,复杂逻辑推理较强。
-
HumanEval+ 满分,代码能力 0.95。
-
执行失败率 0.05。
-
平均时延 101.76s,速度偏慢。
Qwen3.6-27B-Neo-Code 是 逻辑与代码双强 的模型,并列第三。速度偏慢(101.76s)是其主要短板。
4.4 Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2
4.4.1 分项成绩 测试项 正确 / 通过情况 得分 平均时延 执行失败率 GSM8K 20 / 20 1.00 45.08s - BBH 14 / 20 0.70 32.16s - HumanEval+ 10 / 10 1.00 43.15s 0.00 MBPP+ 10 / 10 1.00 32.62s 0.00 4.4.2 表现分析-
GSM8K 满分,数学推理十三个模型中最强。
-
代码满分,稳定性优秀。
-
BBH 0.70,复杂逻辑推理有短板。
-
平均时延 38.25 秒。
Qwen3.5-27B 是 代码满分 + 数学满分 的模型,并列第三。适合数学推理和代码场景,BBH 偏弱。
4.5 Qwen3.6-27B-MTP(2026-05-26 首测)★ 新模型
4.5.1 分项成绩 测试项 正确 / 通过情况 得分 平均时延 执行失败率 GSM8K 18 / 20 0.90 69.58s - BBH 16 / 20 0.80 80.21s - HumanEval+ 10 / 10 1.00 62.88s 0.00 MBPP+ 10 / 10 1.00 124.82s 0.00 4.5.2 评测说明本次为首测,使用 run_eval.py 评测,命令如下:
python run_eval.py --base-url http://localhost:1234/api/v1/chat --models qwen3.6-27b-mtp --gsm8k-limit 20 --bbh-limit 5 --humaneval-limit 10 --mbpp-limit 10 --request-timeout 900
附加 API 验证测试(rhyme 约束遵循):
curl http://localhost:1234/api/v1/chat \
-H "Content-Type: application/json" \
-d '{
"model": "qwen3.6-27b-mtp",
"system_prompt": "You answer only in rhymes.",
"input": "What is your favorite color?"
}'
API 验证结果:
-
模型严格遵循押韵约束,输出完整 AAAA 押韵诗节
-
推理 token 数 689(占总输出 94%),推理过程详尽
-
生成速度 27.86 tokens/s
-
首 token 延迟 1.022s
-
总分 0.9250,首测即并列第三,跻身第一梯队。
-
GSM8K 0.90,数学推理较强但非顶级。
-
BBH 0.80,复杂逻辑推理中上水平。
-
代码双满分 + 零失败,代码稳定性极佳。
-
平均时延 84.37s,速度偏慢但比原生版(149.94s)快 44%。
解读:
-
MTP(投机解码)版本实现了定位转换:从「逻辑极强 + 代码较强」转变为「代码满分 + 逻辑中上」
-
代码能力的提升是最显著的变化:MBPP+ 从 0.80 → 1.00(+0.20),HumanEval+ 从 0.90 → 1.00(+0.10)
-
速度提升 44%,MTP 投机解码的加速效果明显
-
代价是 BBH 从 0.95 降至 0.80(-0.15),逻辑推理能力有所削弱
-
总分反超原生版(0.9250 > 0.9000),排名从第八跃升至并列第三
Qwen3.6-27B-MTP 首测即达到 总分 0.9250、并列第三。相比原生 Qwen3.6-27B,MTP 版本通过投机解码实现了代码满分和速度的双重提升,但以牺牲部分逻辑能力为代价。适合需要「代码满分 + MTP 加速」的场景,是原生版的有力替代方案。
4.6 SuperGemma4-26B-Uncensored
4.6.1 分项成绩 测试项 正确 / 通过情况 得分 平均时延 执行失败率 GSM8K 19 / 20 0.95 3.09s - BBH 16 / 20 0.80 14.34s - HumanEval+ 10 / 10 1.00 1.44s 0.00 MBPP+ 9 / 10 0.90 0.75s 0.10 4.6.2 表现分析-
总分 0.9125 并列第六。
-
速度 4.90s 最快。
-
代码能力很强,HumanEval+ 满分,MBPP+ 丢 1 题。
-
执行失败率 0.05。
SuperGemma4-26B-Uncensored 是 速度最快 的模型。极度看重响应速度时首选。
4.7 Qwen3.6-35B-A3B-Uncensored
4.7.1 分项成绩 测试项 正确 / 通过情况 得分 平均时延 执行失败率 GSM8K 19 / 20 0.95 92.47s - BBH 16 / 20 0.80 143.65s - HumanEval+ 10 / 10 1.00 93.43s 0.00 MBPP+ 9 / 10 0.90 71.86s 0.10 4.7.2 表现分析-
总分 0.9125,并列第六。
-
质量高但速度第二慢(100.35s)。
Qwen3.6-35B-A3B-Uncensored 是 质量高但速度较慢 的模型。
4.8 Qwen3.6-27B
4.8.1 分项成绩 测试项 正确 / 通过情况 得分 平均时延 执行失败率 GSM8K 19 / 20 0.95 - - BBH 19 / 20 0.95 - - HumanEval+ 9 / 10 0.90 - 0.10 MBPP+ 8 / 10 0.80 - 0.20 4.8.2 表现分析-
总分 0.9000,综合第八。
-
逻辑极强(0.950),并列第一。
-
代码 0.85,失败率 0.15。
-
速度最慢(149.94s)。
Qwen3.6-27B 逻辑极强但速度最慢。建议考虑其 MTP 版本(qwen3.6-27b-mtp)作为替代。
4.9 Gemma-4-31B-IT-Claude-Opus
4.9.1 分项成绩 测试项 正确 / 通过情况 得分 平均时延 执行失败率 GSM8K 17 / 20 0.85 85.28s - BBH 17 / 20 0.85 78.65s - HumanEval+ 8 / 10 0.80 71.41s 0.20 MBPP+ 10 / 10 1.00 41.74s 0.00 4.9.2 表现分析-
总分 0.8750,综合第九。
-
逻辑稳健(GSM8K 0.85、BBH 0.85)。
-
速度偏慢(69.27s),执行失败率 0.10。
Gemma-4-31B-IT-Claude-Opus 逻辑稳健、代码较强但速度偏慢。
4.10 Gemma 4 - 26B A4B x Claude Opus 4.6
4.10.1 分项成绩 测试项 正确 / 通过情况 得分 平均时延 执行失败率 GSM8K 18 / 20 0.90 18.38s - BBH 13 / 20 0.65 20.64s - HumanEval+ 9 / 10 0.90 18.73s 0.10 MBPP+ 10 / 10 1.00 16.20s 0.00 4.10.2 表现分析-
总分 0.8625,综合第十。
-
均衡型,速度 18.49s。
Gemma 4 - 26B A4B 均衡且响应较快,适合通用助手场景。
4.11 Qwen3.6-27B-Claude-Opus-Reasoning(第四次重测)
4.11.1 分项成绩 测试项 正确 / 通过情况 得分 平均时延 执行失败率 GSM8K 19 / 20 0.95 9.25s - BBH 7 / 20 0.35 9.78s - HumanEval+ 10 / 10 1.00 10.10s 0.00 MBPP+ 10 / 10 1.00 7.28s 0.00 4.11.2 表现分析-
总分 0.8250,综合第十一。
-
代码满分 + 速度快(9.10s),但 BBH 0.35 逻辑严重短板。
-
定位:代码专精 + 速度优先。
Qwen3.6-27B-Claude-Opus-Reasoning 定位为「代码专精 + 速度优先」,不适合逻辑推理场景。
4.12 Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled
4.12.1 分项成绩 测试项 正确 / 通过情况 得分 平均时延 执行失败率 GSM8K 18 / 20 0.90 26.57s - BBH 6 / 20 0.30 33.21s - HumanEval+ 10 / 10 1.00 129.31s 0.00 MBPP+ 10 / 10 1.00 43.93s 0.00 4.12.2 表现分析-
总分 0.8000,综合第十二。
-
代码满分,BBH 仅 0.30,逻辑短板极明显。
-
偏代码导向,不推荐综合使用。
Qwen3-Coder-Next 是偏代码专用模型,不适合综合场景。
4.13 SuperGemma4-26B-Abliterated-Multimodal
4.13.1 分项成绩 测试项 正确 / 通过情况 得分 平均时延 执行失败率 GSM8K 18 / 20 0.90 5.95s - BBH 11 / 20 0.55 21.35s - HumanEval+ 1 / 10 0.10 2.37s 0.90 MBPP+ 9 / 10 0.90 2.47s 0.10 4.13.2 表现分析-
HumanEval+ 几乎全军覆没,执行失败率 90%。
-
代码分 0.500,断层垫底。
-
总执行失败率 0.50,所有模型最差。
不推荐在任何需要代码能力的场景中使用。
5. 横向对比分析
5.1 逻辑能力对比
模型 GSM8K BBH 逻辑分 Gemma-4-31B-IT-Uncensored 0.95 0.95 0.950 Qwen3.6-27B 0.95 0.95 0.950 Qwen3.6-27B-Neo-Code 0.95 0.85 0.900 QwOpus3.6-27B 0.95 0.85 0.900 SuperGemma4-26B-Uncensored 0.95 0.80 0.875 Qwen3.6-35B-A3B-Uncensored 0.95 0.80 0.875 Qwen3.5-27B 1.00 0.70 0.850 Qwen3.6-27B-MTP 0.90 0.80 0.850 Gemma-4-31B-IT-Claude-Opus 0.85 0.85 0.850 Gemma 4 - 26B A4B 0.90 0.65 0.775 SuperGemma4-26B-Abliterated 0.90 0.55 0.725 Qwen3.6-27B-Claude-Opus-Reasoning 0.95 0.35 0.650 Qwen3-Coder-Next 0.90 0.30 0.600分析:
-
Gemma-4-31B 与 Qwen3.6-27B 并列逻辑第一(0.950)。
-
Qwen3.6-27B-MTP 逻辑 0.850(GSM8K 0.90、BBH 0.80),处于中上水平。
-
逻辑分 ≥ 0.85 共有 9 个模型,MTP 版位列其中。
5.2 代码能力对比
模型 HumanEval+ MBPP+ 代码分 Gemma-4-31B-IT-Uncensored 1.00 1.00 1.000 Qwen3.5-27B 1.00 1.00 1.000 Qwen3-Coder-Next 1.00 1.00 1.000 QwOpus3.6-27B 1.00 1.00 1.000 Qwen3.6-27B-Claude-Opus-Reasoning 1.00 1.00 1.000 Qwen3.6-27B-MTP 1.00 1.00 1.000 Qwen3.6-27B-Neo-Code 1.00 0.90 0.950 SuperGemma4-26B-Uncensored 1.00 0.90 0.950 Qwen3.6-35B-A3B-Uncensored 1.00 0.90 0.950 Gemma 4 - 26B A4B 0.90 1.00 0.950 Gemma-4-31B-IT-Claude-Opus 0.80 1.00 0.900 Qwen3.6-27B 0.90 0.80 0.850 SuperGemma4-26B-Abliterated 0.10 0.90 0.500分析:
-
六个模型代码满分,Qwen3.6-27B-MTP 新晋。
-
代码满分 + 零失败的模型:gemma-4-31b、qwen3.5-27b、qwopus3.6-27b、qwen3.6-27b-mtp、qwen3-coder-next、qwen3.6-27b-claude-opus-reasoning。
5.3 速度对比
模型 平均时延 SuperGemma4-26B-Uncensored 4.90s SuperGemma4-26B-Abliterated 8.04s Qwen3.6-27B-Claude-Opus-Reasoning 9.10s Gemma-4-31B-IT-Uncensored 17.64s Gemma 4 - 26B A4B 18.49s Qwen3.5-27B 38.25s QwOpus3.6-27B 44.63s Qwen3-Coder-Next 58.25s Gemma-4-31B-IT-Claude-Opus 69.27s Qwen3.6-27B-MTP 84.37s Qwen3.6-35B-A3B-Uncensored 100.35s Qwen3.6-27B-Neo-Code 101.76s Qwen3.6-27B 149.94s5.4 稳定性对比
模型 执行失败率 Gemma-4-31B-IT-Uncensored 0.00 Qwen3.5-27B 0.00 Qwen3-Coder-Next 0.00 QwOpus3.6-27B 0.00 Qwen3.6-27B-Claude-Opus-Reasoning 0.00 Qwen3.6-27B-MTP 0.00 Qwen3.6-27B-Neo-Code 0.05 SuperGemma4-26B-Uncensored 0.05 Qwen3.6-35B-A3B-Uncensored 0.05 Gemma 4 - 26B A4B 0.05 Gemma-4-31B-IT-Claude-Opus 0.10 Qwen3.6-27B 0.15 SuperGemma4-26B-Abliterated 0.505.5 「代码满分 + 逻辑强」双维度交叉筛选
模型 代码分 BBH 总分 排名 Gemma-4-31B-IT-Uncensored 1.000 0.95 0.9750 1 QwOpus3.6-27B 1.000 0.85 0.9500 2 Qwen3.6-27B-MTP 1.000 0.80 0.9250 3 Qwen3.5-27B 1.000 0.70 0.9250 3 Qwen3.6-27B-Claude-Opus-Reasoning 1.000 0.35 0.8250 11 Qwen3-Coder-Next 1.000 0.30 0.8000 12-
BBH 排序:gemma-4-31b(0.95) > qwopus3.6-27b(0.85) > qwen3.6-27b-mtp(0.80) > qwen3.5-27b(0.70) > claude-opus-reasoning(0.35) > qwen3-coder-next(0.30)
-
Qwen3.6-27B-MTP 代码满分 + BBH 0.80,在代码满分阵营中逻辑排第三
5.6 Qwen3.6-27B 版本对比
版本 总分 逻辑分 代码分 时延 失败率 排名 qwen3.6-27b(原生) 0.9000 0.950 0.850 149.94s 0.15 8 qwen3.6-27b-mtp 0.9250 0.850 1.000 84.37s 0.00 3 qwen3.6-27b-claude-opus-reasoning 0.8250 0.650 1.000 9.10s 0.00 11 qwen3.6-27b-neo-code 0.9250 0.900 0.950 101.76s 0.05 3-
MTP 版本是原生版的最佳「代码 + 速度」升级:代码满分、速度提升 44%、零失败
-
Neo-Code 版本是原生版的最佳「逻辑保持」升级:逻辑 0.900、代码 0.950
6. 关键结论
6.1 综合排名
-
Gemma-4-31B-IT-Uncensored(0.9750,断层第一,逻辑碾压 + 代码满分 + 零失败)
-
QwOpus3.6-27B(0.9500,独占第二,BBH 大幅提升 + 代码满分 + 零失败)
-
Qwen3.6-27B-Neo-Code(0.9250,并列第三,逻辑代码双强,速度偏慢)
-
Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2(0.9250,并列第三,代码 + 数学满分)
-
**Qwen3.6-27B-MTP **(0.9250,并列第三,首测即跻身第一梯队,代码满分 + MTP 加速)
-
SuperGemma4-26B-Uncensored(0.9125,并列第六,速度最快 4.90s)
-
Qwen3.6-35B-A3B-Uncensored(0.9125,并列第六,质量高但速度慢)
-
Qwen3.6-27B(0.9000,逻辑极强但速度最慢)
-
Gemma-4-31B-IT-Claude-Opus(0.8750)
-
Gemma 4 - 26B A4B x Claude Opus 4.6(0.8625)
-
Qwen3.6-27B-Claude-Opus-Reasoning(0.8250,代码专精)
-
Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled(0.8000,偏代码专用)
-
SuperGemma4-26B-Abliterated-Multimodal(0.6125,不推荐)
6.2 场景化推荐
综合最强、全面无短板Gemma-4-31B-IT-Uncensored(0.9750,断层第一)
综合强 + 代码满分 + 逻辑强QwOpus3.6-27B(0.9500,BBH 0.85 + 代码满分)
代码满分 + MTP 投机加速**Qwen3.6-27B-MTP **
-
总分 0.9250,并列第三,首测即跻身第一梯队
-
代码双满分 + 零失败
-
BBH 0.80,逻辑中上
-
速度 84.37s,比原生版快 44%
-
原生 Qwen3.6-27B 用户的理想升级方案
Qwen3.6-27B-Neo-Code(0.9250,BBH 0.85,速度偏慢 101.76s)
极致速度SuperGemma4-26B-Uncensored(4.90s 最快)
逻辑极强 + 不在意速度Qwen3.6-27B(逻辑 0.950 并列第一,但速度 149.94s 最慢;建议考虑 MTP 版本替代)
不推荐SuperGemma4-26B-Abliterated-Multimodal(HumanEval+ 失败率 90%)
7. 最终总结
本次测试显示,十三个模型在"逻辑、代码、速度、稳定性"四个维度上表现差异显著。
-
Gemma-4-31B-IT-Uncensored:综合实力断层第一(0.9750),逻辑碾压 + 代码满分 + 零失败,全能型首选。
-
QwOpus3.6-27B:独占第二(0.9500),BBH 跃升至 0.85,唯一同时实现「代码双满分 + BBH ≥ 0.85」的模型。距第一仅差 0.025。
-
Qwen3.6-27B-Neo-Code:并列第三(0.9250),逻辑与代码双强,BBH 0.85,速度偏慢。
-
Qwen3.5-27B:并列第三(0.9250),代码满分 + 数学满分,BBH 0.70。
-
Qwen3.6-27B-MTP ★:并列第三(0.9250),首测即跻身第一梯队。相比原生版实现「代码满分 + 速度提升 44%」,是原生用户的理想升级方案。
-
SuperGemma4-26B-Uncensored:并列第六(0.9125),速度极快(4.90s)。
-
Qwen3.6-35B-A3B-Uncensored:并列第六(0.9125),质量高但速度第二慢。
-
Qwen3.6-27B:综合第八(0.9000),逻辑极强并列第一,速度最慢(149.94s)。
-
Gemma-4-31B-IT-Claude-Opus:综合第九(0.8750),逻辑稳健。
-
Gemma 4 - 26B A4B:综合第十(0.8625),均衡型,速度较快。
-
Qwen3.6-27B-Claude-Opus-Reasoning:综合第十一(0.8250),代码专精 + 速度优先,逻辑短板。
-
Qwen3-Coder-Next:综合第十二(0.8000),偏代码专用。
-
SuperGemma4-26B-Abliterated-Multimodal:综合第十三(0.6125),不推荐。
最终推荐(按优先级):
-
Gemma-4-31B-IT-Uncensored — 综合最强,全能首选
-
QwOpus3.6-27B — 代码满分 + BBH 0.85,性价比最高的综合强者
-
**Qwen3.6-27B-MTP ** — 代码满分 + MTP 加速,原生版最佳替代
-
SuperGemma4-26B-Uncensored — 速度 4.90s 最快,交互效率优先
14 个帖子 - 12 位参与者