十三个模型评测测试报告

1). 测试概述

本次测试针对以下十三个模型进行了统一条件下的对比评测：

Gemma-4-31B-IT-Uncensored
QwOpus3.6-27B
Qwen3.6-27B-Neo-Code
Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2
Qwen3.6-27B-MTP
SuperGemma4-26B-Uncensored
Qwen3.6-35B-A3B-Uncensored
Qwen3.6-27B
Gemma-4-31B-IT-Claude-Opus
Gemma 4 - 26B A4B x Claude Opus 4.6
Qwen3.6-27B-Claude-Opus-Reasoning
Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled
SuperGemma4-26B-Abliterated-Multimodal

我下载的都是Q4_K_M量化版

2).电脑硬件参数

硬件类型 型号/规格 显卡 NVIDIA GeForce RTX 4090 内存 64GB DDR5 CPU Intel Core i9-13900K

测试目标是从逻辑推理能力、代码生成能力、响应速度、运行稳定性四个维度，评估十三个模型在实际使用场景中的综合表现。

2. 测试方法与统一设置

为保证横向比较公平，本次评测使用了完全一致的测试方式和参数设置。

2.1 统一参数

temperature：0.0
top_p：1.0
每题采样次数：1
不使用 LLM 裁判
逻辑题采用 exact match 评分
代码题采用程序执行与测试通过率评分

2.2 测试集规模

GSM8K：20 题
BBH：20 题
HumanEval+：10 题
MBPP+：10 题

2.3 评分公式

逻辑分 = (GSM8K + BBH) / 2
代码分 = (HumanEval+ + MBPP+) / 2
总分 = (逻辑分 + 代码分) / 2

2.4 评测命令

本次评测使用 run_eval.py 进行：

python run_eval.py --base-url http://localhost:1234/api/v1/chat --models qwen3.6-27b-mtp --gsm8k-limit 20 --bbh-limit 5 --humaneval-limit 10 --mbpp-limit 10 --request-timeout 900

3. 总体结果汇总

排名模型 逻辑分 代码分 总分 平均时延 执行失败率 1 Gemma-4-31B-IT-Uncensored 0.9500 1.0000 0.9750 17.64s 0.00 2 QwOpus3.6-27B 0.9000 1.0000 0.9500 44.63s 0.00 3 Qwen3.6-27B-Neo-Code 0.9000 0.9500 0.9250 101.76s 0.05 3 Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 0.8500 1.0000 0.9250 38.25s 0.00 3 Qwen3.6-27B-MTP 0.8500 1.0000 0.9250 84.37s 0.00 6 SuperGemma4-26B-Uncensored 0.8750 0.9500 0.9125 4.90s 0.05 6 Qwen3.6-35B-A3B-Uncensored 0.8750 0.9500 0.9125 100.35s 0.05 8 Qwen3.6-27B 0.9500 0.8500 0.9000 149.94s 0.15 9 Gemma-4-31B-IT-Claude-Opus 0.8500 0.9000 0.8750 69.27s 0.10 10 Gemma 4 - 26B A4B x Claude Opus 4.6 0.7750 0.9500 0.8625 18.49s 0.05 11 Qwen3.6-27B-Claude-Opus-Reasoning 0.6500 1.0000 0.8250 9.10s 0.00 12 Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled 0.6000 1.0000 0.8000 58.25s 0.00 13 SuperGemma4-26B-Abliterated-Multimodal 0.7250 0.5000 0.6125 8.04s 0.50

4. 单模型详细测试结果

4.1 Gemma-4-31B-IT-Uncensored

4.1.1 分项成绩 测试项 正确 / 通过情况 得分 平均时延 执行失败率 GSM8K 19 / 20 0.95 21.24s - BBH 19 / 20 0.95 29.62s - HumanEval+ 10 / 10 1.00 15.36s 0.00 MBPP+ 10 / 10 1.00 4.35s 0.00 4.1.2 表现分析

以 0.9750 总分断层登顶，是十三个模型中综合实力最强的。
逻辑能力极强，GSM8K 和 BBH 均达到 0.95。BBH 0.95 远超第二名的 0.85。
代码能力满分，HumanEval+ 和 MBPP+ 全部通过。
执行失败率为 0，稳定性最佳之一。
速度适中（17.64s）。

4.1.3 结论

Gemma-4-31B-IT-Uncensored 是本次测试中 综合实力最强、无明显短板 的模型。是当前最值得推荐的全能型首选模型。

4.2 QwOpus3.6-27B（2026-05-26 第二次评测）

4.2.1 分项成绩 测试项 正确 / 通过情况 得分 平均时延 执行失败率 GSM8K 19 / 20 0.95 18.78s - BBH 17 / 20 0.85 36.19s - HumanEval+ 10 / 10 1.00 24.53s 0.00 MBPP+ 10 / 10 1.00 99.03s 0.00 4.2.2 表现分析

总分 0.9500，独占第二。
BBH 0.85，较首轮 0.70 大幅提升（+0.15），是本轮最大亮点。
代码双满分 + 零失败。
平均时延 44.63s，速度中等。
唯一在「代码满分 + BBH ≥ 0.85」双条件同时满足的模型。

4.2.3 结论

QwOpus3.6-27B 经第二次评测后 总分 0.9500、独占第二。是当前最接近 Gemma-4-31B 的模型（差距仅 0.025）。

4.3 Qwen3.6-27B-Neo-Code

4.3.1 分项成绩 测试项 正确 / 通过情况 得分 平均时延 执行失败率 GSM8K 19 / 20 0.95 95.95s - BBH 17 / 20 0.85 111.04s - HumanEval+ 10 / 10 1.00 102.49s 0.00 MBPP+ 9 / 10 0.90 97.57s 0.10 4.3.2 表现分析

以 0.9250 总分并列第三。
BBH 0.85，复杂逻辑推理较强。
HumanEval+ 满分，代码能力 0.95。
执行失败率 0.05。
平均时延 101.76s，速度偏慢。

4.3.3 结论

Qwen3.6-27B-Neo-Code 是 逻辑与代码双强 的模型，并列第三。速度偏慢（101.76s）是其主要短板。

4.4 Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2

4.4.1 分项成绩 测试项 正确 / 通过情况 得分 平均时延 执行失败率 GSM8K 20 / 20 1.00 45.08s - BBH 14 / 20 0.70 32.16s - HumanEval+ 10 / 10 1.00 43.15s 0.00 MBPP+ 10 / 10 1.00 32.62s 0.00 4.4.2 表现分析

GSM8K 满分，数学推理十三个模型中最强。
代码满分，稳定性优秀。
BBH 0.70，复杂逻辑推理有短板。
平均时延 38.25 秒。

4.4.3 结论

Qwen3.5-27B 是 代码满分 + 数学满分 的模型，并列第三。适合数学推理和代码场景，BBH 偏弱。

4.5 Qwen3.6-27B-MTP（2026-05-26 首测）★ 新模型

4.5.1 分项成绩 测试项 正确 / 通过情况 得分 平均时延 执行失败率 GSM8K 18 / 20 0.90 69.58s - BBH 16 / 20 0.80 80.21s - HumanEval+ 10 / 10 1.00 62.88s 0.00 MBPP+ 10 / 10 1.00 124.82s 0.00 4.5.2 评测说明

本次为首测，使用 run_eval.py 评测，命令如下：

python run_eval.py --base-url http://localhost:1234/api/v1/chat --models qwen3.6-27b-mtp --gsm8k-limit 20 --bbh-limit 5 --humaneval-limit 10 --mbpp-limit 10 --request-timeout 900

附加 API 验证测试（rhyme 约束遵循）：

curl http://localhost:1234/api/v1/chat \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen3.6-27b-mtp",
    "system_prompt": "You answer only in rhymes.",
    "input": "What is your favorite color?"
}'

API 验证结果：

模型严格遵循押韵约束，输出完整 AAAA 押韵诗节
推理 token 数 689（占总输出 94%），推理过程详尽
生成速度 27.86 tokens/s
首 token 延迟 1.022s

4.5.3 表现分析

总分 0.9250，首测即并列第三，跻身第一梯队。
GSM8K 0.90，数学推理较强但非顶级。
BBH 0.80，复杂逻辑推理中上水平。
代码双满分 + 零失败，代码稳定性极佳。
平均时延 84.37s，速度偏慢但比原生版（149.94s）快 44%。

4.5.4 Qwen3.6-27B-MTP vs 原生 Qwen3.6-27B 对比 ★ 重点 指标 Qwen3.6-27B（原生） Qwen3.6-27B-MTP 变化 GSM8K 0.95 0.90 -0.05 BBH 0.95 0.80 -0.15 HumanEval+ 0.90 1.00 +0.10 MBPP+ 0.80 1.00 +0.20 逻辑分 0.950 0.850 -0.100 代码分 0.850 1.000 +0.150 总分 0.9000 0.9250 +0.025 时延 149.94s 84.37s -44% 失败率 0.15 0.00 改善排名 8 3 跃升 5 位

解读：

MTP（投机解码）版本实现了定位转换：从「逻辑极强 + 代码较强」转变为「代码满分 + 逻辑中上」
代码能力的提升是最显著的变化：MBPP+ 从 0.80 → 1.00（+0.20），HumanEval+ 从 0.90 → 1.00（+0.10）
速度提升 44%，MTP 投机解码的加速效果明显
代价是 BBH 从 0.95 降至 0.80（-0.15），逻辑推理能力有所削弱
总分反超原生版（0.9250 > 0.9000），排名从第八跃升至并列第三

4.5.5 结论

Qwen3.6-27B-MTP 首测即达到 总分 0.9250、并列第三。相比原生 Qwen3.6-27B，MTP 版本通过投机解码实现了代码满分和速度的双重提升，但以牺牲部分逻辑能力为代价。适合需要「代码满分 + MTP 加速」的场景，是原生版的有力替代方案。

4.6 SuperGemma4-26B-Uncensored

4.6.1 分项成绩 测试项 正确 / 通过情况 得分 平均时延 执行失败率 GSM8K 19 / 20 0.95 3.09s - BBH 16 / 20 0.80 14.34s - HumanEval+ 10 / 10 1.00 1.44s 0.00 MBPP+ 9 / 10 0.90 0.75s 0.10 4.6.2 表现分析

总分 0.9125 并列第六。
速度 4.90s 最快。
代码能力很强，HumanEval+ 满分，MBPP+ 丢 1 题。
执行失败率 0.05。

4.6.3 结论

SuperGemma4-26B-Uncensored 是 速度最快 的模型。极度看重响应速度时首选。

4.7 Qwen3.6-35B-A3B-Uncensored

4.7.1 分项成绩 测试项 正确 / 通过情况 得分 平均时延 执行失败率 GSM8K 19 / 20 0.95 92.47s - BBH 16 / 20 0.80 143.65s - HumanEval+ 10 / 10 1.00 93.43s 0.00 MBPP+ 9 / 10 0.90 71.86s 0.10 4.7.2 表现分析

总分 0.9125，并列第六。
质量高但速度第二慢（100.35s）。

4.7.3 结论

Qwen3.6-35B-A3B-Uncensored 是 质量高但速度较慢 的模型。

4.8 Qwen3.6-27B

4.8.1 分项成绩 测试项 正确 / 通过情况 得分 平均时延 执行失败率 GSM8K 19 / 20 0.95 - - BBH 19 / 20 0.95 - - HumanEval+ 9 / 10 0.90 - 0.10 MBPP+ 8 / 10 0.80 - 0.20 4.8.2 表现分析

总分 0.9000，综合第八。
逻辑极强（0.950），并列第一。
代码 0.85，失败率 0.15。
速度最慢（149.94s）。

4.8.3 结论

Qwen3.6-27B 逻辑极强但速度最慢。建议考虑其 MTP 版本（qwen3.6-27b-mtp）作为替代。

4.9 Gemma-4-31B-IT-Claude-Opus

4.9.1 分项成绩 测试项 正确 / 通过情况 得分 平均时延 执行失败率 GSM8K 17 / 20 0.85 85.28s - BBH 17 / 20 0.85 78.65s - HumanEval+ 8 / 10 0.80 71.41s 0.20 MBPP+ 10 / 10 1.00 41.74s 0.00 4.9.2 表现分析

总分 0.8750，综合第九。
逻辑稳健（GSM8K 0.85、BBH 0.85）。
速度偏慢（69.27s），执行失败率 0.10。

4.9.3 结论

Gemma-4-31B-IT-Claude-Opus 逻辑稳健、代码较强但速度偏慢。

4.10 Gemma 4 - 26B A4B x Claude Opus 4.6

4.10.1 分项成绩 测试项 正确 / 通过情况 得分 平均时延 执行失败率 GSM8K 18 / 20 0.90 18.38s - BBH 13 / 20 0.65 20.64s - HumanEval+ 9 / 10 0.90 18.73s 0.10 MBPP+ 10 / 10 1.00 16.20s 0.00 4.10.2 表现分析

总分 0.8625，综合第十。
均衡型，速度 18.49s。

4.10.3 结论

Gemma 4 - 26B A4B 均衡且响应较快，适合通用助手场景。

4.11 Qwen3.6-27B-Claude-Opus-Reasoning（第四次重测）

4.11.1 分项成绩 测试项 正确 / 通过情况 得分 平均时延 执行失败率 GSM8K 19 / 20 0.95 9.25s - BBH 7 / 20 0.35 9.78s - HumanEval+ 10 / 10 1.00 10.10s 0.00 MBPP+ 10 / 10 1.00 7.28s 0.00 4.11.2 表现分析

总分 0.8250，综合第十一。
代码满分 + 速度快（9.10s），但 BBH 0.35 逻辑严重短板。
定位：代码专精 + 速度优先。

4.11.3 结论

Qwen3.6-27B-Claude-Opus-Reasoning 定位为「代码专精 + 速度优先」，不适合逻辑推理场景。

4.12 Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled

4.12.1 分项成绩 测试项 正确 / 通过情况 得分 平均时延 执行失败率 GSM8K 18 / 20 0.90 26.57s - BBH 6 / 20 0.30 33.21s - HumanEval+ 10 / 10 1.00 129.31s 0.00 MBPP+ 10 / 10 1.00 43.93s 0.00 4.12.2 表现分析

总分 0.8000，综合第十二。
代码满分，BBH 仅 0.30，逻辑短板极明显。
偏代码导向，不推荐综合使用。

4.12.3 结论

Qwen3-Coder-Next 是偏代码专用模型，不适合综合场景。

4.13 SuperGemma4-26B-Abliterated-Multimodal

4.13.1 分项成绩 测试项 正确 / 通过情况 得分 平均时延 执行失败率 GSM8K 18 / 20 0.90 5.95s - BBH 11 / 20 0.55 21.35s - HumanEval+ 1 / 10 0.10 2.37s 0.90 MBPP+ 9 / 10 0.90 2.47s 0.10 4.13.2 表现分析

HumanEval+ 几乎全军覆没，执行失败率 90%。
代码分 0.500，断层垫底。
总执行失败率 0.50，所有模型最差。

4.13.3 结论

不推荐在任何需要代码能力的场景中使用。

5. 横向对比分析

5.1 逻辑能力对比

模型 GSM8K BBH 逻辑分 Gemma-4-31B-IT-Uncensored 0.95 0.95 0.950 Qwen3.6-27B 0.95 0.95 0.950 Qwen3.6-27B-Neo-Code 0.95 0.85 0.900 QwOpus3.6-27B 0.95 0.85 0.900 SuperGemma4-26B-Uncensored 0.95 0.80 0.875 Qwen3.6-35B-A3B-Uncensored 0.95 0.80 0.875 Qwen3.5-27B 1.00 0.70 0.850 Qwen3.6-27B-MTP 0.90 0.80 0.850 Gemma-4-31B-IT-Claude-Opus 0.85 0.85 0.850 Gemma 4 - 26B A4B 0.90 0.65 0.775 SuperGemma4-26B-Abliterated 0.90 0.55 0.725 Qwen3.6-27B-Claude-Opus-Reasoning 0.95 0.35 0.650 Qwen3-Coder-Next 0.90 0.30 0.600

分析：

Gemma-4-31B 与 Qwen3.6-27B 并列逻辑第一（0.950）。
Qwen3.6-27B-MTP 逻辑 0.850（GSM8K 0.90、BBH 0.80），处于中上水平。
逻辑分 ≥ 0.85 共有 9 个模型，MTP 版位列其中。

5.2 代码能力对比

模型 HumanEval+ MBPP+ 代码分 Gemma-4-31B-IT-Uncensored 1.00 1.00 1.000 Qwen3.5-27B 1.00 1.00 1.000 Qwen3-Coder-Next 1.00 1.00 1.000 QwOpus3.6-27B 1.00 1.00 1.000 Qwen3.6-27B-Claude-Opus-Reasoning 1.00 1.00 1.000 Qwen3.6-27B-MTP 1.00 1.00 1.000 Qwen3.6-27B-Neo-Code 1.00 0.90 0.950 SuperGemma4-26B-Uncensored 1.00 0.90 0.950 Qwen3.6-35B-A3B-Uncensored 1.00 0.90 0.950 Gemma 4 - 26B A4B 0.90 1.00 0.950 Gemma-4-31B-IT-Claude-Opus 0.80 1.00 0.900 Qwen3.6-27B 0.90 0.80 0.850 SuperGemma4-26B-Abliterated 0.10 0.90 0.500

分析：

六个模型代码满分，Qwen3.6-27B-MTP 新晋。
代码满分 + 零失败的模型：gemma-4-31b、qwen3.5-27b、qwopus3.6-27b、qwen3.6-27b-mtp、qwen3-coder-next、qwen3.6-27b-claude-opus-reasoning。

5.3 速度对比

模型 平均时延 SuperGemma4-26B-Uncensored 4.90s SuperGemma4-26B-Abliterated 8.04s Qwen3.6-27B-Claude-Opus-Reasoning 9.10s Gemma-4-31B-IT-Uncensored 17.64s Gemma 4 - 26B A4B 18.49s Qwen3.5-27B 38.25s QwOpus3.6-27B 44.63s Qwen3-Coder-Next 58.25s Gemma-4-31B-IT-Claude-Opus 69.27s Qwen3.6-27B-MTP 84.37s Qwen3.6-35B-A3B-Uncensored 100.35s Qwen3.6-27B-Neo-Code 101.76s Qwen3.6-27B 149.94s

5.4 稳定性对比

模型 执行失败率 Gemma-4-31B-IT-Uncensored 0.00 Qwen3.5-27B 0.00 Qwen3-Coder-Next 0.00 QwOpus3.6-27B 0.00 Qwen3.6-27B-Claude-Opus-Reasoning 0.00 Qwen3.6-27B-MTP 0.00 Qwen3.6-27B-Neo-Code 0.05 SuperGemma4-26B-Uncensored 0.05 Qwen3.6-35B-A3B-Uncensored 0.05 Gemma 4 - 26B A4B 0.05 Gemma-4-31B-IT-Claude-Opus 0.10 Qwen3.6-27B 0.15 SuperGemma4-26B-Abliterated 0.50

5.5 「代码满分 + 逻辑强」双维度交叉筛选

模型 代码分 BBH 总分排名 Gemma-4-31B-IT-Uncensored 1.000 0.95 0.9750 1 QwOpus3.6-27B 1.000 0.85 0.9500 2 Qwen3.6-27B-MTP 1.000 0.80 0.9250 3 Qwen3.5-27B 1.000 0.70 0.9250 3 Qwen3.6-27B-Claude-Opus-Reasoning 1.000 0.35 0.8250 11 Qwen3-Coder-Next 1.000 0.30 0.8000 12

BBH 排序：gemma-4-31b(0.95) > qwopus3.6-27b(0.85) > qwen3.6-27b-mtp(0.80) > qwen3.5-27b(0.70) > claude-opus-reasoning(0.35) > qwen3-coder-next(0.30)
Qwen3.6-27B-MTP 代码满分 + BBH 0.80，在代码满分阵营中逻辑排第三

5.6 Qwen3.6-27B 版本对比

版本总分 逻辑分 代码分 时延 失败率 排名 qwen3.6-27b（原生） 0.9000 0.950 0.850 149.94s 0.15 8 qwen3.6-27b-mtp 0.9250 0.850 1.000 84.37s 0.00 3 qwen3.6-27b-claude-opus-reasoning 0.8250 0.650 1.000 9.10s 0.00 11 qwen3.6-27b-neo-code 0.9250 0.900 0.950 101.76s 0.05 3

MTP 版本是原生版的最佳「代码 + 速度」升级：代码满分、速度提升 44%、零失败
Neo-Code 版本是原生版的最佳「逻辑保持」升级：逻辑 0.900、代码 0.950

6. 关键结论

6.1 综合排名

Gemma-4-31B-IT-Uncensored（0.9750，断层第一，逻辑碾压 + 代码满分 + 零失败）
QwOpus3.6-27B（0.9500，独占第二，BBH 大幅提升 + 代码满分 + 零失败）
Qwen3.6-27B-Neo-Code（0.9250，并列第三，逻辑代码双强，速度偏慢）
Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2（0.9250，并列第三，代码 + 数学满分）
**Qwen3.6-27B-MTP **（0.9250，并列第三，首测即跻身第一梯队，代码满分 + MTP 加速）
SuperGemma4-26B-Uncensored（0.9125，并列第六，速度最快 4.90s）
Qwen3.6-35B-A3B-Uncensored（0.9125，并列第六，质量高但速度慢）
Qwen3.6-27B（0.9000，逻辑极强但速度最慢）
Gemma-4-31B-IT-Claude-Opus（0.8750）
Gemma 4 - 26B A4B x Claude Opus 4.6（0.8625）
Qwen3.6-27B-Claude-Opus-Reasoning（0.8250，代码专精）
Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled（0.8000，偏代码专用）
SuperGemma4-26B-Abliterated-Multimodal（0.6125，不推荐）

6.2 场景化推荐

综合最强、全面无短板

Gemma-4-31B-IT-Uncensored（0.9750，断层第一）

综合强 + 代码满分 + 逻辑强

QwOpus3.6-27B（0.9500，BBH 0.85 + 代码满分）

代码满分 + MTP 投机加速

**Qwen3.6-27B-MTP **

总分 0.9250，并列第三，首测即跻身第一梯队
代码双满分 + 零失败
BBH 0.80，逻辑中上
速度 84.37s，比原生版快 44%
原生 Qwen3.6-27B 用户的理想升级方案

综合强 + HumanEval+ 满分 + BBH 强

Qwen3.6-27B-Neo-Code（0.9250，BBH 0.85，速度偏慢 101.76s）

极致速度

SuperGemma4-26B-Uncensored（4.90s 最快）

逻辑极强 + 不在意速度

Qwen3.6-27B（逻辑 0.950 并列第一，但速度 149.94s 最慢；建议考虑 MTP 版本替代）

不推荐

SuperGemma4-26B-Abliterated-Multimodal（HumanEval+ 失败率 90%）

7. 最终总结

本次测试显示，十三个模型在"逻辑、代码、速度、稳定性"四个维度上表现差异显著。

Gemma-4-31B-IT-Uncensored：综合实力断层第一（0.9750），逻辑碾压 + 代码满分 + 零失败，全能型首选。
QwOpus3.6-27B：独占第二（0.9500），BBH 跃升至 0.85，唯一同时实现「代码双满分 + BBH ≥ 0.85」的模型。距第一仅差 0.025。
Qwen3.6-27B-Neo-Code：并列第三（0.9250），逻辑与代码双强，BBH 0.85，速度偏慢。
Qwen3.5-27B：并列第三（0.9250），代码满分 + 数学满分，BBH 0.70。
Qwen3.6-27B-MTP ★：并列第三（0.9250），首测即跻身第一梯队。相比原生版实现「代码满分 + 速度提升 44%」，是原生用户的理想升级方案。
SuperGemma4-26B-Uncensored：并列第六（0.9125），速度极快（4.90s）。
Qwen3.6-35B-A3B-Uncensored：并列第六（0.9125），质量高但速度第二慢。
Qwen3.6-27B：综合第八（0.9000），逻辑极强并列第一，速度最慢（149.94s）。
Gemma-4-31B-IT-Claude-Opus：综合第九（0.8750），逻辑稳健。
Gemma 4 - 26B A4B：综合第十（0.8625），均衡型，速度较快。
Qwen3.6-27B-Claude-Opus-Reasoning：综合第十一（0.8250），代码专精 + 速度优先，逻辑短板。
Qwen3-Coder-Next：综合第十二（0.8000），偏代码专用。
SuperGemma4-26B-Abliterated-Multimodal：综合第十三（0.6125），不推荐。

最终推荐（按优先级）：

Gemma-4-31B-IT-Uncensored — 综合最强，全能首选
QwOpus3.6-27B — 代码满分 + BBH 0.85，性价比最高的综合强者
**Qwen3.6-27B-MTP ** — 代码满分 + MTP 加速，原生版最佳替代
SuperGemma4-26B-Uncensored — 速度 4.90s 最快，交互效率优先

14 个帖子 - 12 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文