优化技术炸裂,超十款本地部署模型横向对比测评

优化技术炸裂,超十款本地部署模型横向对比测评
优化技术炸裂,超十款本地部署模型横向对比测评

十三个模型评测测试报告

1). 测试概述

本次测试针对以下十三个模型进行了统一条件下的对比评测:

  • Gemma-4-31B-IT-Uncensored

  • QwOpus3.6-27B

  • Qwen3.6-27B-Neo-Code

  • Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2

  • Qwen3.6-27B-MTP

  • SuperGemma4-26B-Uncensored

  • Qwen3.6-35B-A3B-Uncensored

  • Qwen3.6-27B

  • Gemma-4-31B-IT-Claude-Opus

  • Gemma 4 - 26B A4B x Claude Opus 4.6

  • Qwen3.6-27B-Claude-Opus-Reasoning

  • Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled

  • SuperGemma4-26B-Abliterated-Multimodal

我下载的都是Q4_K_M量化版

2).电脑硬件参数

硬件类型 型号/规格 显卡 NVIDIA GeForce RTX 4090 内存 64GB DDR5 CPU Intel Core i9-13900K

测试目标是从逻辑推理能力、代码生成能力、响应速度、运行稳定性四个维度,评估十三个模型在实际使用场景中的综合表现。

2. 测试方法与统一设置

为保证横向比较公平,本次评测使用了完全一致的测试方式和参数设置。

2.1 统一参数

  • temperature:0.0

  • top_p:1.0

  • 每题采样次数:1

  • 不使用 LLM 裁判

  • 逻辑题采用 exact match 评分

  • 代码题采用程序执行与测试通过率评分

2.2 测试集规模

  • GSM8K:20 题

  • BBH:20 题

  • HumanEval+:10 题

  • MBPP+:10 题

2.3 评分公式

  • 逻辑分 = (GSM8K + BBH) / 2

  • 代码分 = (HumanEval+ + MBPP+) / 2

  • 总分 = (逻辑分 + 代码分) / 2

2.4 评测命令

本次评测使用 run_eval.py 进行:

python run_eval.py --base-url http://localhost:1234/api/v1/chat --models qwen3.6-27b-mtp --gsm8k-limit 20 --bbh-limit 5 --humaneval-limit 10 --mbpp-limit 10 --request-timeout 900

3. 总体结果汇总

排名 模型 逻辑分 代码分 总分 平均时延 执行失败率 1 Gemma-4-31B-IT-Uncensored 0.9500 1.0000 0.9750 17.64s 0.00 2 QwOpus3.6-27B 0.9000 1.0000 0.9500 44.63s 0.00 3 Qwen3.6-27B-Neo-Code 0.9000 0.9500 0.9250 101.76s 0.05 3 Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2 0.8500 1.0000 0.9250 38.25s 0.00 3 Qwen3.6-27B-MTP 0.8500 1.0000 0.9250 84.37s 0.00 6 SuperGemma4-26B-Uncensored 0.8750 0.9500 0.9125 4.90s 0.05 6 Qwen3.6-35B-A3B-Uncensored 0.8750 0.9500 0.9125 100.35s 0.05 8 Qwen3.6-27B 0.9500 0.8500 0.9000 149.94s 0.15 9 Gemma-4-31B-IT-Claude-Opus 0.8500 0.9000 0.8750 69.27s 0.10 10 Gemma 4 - 26B A4B x Claude Opus 4.6 0.7750 0.9500 0.8625 18.49s 0.05 11 Qwen3.6-27B-Claude-Opus-Reasoning 0.6500 1.0000 0.8250 9.10s 0.00 12 Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled 0.6000 1.0000 0.8000 58.25s 0.00 13 SuperGemma4-26B-Abliterated-Multimodal 0.7250 0.5000 0.6125 8.04s 0.50

4. 单模型详细测试结果

4.1 Gemma-4-31B-IT-Uncensored

4.1.1 分项成绩 测试项 正确 / 通过情况 得分 平均时延 执行失败率 GSM8K 19 / 20 0.95 21.24s - BBH 19 / 20 0.95 29.62s - HumanEval+ 10 / 10 1.00 15.36s 0.00 MBPP+ 10 / 10 1.00 4.35s 0.00 4.1.2 表现分析
  • 0.9750 总分断层登顶,是十三个模型中综合实力最强的。

  • 逻辑能力极强,GSM8K 和 BBH 均达到 0.95。BBH 0.95 远超第二名的 0.85。

  • 代码能力满分,HumanEval+ 和 MBPP+ 全部通过。

  • 执行失败率为 0,稳定性最佳之一。

  • 速度适中(17.64s)。

4.1.3 结论

Gemma-4-31B-IT-Uncensored 是本次测试中 综合实力最强、无明显短板 的模型。是当前最值得推荐的全能型首选模型。


4.2 QwOpus3.6-27B(2026-05-26 第二次评测)

4.2.1 分项成绩 测试项 正确 / 通过情况 得分 平均时延 执行失败率 GSM8K 19 / 20 0.95 18.78s - BBH 17 / 20 0.85 36.19s - HumanEval+ 10 / 10 1.00 24.53s 0.00 MBPP+ 10 / 10 1.00 99.03s 0.00 4.2.2 表现分析
  • 总分 0.9500,独占第二

  • BBH 0.85,较首轮 0.70 大幅提升(+0.15),是本轮最大亮点。

  • 代码双满分 + 零失败。

  • 平均时延 44.63s,速度中等。

  • 唯一在「代码满分 + BBH ≥ 0.85」双条件同时满足的模型。

4.2.3 结论

QwOpus3.6-27B 经第二次评测后 总分 0.9500、独占第二。是当前最接近 Gemma-4-31B 的模型(差距仅 0.025)。


4.3 Qwen3.6-27B-Neo-Code

4.3.1 分项成绩 测试项 正确 / 通过情况 得分 平均时延 执行失败率 GSM8K 19 / 20 0.95 95.95s - BBH 17 / 20 0.85 111.04s - HumanEval+ 10 / 10 1.00 102.49s 0.00 MBPP+ 9 / 10 0.90 97.57s 0.10 4.3.2 表现分析
  • 0.9250 总分并列第三

  • BBH 0.85,复杂逻辑推理较强。

  • HumanEval+ 满分,代码能力 0.95。

  • 执行失败率 0.05。

  • 平均时延 101.76s,速度偏慢

4.3.3 结论

Qwen3.6-27B-Neo-Code 是 逻辑与代码双强 的模型,并列第三。速度偏慢(101.76s)是其主要短板。


4.4 Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2

4.4.1 分项成绩 测试项 正确 / 通过情况 得分 平均时延 执行失败率 GSM8K 20 / 20 1.00 45.08s - BBH 14 / 20 0.70 32.16s - HumanEval+ 10 / 10 1.00 43.15s 0.00 MBPP+ 10 / 10 1.00 32.62s 0.00 4.4.2 表现分析
  • GSM8K 满分,数学推理十三个模型中最强。

  • 代码满分,稳定性优秀。

  • BBH 0.70,复杂逻辑推理有短板。

  • 平均时延 38.25 秒。

4.4.3 结论

Qwen3.5-27B 是 代码满分 + 数学满分 的模型,并列第三。适合数学推理和代码场景,BBH 偏弱。


4.5 Qwen3.6-27B-MTP(2026-05-26 首测)★ 新模型

4.5.1 分项成绩 测试项 正确 / 通过情况 得分 平均时延 执行失败率 GSM8K 18 / 20 0.90 69.58s - BBH 16 / 20 0.80 80.21s - HumanEval+ 10 / 10 1.00 62.88s 0.00 MBPP+ 10 / 10 1.00 124.82s 0.00 4.5.2 评测说明

本次为首测,使用 run_eval.py 评测,命令如下:

python run_eval.py --base-url http://localhost:1234/api/v1/chat --models qwen3.6-27b-mtp --gsm8k-limit 20 --bbh-limit 5 --humaneval-limit 10 --mbpp-limit 10 --request-timeout 900

附加 API 验证测试(rhyme 约束遵循):

curl http://localhost:1234/api/v1/chat \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen3.6-27b-mtp",
    "system_prompt": "You answer only in rhymes.",
    "input": "What is your favorite color?"
}'

API 验证结果:

  • 模型严格遵循押韵约束,输出完整 AAAA 押韵诗节

  • 推理 token 数 689(占总输出 94%),推理过程详尽

  • 生成速度 27.86 tokens/s

  • 首 token 延迟 1.022s

4.5.3 表现分析
  • 总分 0.9250,首测即并列第三,跻身第一梯队。

  • GSM8K 0.90,数学推理较强但非顶级。

  • BBH 0.80,复杂逻辑推理中上水平。

  • 代码双满分 + 零失败,代码稳定性极佳。

  • 平均时延 84.37s,速度偏慢但比原生版(149.94s)快 44%。

4.5.4 Qwen3.6-27B-MTP vs 原生 Qwen3.6-27B 对比 ★ 重点 指标 Qwen3.6-27B(原生) Qwen3.6-27B-MTP 变化 GSM8K 0.95 0.90 -0.05 BBH 0.95 0.80 -0.15 HumanEval+ 0.90 1.00 +0.10 MBPP+ 0.80 1.00 +0.20 逻辑分 0.950 0.850 -0.100 代码分 0.850 1.000 +0.150 总分 0.9000 0.9250 +0.025 时延 149.94s 84.37s -44% 失败率 0.15 0.00 改善 排名 8 3 跃升 5 位

解读:

  • MTP(投机解码)版本实现了定位转换:从「逻辑极强 + 代码较强」转变为「代码满分 + 逻辑中上」

  • 代码能力的提升是最显著的变化:MBPP+ 从 0.80 → 1.00(+0.20),HumanEval+ 从 0.90 → 1.00(+0.10)

  • 速度提升 44%,MTP 投机解码的加速效果明显

  • 代价是 BBH 从 0.95 降至 0.80(-0.15),逻辑推理能力有所削弱

  • 总分反超原生版(0.9250 > 0.9000),排名从第八跃升至并列第三

4.5.5 结论

Qwen3.6-27B-MTP 首测即达到 总分 0.9250、并列第三。相比原生 Qwen3.6-27B,MTP 版本通过投机解码实现了代码满分和速度的双重提升,但以牺牲部分逻辑能力为代价。适合需要「代码满分 + MTP 加速」的场景,是原生版的有力替代方案。


4.6 SuperGemma4-26B-Uncensored

4.6.1 分项成绩 测试项 正确 / 通过情况 得分 平均时延 执行失败率 GSM8K 19 / 20 0.95 3.09s - BBH 16 / 20 0.80 14.34s - HumanEval+ 10 / 10 1.00 1.44s 0.00 MBPP+ 9 / 10 0.90 0.75s 0.10 4.6.2 表现分析
  • 总分 0.9125 并列第六。

  • 速度 4.90s 最快

  • 代码能力很强,HumanEval+ 满分,MBPP+ 丢 1 题。

  • 执行失败率 0.05。

4.6.3 结论

SuperGemma4-26B-Uncensored 是 速度最快 的模型。极度看重响应速度时首选。


4.7 Qwen3.6-35B-A3B-Uncensored

4.7.1 分项成绩 测试项 正确 / 通过情况 得分 平均时延 执行失败率 GSM8K 19 / 20 0.95 92.47s - BBH 16 / 20 0.80 143.65s - HumanEval+ 10 / 10 1.00 93.43s 0.00 MBPP+ 9 / 10 0.90 71.86s 0.10 4.7.2 表现分析
  • 总分 0.9125,并列第六。

  • 质量高但速度第二慢(100.35s)。

4.7.3 结论

Qwen3.6-35B-A3B-Uncensored 是 质量高但速度较慢 的模型。


4.8 Qwen3.6-27B

4.8.1 分项成绩 测试项 正确 / 通过情况 得分 平均时延 执行失败率 GSM8K 19 / 20 0.95 - - BBH 19 / 20 0.95 - - HumanEval+ 9 / 10 0.90 - 0.10 MBPP+ 8 / 10 0.80 - 0.20 4.8.2 表现分析
  • 总分 0.9000,综合第八。

  • 逻辑极强(0.950),并列第一。

  • 代码 0.85,失败率 0.15。

  • 速度最慢(149.94s)

4.8.3 结论

Qwen3.6-27B 逻辑极强但速度最慢。建议考虑其 MTP 版本(qwen3.6-27b-mtp)作为替代。


4.9 Gemma-4-31B-IT-Claude-Opus

4.9.1 分项成绩 测试项 正确 / 通过情况 得分 平均时延 执行失败率 GSM8K 17 / 20 0.85 85.28s - BBH 17 / 20 0.85 78.65s - HumanEval+ 8 / 10 0.80 71.41s 0.20 MBPP+ 10 / 10 1.00 41.74s 0.00 4.9.2 表现分析
  • 总分 0.8750,综合第九。

  • 逻辑稳健(GSM8K 0.85、BBH 0.85)。

  • 速度偏慢(69.27s),执行失败率 0.10。

4.9.3 结论

Gemma-4-31B-IT-Claude-Opus 逻辑稳健、代码较强但速度偏慢。


4.10 Gemma 4 - 26B A4B x Claude Opus 4.6

4.10.1 分项成绩 测试项 正确 / 通过情况 得分 平均时延 执行失败率 GSM8K 18 / 20 0.90 18.38s - BBH 13 / 20 0.65 20.64s - HumanEval+ 9 / 10 0.90 18.73s 0.10 MBPP+ 10 / 10 1.00 16.20s 0.00 4.10.2 表现分析
  • 总分 0.8625,综合第十。

  • 均衡型,速度 18.49s。

4.10.3 结论

Gemma 4 - 26B A4B 均衡且响应较快,适合通用助手场景。


4.11 Qwen3.6-27B-Claude-Opus-Reasoning(第四次重测)

4.11.1 分项成绩 测试项 正确 / 通过情况 得分 平均时延 执行失败率 GSM8K 19 / 20 0.95 9.25s - BBH 7 / 20 0.35 9.78s - HumanEval+ 10 / 10 1.00 10.10s 0.00 MBPP+ 10 / 10 1.00 7.28s 0.00 4.11.2 表现分析
  • 总分 0.8250,综合第十一。

  • 代码满分 + 速度快(9.10s),但 BBH 0.35 逻辑严重短板。

  • 定位:代码专精 + 速度优先。

4.11.3 结论

Qwen3.6-27B-Claude-Opus-Reasoning 定位为「代码专精 + 速度优先」,不适合逻辑推理场景。


4.12 Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled

4.12.1 分项成绩 测试项 正确 / 通过情况 得分 平均时延 执行失败率 GSM8K 18 / 20 0.90 26.57s - BBH 6 / 20 0.30 33.21s - HumanEval+ 10 / 10 1.00 129.31s 0.00 MBPP+ 10 / 10 1.00 43.93s 0.00 4.12.2 表现分析
  • 总分 0.8000,综合第十二。

  • 代码满分,BBH 仅 0.30,逻辑短板极明显。

  • 偏代码导向,不推荐综合使用。

4.12.3 结论

Qwen3-Coder-Next 是偏代码专用模型,不适合综合场景。


4.13 SuperGemma4-26B-Abliterated-Multimodal

4.13.1 分项成绩 测试项 正确 / 通过情况 得分 平均时延 执行失败率 GSM8K 18 / 20 0.90 5.95s - BBH 11 / 20 0.55 21.35s - HumanEval+ 1 / 10 0.10 2.37s 0.90 MBPP+ 9 / 10 0.90 2.47s 0.10 4.13.2 表现分析
  • HumanEval+ 几乎全军覆没,执行失败率 90%。

  • 代码分 0.500,断层垫底。

  • 总执行失败率 0.50,所有模型最差。

4.13.3 结论

不推荐在任何需要代码能力的场景中使用。

5. 横向对比分析

5.1 逻辑能力对比

模型 GSM8K BBH 逻辑分 Gemma-4-31B-IT-Uncensored 0.95 0.95 0.950 Qwen3.6-27B 0.95 0.95 0.950 Qwen3.6-27B-Neo-Code 0.95 0.85 0.900 QwOpus3.6-27B 0.95 0.85 0.900 SuperGemma4-26B-Uncensored 0.95 0.80 0.875 Qwen3.6-35B-A3B-Uncensored 0.95 0.80 0.875 Qwen3.5-27B 1.00 0.70 0.850 Qwen3.6-27B-MTP 0.90 0.80 0.850 Gemma-4-31B-IT-Claude-Opus 0.85 0.85 0.850 Gemma 4 - 26B A4B 0.90 0.65 0.775 SuperGemma4-26B-Abliterated 0.90 0.55 0.725 Qwen3.6-27B-Claude-Opus-Reasoning 0.95 0.35 0.650 Qwen3-Coder-Next 0.90 0.30 0.600

分析:

  • Gemma-4-31B 与 Qwen3.6-27B 并列逻辑第一(0.950)。

  • Qwen3.6-27B-MTP 逻辑 0.850(GSM8K 0.90、BBH 0.80),处于中上水平。

  • 逻辑分 ≥ 0.85 共有 9 个模型,MTP 版位列其中。

5.2 代码能力对比

模型 HumanEval+ MBPP+ 代码分 Gemma-4-31B-IT-Uncensored 1.00 1.00 1.000 Qwen3.5-27B 1.00 1.00 1.000 Qwen3-Coder-Next 1.00 1.00 1.000 QwOpus3.6-27B 1.00 1.00 1.000 Qwen3.6-27B-Claude-Opus-Reasoning 1.00 1.00 1.000 Qwen3.6-27B-MTP 1.00 1.00 1.000 Qwen3.6-27B-Neo-Code 1.00 0.90 0.950 SuperGemma4-26B-Uncensored 1.00 0.90 0.950 Qwen3.6-35B-A3B-Uncensored 1.00 0.90 0.950 Gemma 4 - 26B A4B 0.90 1.00 0.950 Gemma-4-31B-IT-Claude-Opus 0.80 1.00 0.900 Qwen3.6-27B 0.90 0.80 0.850 SuperGemma4-26B-Abliterated 0.10 0.90 0.500

分析:

  • 六个模型代码满分,Qwen3.6-27B-MTP 新晋。

  • 代码满分 + 零失败的模型:gemma-4-31b、qwen3.5-27b、qwopus3.6-27b、qwen3.6-27b-mtp、qwen3-coder-next、qwen3.6-27b-claude-opus-reasoning。

5.3 速度对比

模型 平均时延 SuperGemma4-26B-Uncensored 4.90s SuperGemma4-26B-Abliterated 8.04s Qwen3.6-27B-Claude-Opus-Reasoning 9.10s Gemma-4-31B-IT-Uncensored 17.64s Gemma 4 - 26B A4B 18.49s Qwen3.5-27B 38.25s QwOpus3.6-27B 44.63s Qwen3-Coder-Next 58.25s Gemma-4-31B-IT-Claude-Opus 69.27s Qwen3.6-27B-MTP 84.37s Qwen3.6-35B-A3B-Uncensored 100.35s Qwen3.6-27B-Neo-Code 101.76s Qwen3.6-27B 149.94s

5.4 稳定性对比

模型 执行失败率 Gemma-4-31B-IT-Uncensored 0.00 Qwen3.5-27B 0.00 Qwen3-Coder-Next 0.00 QwOpus3.6-27B 0.00 Qwen3.6-27B-Claude-Opus-Reasoning 0.00 Qwen3.6-27B-MTP 0.00 Qwen3.6-27B-Neo-Code 0.05 SuperGemma4-26B-Uncensored 0.05 Qwen3.6-35B-A3B-Uncensored 0.05 Gemma 4 - 26B A4B 0.05 Gemma-4-31B-IT-Claude-Opus 0.10 Qwen3.6-27B 0.15 SuperGemma4-26B-Abliterated 0.50

5.5 「代码满分 + 逻辑强」双维度交叉筛选

模型 代码分 BBH 总分 排名 Gemma-4-31B-IT-Uncensored 1.000 0.95 0.9750 1 QwOpus3.6-27B 1.000 0.85 0.9500 2 Qwen3.6-27B-MTP 1.000 0.80 0.9250 3 Qwen3.5-27B 1.000 0.70 0.9250 3 Qwen3.6-27B-Claude-Opus-Reasoning 1.000 0.35 0.8250 11 Qwen3-Coder-Next 1.000 0.30 0.8000 12
  • BBH 排序:gemma-4-31b(0.95) > qwopus3.6-27b(0.85) > qwen3.6-27b-mtp(0.80) > qwen3.5-27b(0.70) > claude-opus-reasoning(0.35) > qwen3-coder-next(0.30)

  • Qwen3.6-27B-MTP 代码满分 + BBH 0.80,在代码满分阵营中逻辑排第三

5.6 Qwen3.6-27B 版本对比

版本 总分 逻辑分 代码分 时延 失败率 排名 qwen3.6-27b(原生) 0.9000 0.950 0.850 149.94s 0.15 8 qwen3.6-27b-mtp 0.9250 0.850 1.000 84.37s 0.00 3 qwen3.6-27b-claude-opus-reasoning 0.8250 0.650 1.000 9.10s 0.00 11 qwen3.6-27b-neo-code 0.9250 0.900 0.950 101.76s 0.05 3
  • MTP 版本是原生版的最佳「代码 + 速度」升级:代码满分、速度提升 44%、零失败

  • Neo-Code 版本是原生版的最佳「逻辑保持」升级:逻辑 0.900、代码 0.950

6. 关键结论

6.1 综合排名

  1. Gemma-4-31B-IT-Uncensored(0.9750,断层第一,逻辑碾压 + 代码满分 + 零失败)

  2. QwOpus3.6-27B(0.9500,独占第二,BBH 大幅提升 + 代码满分 + 零失败)

  3. Qwen3.6-27B-Neo-Code(0.9250,并列第三,逻辑代码双强,速度偏慢)

  4. Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2(0.9250,并列第三,代码 + 数学满分)

  5. **Qwen3.6-27B-MTP **(0.9250,并列第三,首测即跻身第一梯队,代码满分 + MTP 加速)

  6. SuperGemma4-26B-Uncensored(0.9125,并列第六,速度最快 4.90s)

  7. Qwen3.6-35B-A3B-Uncensored(0.9125,并列第六,质量高但速度慢)

  8. Qwen3.6-27B(0.9000,逻辑极强但速度最慢)

  9. Gemma-4-31B-IT-Claude-Opus(0.8750)

  10. Gemma 4 - 26B A4B x Claude Opus 4.6(0.8625)

  11. Qwen3.6-27B-Claude-Opus-Reasoning(0.8250,代码专精)

  12. Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled(0.8000,偏代码专用)

  13. SuperGemma4-26B-Abliterated-Multimodal(0.6125,不推荐)

6.2 场景化推荐

综合最强、全面无短板

Gemma-4-31B-IT-Uncensored(0.9750,断层第一)

综合强 + 代码满分 + 逻辑强

QwOpus3.6-27B(0.9500,BBH 0.85 + 代码满分)

代码满分 + MTP 投机加速

**Qwen3.6-27B-MTP **

  • 总分 0.9250,并列第三,首测即跻身第一梯队

  • 代码双满分 + 零失败

  • BBH 0.80,逻辑中上

  • 速度 84.37s,比原生版快 44%

  • 原生 Qwen3.6-27B 用户的理想升级方案

综合强 + HumanEval+ 满分 + BBH 强

Qwen3.6-27B-Neo-Code(0.9250,BBH 0.85,速度偏慢 101.76s)

极致速度

SuperGemma4-26B-Uncensored(4.90s 最快)

逻辑极强 + 不在意速度

Qwen3.6-27B(逻辑 0.950 并列第一,但速度 149.94s 最慢;建议考虑 MTP 版本替代)

不推荐

SuperGemma4-26B-Abliterated-Multimodal(HumanEval+ 失败率 90%)

7. 最终总结

本次测试显示,十三个模型在"逻辑、代码、速度、稳定性"四个维度上表现差异显著。

  • Gemma-4-31B-IT-Uncensored:综合实力断层第一(0.9750),逻辑碾压 + 代码满分 + 零失败,全能型首选。

  • QwOpus3.6-27B:独占第二(0.9500),BBH 跃升至 0.85,唯一同时实现「代码双满分 + BBH ≥ 0.85」的模型。距第一仅差 0.025。

  • Qwen3.6-27B-Neo-Code:并列第三(0.9250),逻辑与代码双强,BBH 0.85,速度偏慢。

  • Qwen3.5-27B:并列第三(0.9250),代码满分 + 数学满分,BBH 0.70。

  • Qwen3.6-27B-MTP ★:并列第三(0.9250),首测即跻身第一梯队。相比原生版实现「代码满分 + 速度提升 44%」,是原生用户的理想升级方案。

  • SuperGemma4-26B-Uncensored:并列第六(0.9125),速度极快(4.90s)。

  • Qwen3.6-35B-A3B-Uncensored:并列第六(0.9125),质量高但速度第二慢。

  • Qwen3.6-27B:综合第八(0.9000),逻辑极强并列第一,速度最慢(149.94s)。

  • Gemma-4-31B-IT-Claude-Opus:综合第九(0.8750),逻辑稳健。

  • Gemma 4 - 26B A4B:综合第十(0.8625),均衡型,速度较快。

  • Qwen3.6-27B-Claude-Opus-Reasoning:综合第十一(0.8250),代码专精 + 速度优先,逻辑短板。

  • Qwen3-Coder-Next:综合第十二(0.8000),偏代码专用。

  • SuperGemma4-26B-Abliterated-Multimodal:综合第十三(0.6125),不推荐。

最终推荐(按优先级):

  1. Gemma-4-31B-IT-Uncensored — 综合最强,全能首选

  2. QwOpus3.6-27B — 代码满分 + BBH 0.85,性价比最高的综合强者

  3. **Qwen3.6-27B-MTP ** — 代码满分 + MTP 加速,原生版最佳替代

  4. SuperGemma4-26B-Uncensored — 速度 4.90s 最快,交互效率优先

14 个帖子 - 12 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文