35b - WWW.YOUINFO.SITE - WWW.YOUINFO.SITE

RTX4060-8G本地运行Qwen3.6 35B A3B模型；台式机，拓展坞双场景测试结果

LinuxDo 最新话题 · 2026-05-20 09:01:20+08:00 · tech

本人手头有两张4060，一直很想跑稍大一些（相比9B 4B）的模型，基于最近llama.cpp支持的一些新功能运行35B A3B模型测试。模型 Qwen3.6 35B A3B APEX-MTP Qwen3.6-35B-A3B-APEX-MTP-I-Mini.gguf -》13.7 GB 省流：台式机和USB4拓展坞都可以跑在8g显存的显卡上，MTP的速度挺快的， 30+tokens/s ，代码能跑到 45-50 因为显存不够，上下文prompt太多了以后处理起来很慢，拓展坞情况比我的台式机慢3-4倍补充：台式机后续尝试了I-Compact和I-Quality，发现速度有下降，但是不明显 4060还是玩9B吧…跑起来还快点，当然不嫌慢，等这个慢慢跑也行（我记得特总视频也提过这一点） 8 个帖子 - 4 位参与者阅读完整话题

618下单电脑

LinuxDo 最新话题 · 2026-05-18 17:42:20+08:00 · tech

这个配置能跑起来qwen 3.6 35B A 3B 吗？速度有多少，不行就专门用来打游戏了 6 个帖子 - 5 位参与者阅读完整话题

求助，本地部署的qwen3.6-35b-a3b在陪读娃中怎么关闭思考？

linux.do · 2026-05-04 18:55:36+08:00 · tech

在网上找的，使用这个配置不行，佬们都用什么？我还是想保留他的思考模式，只是翻译不需要。提示词前加/no_think也不行。 12 个帖子 - 6 位参与者阅读完整话题

摩尔线程 × 中国移动：国产 GPU 支撑央企大模型，S5000 完成九天 35B 适配

www.ithome.com · 2026-04-28 08:38:51+08:00 · tech

IT之家 4 月 28 日消息，中国移动自主研发的九天 35B 通用大模型将在第九届数字中国建设峰会上正式发布。摩尔线程官方昨晚宣布，其基于旗舰级 AI 训推一体全功能 GPU MTT S5000，依托成熟的 MUSA 软件栈与高性能算子优化，已率先完成九天 35B 模型的全流程适配与推理验证。据介绍，本次适配中，摩尔线程基于自研 MUSA 软件栈与 SGLang-MUSA 高性能推理引擎，深度打通九天 35B 模型推理全链路。 MTT S5000 基于第四代 MUSA“平湖”架构打造，单卡 AI 稠密算力可达 1000 TFLOPS ，支持从 FP8 到 FP64 全精度计算，匹配九天 35B 大模型在长文本处理与高并发响应方面的核心需求。摩尔线程通过 MUSA C 开发框架、muDNN 计算库与 MATE 开源算子库的全栈优化，针对九天 35B 模型特有的注意力机制与长序列推理进行深度适配，确保模型在 MTT S5000 上高效执行。在标准推理场景下，MTT S5000 可稳定支撑九天 35B 模型的高并发请求。 IT之家注：MTT S5000 是专为大模型训练、推理及高性能计算而设计的全功能 GPU 智算卡，基于第四代 MUSA 架构“平湖”打造。其单卡 AI 算力最高可达 1000 TFLOPS，配备 80GB 显存，显存带宽达到 1.6TB/s，卡间互联带宽为 784GB/s，完整支持从 FP8 到 FP64 的全精度计算。

qwen3.6-35b-a3b-apex 天气卡片测试

linux.do · 2026-04-27 11:00:08+08:00 · tech

是在hermes中生成的，提示词如下：你是 Apple Inc 的顶级 UI 设计师，以 iOS 18 的设计风格（毛玻璃效果、高斯模糊、动态渐变、细腻阴影）创建一个单个HTML文件（包含完整CSS和JavaScript）。实现横板天气页面，包含4个并排的动画天气卡片：晴天（太阳光线、动态光晕）大风（飘动云朵、摇曳树木、风线）暴雨（下落雨滴、形成水洼、闪电）暴雪（下落雪花、堆积效果）卡片需深色背景，支持按钮切换天气状态，实现流畅交互和微动效。代码必须可直接运行，美观度优先。感觉还不错啊（是我审美有问题吗？ 2 个帖子 - 2 位参与者阅读完整话题

[AI Agent 智能体] 简单使用了一周在本地 Mac 的 qwen3.6-35b-a3b 模型

v2ex.com · 2026-04-27 09:30:50+08:00 · tech

感觉本地的模型有很大的潜力，但也有局限，主要是受限于硬件吧。以下几点：除了复杂架构调整分析工作外，日常的 CRUD 开发、项目总结、文档翻译、需求输入和模块的 Bug 修复上，几乎可以替代在线模型。复杂分析以及深度的问题查找、大上下文还受限于模型规模和内存。经过豆包和模型自身给出 llm 优化建议，使用 GGUF 模型能跑出 33 token/s 的速度，使用 MLX 能到 38 token/s 。 36G 内存不够，开太大上下文会爆显存，只能重启。第一次体会到 Mac 的性能居然这么不够用，搞得都想换 M5 Max 了，但感觉专门为 AI 也不是特别值得。

[AI Agent 智能体] 简单使用了一周在本地 Mac 的 qwen3.6-35b-a3b 模型

v2ex.com · 2026-04-27 09:30:50+08:00 · tech

感觉本地的模型有很大的潜力，但也有局限，主要是受限于硬件吧。以下几点：除了复杂架构调整分析工作外，日常的 CRUD 开发、项目总结、文档翻译、需求输入和模块的 Bug 修复上，几乎可以替代在线模型。复杂分析以及深度的问题查找、大上下文还受限于模型规模和内存。经过豆包和模型自身给出 llm 优化建议，使用 GGUF 模型能跑出 33 token/s 的速度，使用 MLX 能到 38 token/s 。 36G 内存不够，开太大上下文会爆显存，只能重启。第一次体会到 Mac 的性能居然这么不够用，搞得都想换 M5 Max 了，但感觉专门为 AI 也不是特别值得。

[AI Agent 智能体] 简单使用了一周在本地 Mac 的 qwen3.6-35b-a3b 模型

v2ex.com · 2026-04-27 09:14:03+08:00 · tech

感觉本地的模型有很大的潜力，但也有局限，主要是受限于硬件吧。以下几点：除了复杂架构调整分析工作外，日常的 CRUD 开发、项目总结、文档翻译、需求输入和模块的 Bug 修复上，几乎可以替代在线模型。复杂分析以及深度的问题查找、大上下文还受限于模型规模和内存。经过豆包和模型自身给出 llm 优化建议，使用 GGUF 模型能跑出 33 token/s 的速度，使用 MLX 能到 38 token/s 。 36G 内存不够，开太大上下文会爆显存，只能重启。第一次体会到 Mac 的性能居然这么不够用，搞得都想换 M5 Max 了，但感觉专门为 AI 也不是特别值得。

[AI Agent 智能体] 简单使用了一周在本地 Mac 的 qwen3.6-35b-a3b 模型

v2ex.com · 2026-04-27 07:47:44+08:00 · tech

感觉本地的模型有很大的潜力，但也有局限，主要是受限于硬件吧。以下几点：除了复杂架构调整分析工作外，日常的 CRUD 开发、项目总结、文档翻译、需求输入和模块的 Bug 修复上，几乎可以替代在线模型。复杂分析以及深度的问题查找、大上下文还受限于模型规模和内存。经过豆包和模型自身给出 llm 优化建议，使用 GGUF 模型能跑出 33 token/s 的速度，使用 MLX 能到 38 token/s 。 36G 内存不够，开太大上下文会爆显存，只能重启。第一次体会到 Mac 的性能居然这么不够用，搞得都想换 M5 Max 了，但感觉专门为 AI 也不是特别值得。

[AI Agent 智能体] 简单使用了一周在本地 Mac 的 qwen3.6-35b-a3b 模型

v2ex.com · 2026-04-27 07:47:44+08:00 · tech

感觉本地的模型有很大的潜力，但也有局限，主要是受限于硬件吧。以下几点：除了复杂架构调整分析工作外，日常的 CRUD 开发、项目总结、文档翻译、需求输入和模块的 Bug 修复上，几乎可以替代在线模型。复杂分析以及深度的问题查找、大上下文还受限于模型规模和内存。经过豆包和模型自身给出 llm 优化建议，使用 GGUF 模型能跑出 33 token/s 的速度，使用 MLX 能到 38 token/s 。 36G 内存不够，开太大上下文会爆显存，只能重启。第一次体会到 Mac 的性能居然这么不够用，搞得都想换 M5 Max 了，但感觉专门为 AI 也不是特别值得。

各位推荐一个 32G Macbook air M5 可以跑的 moe 模型

www.v2ex.com · 2026-04-26 18:30:30+08:00 · tech