现在用 Gemma4 31b 来跑 Hermes. 总体还行毕竟免费,但总是动不动就直接修改,有没有什么工具或者插件可以强制模型遵循先确认再修改,或者类似 opencode 那种规划和执行分开的模型?谢谢大家 3 个帖子 - 2 位参与者 阅读完整话题
这次是gemma4家族的12b版本开源,现在有E2B、E4B、12B、26B A4B、31B,对个人用户非常友好,谷歌算是北美御三家唯一还在坚持搞开源的了。 不知道qwen3.7还会不会开源,感觉这次提升还挺大的。 huggingface.co google/gemma-4-12B-it · Hugging Face We’re on a journey to advance and democratize artificial intelligence through open source and open science. 1 个帖子 - 1 位参与者 阅读完整话题
clawemail最新邀请码4个,分享给需要的佬 CLAWCA6A779D226E CLAWB2160451AD76 CLAWD2B931B6649D CLAW98850DBAC900 12 个帖子 - 11 位参与者 阅读完整话题
我想用我的4090x4的算力和佬们换点gpt5.5.怎么操作啊? 1 个帖子 - 1 位参与者 阅读完整话题
使用了谷歌最新发布的草稿模型gemma-4-31B-it-assistant,加上gemma-4-31B-it-4bit-W4A16-AWQ部署在vllm上 draft tokens开到5,代码场景123tokens/s 知识问答类67tokens/s(可能文字类调低一些预测量会更好) 只恨我的4090显存不够啊~上下文只能开到2816,没错就是2k 如果有5090就可以爽玩了 1 个帖子 - 1 位参与者 阅读完整话题
https://ollama.com/library/gemma4:31b-coding-mtp-bf16 本地部署的时候,Best Practices 部分有一些有用信息。
万众期待的 Gemma 4 越狱破解版 终于发布了! Gemma-4-31B 现已 彻底破解并完成对齐抹除 版本名:Gemma-4-31B-JANG_4M-CRACK HarmBench 安全基准规避率 93.7%(149/159) 原生基础模型,纯净无杂质 适配苹果自研芯片,提供 18GB 混合精度 MLX 量化版本 自带视觉 / 多模态功能支持 这是目前 最纯净、性能最强的无阉割无审查 31B 本地大模型 。 非常适合学术研究、代码开发等用途,使用完全无任何限制。 huggingface.co dealignai/Gemma-4-31B-JANG_4M-CRACK · Hugging Face We’re on a journey to advance and democratize artificial intelligence through open source and open science. 4 个帖子 - 3 位参与者 阅读完整话题
很懵逼,还特意下载vmlx去跑,结果很拉,是我下错了吗?我 hugging face 上下载的 1 个帖子 - 1 位参与者 阅读完整话题
Crazyrouter.com 的兑换码国内老站 f4e431b607cc4c939428e2c335c7d5da da34f6536d3444df8fc09027458f7bbf dc3db1f158fd4ce79405cb5aa48ae6d1 a228e8f9ea074ed884e055993521fa0b 9e9eec6f437345ccaf9b8505d5a3610c 65af1a7f1bfd4c8ea2f481f9a79f9752 fa3adc5f347745fe86c0c1d639aec9cc bfb93956d18246b18835d39037112509 ec52412e41a64b9c9db9c3181172c76d 520a6ce94bce4af3ab519078fa90939e
最近在尝试本地部署 Qwen3.6-27B 和 Gemma4-31B,发现因为是 Dense 模型,两者的生成速度都挺慢(相比 200多 B 的 MoE 模型而言,速率还低了一半,只有约 25-30 token/s)。但是我发现 Qwen3.6 支持 Multi-Token Prediction (MTP) 功能,在 vllm 上尝试了一下,发现 TPS 直接提高到了 50-55,我的天 ! 但是我看 Gemma4 官方模型不支持 MTP,如果 Gemma4 能达到这个速率的话我感觉还是 Gemma4 更好了 。如果要提高 TPS 的话还有什么办法呢 另外 DeepSeek-V4 好像也支持 MTP,这样的好技术就应该有更多模型支持啊!!! 3 个帖子 - 2 位参与者 阅读完整话题
27B/31B 甚至 35B 的 4bit 都可以, 测试了好久, 也下载了几十个了,都不太行, 感觉降智了, 这些刚出来的时候我这个配置能跑到 35tokens/s. 准备直接抄作业, 请给 huggingface 连接, 我的本地推理框架是 omlx, 感谢感谢.
27B/31B 甚至 35B 的 4bit 都可以, 测试了好久, 也下载了几十个了,都不太行, 感觉降智了, 这些刚出来的时候我这个配置能跑到 35tokens/s. 准备直接抄作业, 请给 huggingface 连接, 我的本地推理框架是 omlx, 感谢感谢.
27B/31B 甚至 35B 的 4bit 都可以, 测试了好久, 也下载了几十个了,都不太行, 感觉降智了, 这些刚出来的时候我这个配置能跑到 35tokens/s. 准备直接抄作业, 请给 huggingface 连接, 我的本地推理框架是 omlx, 感谢感谢.
27B/31B 甚至 35B 的 4bit 都可以, 测试了好久, 也下载了几十个了,都不太行, 感觉降智了, 这些刚出来的时候我这个配置能跑到 35tokens/s. 准备直接抄作业, 请给 huggingface 连接, 我的本地推理框架是 omlx, 感谢感谢.
27B/31B 甚至 35B 的 4bit 都可以, 测试了好久, 也下载了几十个了,都不太行, 感觉降智了, 这些刚出来的时候我这个配置能跑到 35tokens/s. 准备直接抄作业, 请给 huggingface 连接, 我的本地推理框架是 omlx, 感谢感谢.
27B/31B 甚至 35B 的 4bit 都可以, 测试了好久, 也下载了几十个了,都不太行, 感觉降智了, 这些刚出来的时候我这个配置能跑到 35tokens/s. 准备直接抄作业, 请给 huggingface 连接, 我的本地推理框架是 omlx, 感谢感谢.
27B/31B 甚至 35B 的 4bit 都可以, 测试了好久, 也下载了几十个了,都不太行, 感觉降智了, 这些刚出来的时候我这个配置能跑到 35tokens/s. 准备直接抄作业, 请给 huggingface 连接, 我的本地推理框架是 omlx, 感谢感谢.
27B/31B 甚至 35B 的 4bit 都可以, 测试了好久, 也下载了几十个了,都不太行, 感觉降智了, 这些刚出来的时候我这个配置能跑到 35tokens/s. 准备直接抄作业, 请给 huggingface 连接, 我的本地推理框架是 omlx, 感谢感谢.
27B/31B 甚至 35B 的 4bit 都可以, 测试了好久, 也下载了几十个了,都不太行, 感觉降智了, 这些刚出来的时候我这个配置能跑到 35tokens/s. 准备直接抄作业, 请给 huggingface 连接, 我的本地推理框架是 omlx, 感谢感谢.
27B/31B 甚至 35B 的 4bit 都可以, 测试了好久, 也下载了几十个了,都不太行, 感觉降智了, 这些刚出来的时候我这个配置能跑到 35tokens/s. 准备直接抄作业, 请给 huggingface 连接, 我的本地推理框架是 omlx, 感谢感谢.