WWW.YOUINFO.SITE
标签聚合 A4

/tag/A4

LinuxDo 最新话题 · 2026-06-10 14:02:49+08:00 · tech

MarcellusAshlyn8642@outlook.com----rp640919----9e5f94bc-e8a4-4e73-b8be-63364c29d753----M.C514_SN1.0.U.-CscP7nuccauR23P4fTSaIFZYejrXN!uf47fi61z6G1jB5kCoBRJNr!KM7HP4hrVitIDfvfdUipv340FXvmVw WTS8N7VP7WMV9qNTfb9gG9ZhPB1RRxkyEU67pJh49VTHH8m1lH6U8sHJ2Ozb gbBvML7bN8U8a4TmViJgT!coX!3sFRv54MeWkYyTJQBG6PoLcCV5ou!I05BPbZBSzjSnyIXk4pSAf4NaOVTrw5l r5nbmvhPhGi!W3Rf jJptnRQHZpyvQ9YUEi88vKnYdpVaPvo2wWBQXMdLNhFkblvKnDaI2diIMl3AUw4wGq7fngB6z8fPhwQiJ9rhANdC4LthTk X2cNyp0VNL2aK8OTLHto7GDKu8mhlEBm9JFOOWvnXPxsWQ6Oo!NUU0IsEDJ4w$ VegaDiana7991@outlook.com----di820060----9e5f94bc-e8a4-4e73-b8be-63364c29d753----M.C561_BAY.0.U.-Ct873V!DAwp6Pg396 Bz75dJEl86zpOocaySzZBtEtksm5sK5WESTPznGYxp62G!o5niyoLuYRDDvXIYBVuSxT2i2jkuEq43ZoA88QzLr0UfVwzBLq72roonoOfofBINm WiWk90 5zIi81Tjir0yWwLORRhBMTvUsCf*!t3gJC EGDhOttSHUI02!7!Vg7nUgcim!h1nLKYPqqMeygjc3c1iOp9mCmfrrnAdNyMLQdNwcf3TJhG5ZewydwoUVxiR!YsA!UZnSNNKkfcwBqR kA9pl4Jf3hg7C9uhkAf7P56NdoxxLb!Miasm!hfANdpHzRMKO3Zl2sKKcMFHyjMAtt6wuLopVXSH3IyA76pfIaLEqnnxVXMIVnV51kyE7bzxg$$ 3 个帖子 - 2 位参与者 阅读完整话题

V2EX - 技术 · 2026-06-09 20:53:28+08:00 · tech

显卡只是 3080 显存 10G ,之前跑 qwen3.5 9b mtp 只有 75token/s,都是 q4 ,今天试了一下 Gemma4 12b 速度 85~105token/s,现在 MTP 技术那么牛吗?测了几个问题感觉质量还比 qwen3.5 9b 好那么一丢丢。有没有大神解惑? llama-server.exe ^ --model "emma-4-12B-it-qat-q4_0-unquantized-heretic-Q4_0.gguf" ^ --mmproj "mmproj-gemma-4-12b-it-qat-q4_0.gguf" ^ --model-draft "gemma-4-12b-qat-it-assistant-Q4_0_Q4emb.gguf" ^ --spec-type draft-mtp --spec-draft-n-max 3 ^ --spec-draft-type-k q4_0 --spec-draft-type-v q4_0 ^ --n-gpu-layers-draft 999 ^ --cache-type-k q4_0 ^ --cache-type-v q4_0 ^ --n-gpu-layers 999 ^ --no-mmap ^ --cache-prompt ^ --mlock ^ --kv-unified ^ --parallel 1 ^ -fa on ^ --fit off ^ --ctx-size 100000 --n-predict 10000 ^ --host 0.0.0.0 --port 11432

V2EX - 技术 · 2026-06-09 19:53:28+08:00 · tech

显卡只是 3080 显存 10G ,之前跑 qwen3.5 9b mtp 只有 75token/s,都是 q4 ,今天试了一下 Gemma4 12b 速度 85~105token/s,现在 MTP 技术那么牛吗?测了几个问题感觉质量还比 qwen3.5 9b 好那么一丢丢。有没有大神解惑? llama-server.exe ^ --model "emma-4-12B-it-qat-q4_0-unquantized-heretic-Q4_0.gguf" ^ --mmproj "mmproj-gemma-4-12b-it-qat-q4_0.gguf" ^ --model-draft "gemma-4-12b-qat-it-assistant-Q4_0_Q4emb.gguf" ^ --spec-type draft-mtp --spec-draft-n-max 3 ^ --spec-draft-type-k q4_0 --spec-draft-type-v q4_0 ^ --n-gpu-layers-draft 999 ^ --cache-type-k q4_0 ^ --cache-type-v q4_0 ^ --n-gpu-layers 999 ^ --no-mmap ^ --cache-prompt ^ --mlock ^ --kv-unified ^ --parallel 1 ^ -fa on ^ --fit off ^ --ctx-size 100000 --n-predict 10000 ^ --host 0.0.0.0 --port 11432

V2EX - 技术 · 2026-06-06 03:58:27+08:00 · tech

Google 发布了 Gemma 4 的一个新模型,12B 参数,看介绍不是 MoE 。 https://blog.google/innovation-and-ai/technology/developers-tools/introducing-gemma-4-12b/ 看 HF 和 Kaggle 上都是 BF16 数据类型,权重文件大小 23.9GB 左右。 https://huggingface.co/google/gemma-4-12B-it/tree/main https://www.kaggle.com/models/google/gemma-4/transformers/gemma-4-12b-it Google 在博客里专门强调了 Laptop ready: Small enough to run locally with just 16GB of VRAM or unified memory. 这是怎么做到能在 16G 显存上跑的? 还是说 BF16 的不能跑,要 FP8 量化的才行?但这种量化之后能在 16G 卡上跑的模型很多了,还有很多参数量更大的模型。

V2EX - 技术 · 2026-06-06 03:02:20+08:00 · tech

Google 发布了 Gemma 4 的一个新模型,12B 参数,看介绍不是 MoE 。 https://blog.google/innovation-and-ai/technology/developers-tools/introducing-gemma-4-12b/ 看 HF 和 Kaggle 上都是 BF16 数据类型,权重文件大小 23.9GB 左右。 https://huggingface.co/google/gemma-4-12B-it/tree/main https://www.kaggle.com/models/google/gemma-4/transformers/gemma-4-12b-it Google 在博客里专门强调了 Laptop ready: Small enough to run locally with just 16GB of VRAM or unified memory. 这是怎么做到能在 16G 显存上跑的? 还是说 BF16 的不能跑,要 FP8 量化的才行?但这种量化之后能在 16G 卡上跑的模型很多了,还有很多参数量更大的模型。

V2EX - 技术 · 2026-06-06 00:12:11+08:00 · tech

Google 发布了 Gemma 4 的一个新模型,12B 参数,看介绍不是 MoE 。 https://blog.google/innovation-and-ai/technology/developers-tools/introducing-gemma-4-12b/ 看 HF 和 Kaggle 上都是 BF16 数据类型,权重文件大小 23.9GB 左右。 https://huggingface.co/google/gemma-4-12B-it/tree/main https://www.kaggle.com/models/google/gemma-4/transformers/gemma-4-12b-it Google 在博客里专门强调了 Laptop ready: Small enough to run locally with just 16GB of VRAM or unified memory. 这是怎么做到能在 16G 显存上跑的? 还是说 BF16 的不能跑,要 FP8 量化的才行?但这种量化之后能在 16G 卡上跑的模型很多了,还有很多参数量更大的模型。

V2EX - 技术 · 2026-06-06 00:12:11+08:00 · tech

Google 发布了 Gemma 4 的一个新模型,12B 参数,看介绍不是 MoE 。 https://blog.google/innovation-and-ai/technology/developers-tools/introducing-gemma-4-12b/ 看 HF 和 Kaggle 上都是 BF16 数据类型,权重文件大小 23.9GB 左右。 https://huggingface.co/google/gemma-4-12B-it/tree/main https://www.kaggle.com/models/google/gemma-4/transformers/gemma-4-12b-it Google 在博客里专门强调了 Laptop ready: Small enough to run locally with just 16GB of VRAM or unified memory. 这是怎么做到能在 16G 显存上跑的? 还是说 BF16 的不能跑,要 FP8 量化的才行?但这种量化之后能在 16G 卡上跑的模型很多了,还有很多参数量更大的模型。

V2EX - 技术 · 2026-06-05 22:08:18+08:00 · tech

Google 发布了 Gemma 4 的一个新模型,12B 参数,看介绍不是 MoE 。 https://blog.google/innovation-and-ai/technology/developers-tools/introducing-gemma-4-12b/ 看 HF 和 Kaggle 上都是 BF16 数据类型,权重文件大小 23.9GB 左右。 https://huggingface.co/google/gemma-4-12B-it/tree/main https://www.kaggle.com/models/google/gemma-4/transformers/gemma-4-12b-it Google 在博客里专门强调了 Laptop ready: Small enough to run locally with just 16GB of VRAM or unified memory. 这是怎么做到能在 16G 显存上跑的? 还是说 BF16 的不能跑,要 FP8 量化的才行?但这种量化之后能在 16G 卡上跑的模型很多了,还有很多参数量更大的模型。

V2EX - 技术 · 2026-06-05 19:59:18+08:00 · tech

Google 发布了 Gemma 4 的一个新模型,12B 参数,看介绍不是 MoE 。 https://blog.google/innovation-and-ai/technology/developers-tools/introducing-gemma-4-12b/ 看 HF 和 Kaggle 上都是 BF16 数据类型,权重文件大小 23.9GB 左右。 https://huggingface.co/google/gemma-4-12B-it/tree/main https://www.kaggle.com/models/google/gemma-4/transformers/gemma-4-12b-it Google 在博客里专门强调了 Laptop ready: Small enough to run locally with just 16GB of VRAM or unified memory. 这是怎么做到能在 16G 显存上跑的? 还是说 BF16 的不能跑,要 FP8 量化的才行?但这种量化之后能在 16G 卡上跑的模型很多了,还有很多参数量更大的模型。