https://yfjc.xyz/api/v1/client/subscribe?token=711e07af8f1a4f23f6c9fc97748aad07 1 个帖子 - 1 位参与者 阅读完整话题
https://ktoken.kefenhuimin.com/v1 sk-7ff3099b32e0f04848fb5a403735a3335d705c1df0adcb6c5b7d5cc0d17122c6 2 个帖子 - 2 位参与者 阅读完整话题
sk-1511a34c3ff05d4eb369ad7366af9fd1f50970011ce003da02d17a4e7c1a23ed sk-2e9d039f2729e1f7068c8078223c11666b5b574203aba8c7fae4552db80f1623 5 个帖子 - 4 位参与者 阅读完整话题
MarcellusAshlyn8642@outlook.com----rp640919----9e5f94bc-e8a4-4e73-b8be-63364c29d753----M.C514_SN1.0.U.-CscP7nuccauR23P4fTSaIFZYejrXN!uf47fi61z6G1jB5kCoBRJNr!KM7HP4hrVitIDfvfdUipv340FXvmVw WTS8N7VP7WMV9qNTfb9gG9ZhPB1RRxkyEU67pJh49VTHH8m1lH6U8sHJ2Ozb gbBvML7bN8U8a4TmViJgT!coX!3sFRv54MeWkYyTJQBG6PoLcCV5ou!I05BPbZBSzjSnyIXk4pSAf4NaOVTrw5l r5nbmvhPhGi!W3Rf jJptnRQHZpyvQ9YUEi88vKnYdpVaPvo2wWBQXMdLNhFkblvKnDaI2diIMl3AUw4wGq7fngB6z8fPhwQiJ9rhANdC4LthTk X2cNyp0VNL2aK8OTLHto7GDKu8mhlEBm9JFOOWvnXPxsWQ6Oo!NUU0IsEDJ4w$ VegaDiana7991@outlook.com----di820060----9e5f94bc-e8a4-4e73-b8be-63364c29d753----M.C561_BAY.0.U.-Ct873V!DAwp6Pg396 Bz75dJEl86zpOocaySzZBtEtksm5sK5WESTPznGYxp62G!o5niyoLuYRDDvXIYBVuSxT2i2jkuEq43ZoA88QzLr0UfVwzBLq72roonoOfofBINm WiWk90 5zIi81Tjir0yWwLORRhBMTvUsCf*!t3gJC EGDhOttSHUI02!7!Vg7nUgcim!h1nLKYPqqMeygjc3c1iOp9mCmfrrnAdNyMLQdNwcf3TJhG5ZewydwoUVxiR!YsA!UZnSNNKkfcwBqR kA9pl4Jf3hg7C9uhkAf7P56NdoxxLb!Miasm!hfANdpHzRMKO3Zl2sKKcMFHyjMAtt6wuLopVXSH3IyA76pfIaLEqnnxVXMIVnV51kyE7bzxg$$ 3 个帖子 - 2 位参与者 阅读完整话题
显卡只是 3080 显存 10G ,之前跑 qwen3.5 9b mtp 只有 75token/s,都是 q4 ,今天试了一下 Gemma4 12b 速度 85~105token/s,现在 MTP 技术那么牛吗?测了几个问题感觉质量还比 qwen3.5 9b 好那么一丢丢。有没有大神解惑? llama-server.exe ^ --model "emma-4-12B-it-qat-q4_0-unquantized-heretic-Q4_0.gguf" ^ --mmproj "mmproj-gemma-4-12b-it-qat-q4_0.gguf" ^ --model-draft "gemma-4-12b-qat-it-assistant-Q4_0_Q4emb.gguf" ^ --spec-type draft-mtp --spec-draft-n-max 3 ^ --spec-draft-type-k q4_0 --spec-draft-type-v q4_0 ^ --n-gpu-layers-draft 999 ^ --cache-type-k q4_0 ^ --cache-type-v q4_0 ^ --n-gpu-layers 999 ^ --no-mmap ^ --cache-prompt ^ --mlock ^ --kv-unified ^ --parallel 1 ^ -fa on ^ --fit off ^ --ctx-size 100000 --n-predict 10000 ^ --host 0.0.0.0 --port 11432
显卡只是 3080 显存 10G ,之前跑 qwen3.5 9b mtp 只有 75token/s,都是 q4 ,今天试了一下 Gemma4 12b 速度 85~105token/s,现在 MTP 技术那么牛吗?测了几个问题感觉质量还比 qwen3.5 9b 好那么一丢丢。有没有大神解惑? llama-server.exe ^ --model "emma-4-12B-it-qat-q4_0-unquantized-heretic-Q4_0.gguf" ^ --mmproj "mmproj-gemma-4-12b-it-qat-q4_0.gguf" ^ --model-draft "gemma-4-12b-qat-it-assistant-Q4_0_Q4emb.gguf" ^ --spec-type draft-mtp --spec-draft-n-max 3 ^ --spec-draft-type-k q4_0 --spec-draft-type-v q4_0 ^ --n-gpu-layers-draft 999 ^ --cache-type-k q4_0 ^ --cache-type-v q4_0 ^ --n-gpu-layers 999 ^ --no-mmap ^ --cache-prompt ^ --mlock ^ --kv-unified ^ --parallel 1 ^ -fa on ^ --fit off ^ --ctx-size 100000 --n-predict 10000 ^ --host 0.0.0.0 --port 11432
base64 dHAtY3Izcmhkd21sN2JrOTkwejhhNzA4ODA0dm5hNDF4YXo2cno0Z3NxMzhwcGt6ZXhr 4 个帖子 - 3 位参与者 阅读完整话题
Google AI pro 台湾区拼车,目前 5 个空位 半年 114 ,全年 220 ,V:Utopia42
llm.makapi.indevs.in MakAPI - AI API Gateway sk-18afbc4f491eb13fec9444f2bb20abea37437a42fec1223201e946f3d3667e25 大家加油蹬,还有大概四百个team 3 个帖子 - 2 位参与者 阅读完整话题
sk-1fb88aeb4c034290a42d93da2944a762e89129363e108fac7f091af600b9da7a https://sub2api.too去掉ken.top 不要注册,因为没余额 6 个帖子 - 6 位参与者 阅读完整话题
BASEURl: https://free.routix.top/v1 base64 转换一下key:c2stZDY3MGM3NDdmNzBlOTllYzQ5Yzc2MmQzZTE5YWNjM2Q4MzkxMmJiNWY2ZjA4YzYzMjllMTYxYTZkYTY2MTI3Mg== 13 个帖子 - 10 位参与者 阅读完整话题
key 块引用sk-a9d8abe0805626a2f29bdbe0e2e5b519cf6a8f9a5a9247c63a444bdfb555c437 3 个帖子 - 2 位参与者 阅读完整话题
Google 发布了 Gemma 4 的一个新模型,12B 参数,看介绍不是 MoE 。 https://blog.google/innovation-and-ai/technology/developers-tools/introducing-gemma-4-12b/ 看 HF 和 Kaggle 上都是 BF16 数据类型,权重文件大小 23.9GB 左右。 https://huggingface.co/google/gemma-4-12B-it/tree/main https://www.kaggle.com/models/google/gemma-4/transformers/gemma-4-12b-it Google 在博客里专门强调了 Laptop ready: Small enough to run locally with just 16GB of VRAM or unified memory. 这是怎么做到能在 16G 显存上跑的? 还是说 BF16 的不能跑,要 FP8 量化的才行?但这种量化之后能在 16G 卡上跑的模型很多了,还有很多参数量更大的模型。
Google 发布了 Gemma 4 的一个新模型,12B 参数,看介绍不是 MoE 。 https://blog.google/innovation-and-ai/technology/developers-tools/introducing-gemma-4-12b/ 看 HF 和 Kaggle 上都是 BF16 数据类型,权重文件大小 23.9GB 左右。 https://huggingface.co/google/gemma-4-12B-it/tree/main https://www.kaggle.com/models/google/gemma-4/transformers/gemma-4-12b-it Google 在博客里专门强调了 Laptop ready: Small enough to run locally with just 16GB of VRAM or unified memory. 这是怎么做到能在 16G 显存上跑的? 还是说 BF16 的不能跑,要 FP8 量化的才行?但这种量化之后能在 16G 卡上跑的模型很多了,还有很多参数量更大的模型。
Google 发布了 Gemma 4 的一个新模型,12B 参数,看介绍不是 MoE 。 https://blog.google/innovation-and-ai/technology/developers-tools/introducing-gemma-4-12b/ 看 HF 和 Kaggle 上都是 BF16 数据类型,权重文件大小 23.9GB 左右。 https://huggingface.co/google/gemma-4-12B-it/tree/main https://www.kaggle.com/models/google/gemma-4/transformers/gemma-4-12b-it Google 在博客里专门强调了 Laptop ready: Small enough to run locally with just 16GB of VRAM or unified memory. 这是怎么做到能在 16G 显存上跑的? 还是说 BF16 的不能跑,要 FP8 量化的才行?但这种量化之后能在 16G 卡上跑的模型很多了,还有很多参数量更大的模型。
Google 发布了 Gemma 4 的一个新模型,12B 参数,看介绍不是 MoE 。 https://blog.google/innovation-and-ai/technology/developers-tools/introducing-gemma-4-12b/ 看 HF 和 Kaggle 上都是 BF16 数据类型,权重文件大小 23.9GB 左右。 https://huggingface.co/google/gemma-4-12B-it/tree/main https://www.kaggle.com/models/google/gemma-4/transformers/gemma-4-12b-it Google 在博客里专门强调了 Laptop ready: Small enough to run locally with just 16GB of VRAM or unified memory. 这是怎么做到能在 16G 显存上跑的? 还是说 BF16 的不能跑,要 FP8 量化的才行?但这种量化之后能在 16G 卡上跑的模型很多了,还有很多参数量更大的模型。
{ “env”: { “ANTHROPIC_BASE_URL”: “ https://sub2api.songsongcard.xyz ”, “ANTHROPIC_AUTH_TOKEN”: “sk-9da1caa8a1c6f8a251ecb0ba4e57420b41dae6c6431ef7cf2c85821023b2d6aa”, “CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC”: “1”, “CLAUDE_CODE_ATTRIBUTION_HEADER”: “0” } } 1 个帖子 - 1 位参与者 阅读完整话题
Google 发布了 Gemma 4 的一个新模型,12B 参数,看介绍不是 MoE 。 https://blog.google/innovation-and-ai/technology/developers-tools/introducing-gemma-4-12b/ 看 HF 和 Kaggle 上都是 BF16 数据类型,权重文件大小 23.9GB 左右。 https://huggingface.co/google/gemma-4-12B-it/tree/main https://www.kaggle.com/models/google/gemma-4/transformers/gemma-4-12b-it Google 在博客里专门强调了 Laptop ready: Small enough to run locally with just 16GB of VRAM or unified memory. 这是怎么做到能在 16G 显存上跑的? 还是说 BF16 的不能跑,要 FP8 量化的才行?但这种量化之后能在 16G 卡上跑的模型很多了,还有很多参数量更大的模型。
ba3e566bb39e0dcc6a4861b5f00b97b5|229x500 3 个帖子 - 3 位参与者 阅读完整话题
Google 发布了 Gemma 4 的一个新模型,12B 参数,看介绍不是 MoE 。 https://blog.google/innovation-and-ai/technology/developers-tools/introducing-gemma-4-12b/ 看 HF 和 Kaggle 上都是 BF16 数据类型,权重文件大小 23.9GB 左右。 https://huggingface.co/google/gemma-4-12B-it/tree/main https://www.kaggle.com/models/google/gemma-4/transformers/gemma-4-12b-it Google 在博客里专门强调了 Laptop ready: Small enough to run locally with just 16GB of VRAM or unified memory. 这是怎么做到能在 16G 显存上跑的? 还是说 BF16 的不能跑,要 FP8 量化的才行?但这种量化之后能在 16G 卡上跑的模型很多了,还有很多参数量更大的模型。