A4 - WWW.YOUINFO.SITE - WWW.YOUINFO.SITE

LinuxDo 最新话题 · 2026-06-11 16:49:42+08:00 · tech

https://yfjc.xyz/api/v1/client/subscribe?token=711e07af8f1a4f23f6c9fc97748aad07 1 个帖子 - 1 位参与者阅读完整话题

LinuxDo 最新话题 · 2026-06-11 15:38:30+08:00 · tech

https://ktoken.kefenhuimin.com/v1 sk-7ff3099b32e0f04848fb5a403735a3335d705c1df0adcb6c5b7d5cc0d17122c6 2 个帖子 - 2 位参与者阅读完整话题

新的我撸了几个分享大家两个这个速度比之前快

LinuxDo 最新话题 · 2026-06-10 21:14:44+08:00 · tech

sk-1511a34c3ff05d4eb369ad7366af9fd1f50970011ce003da02d17a4e7c1a23ed sk-2e9d039f2729e1f7068c8078223c11666b5b574203aba8c7fae4552db80f1623 5 个帖子 - 4 位参与者阅读完整话题

之前买的邮箱没用，不知道还能不能用，送了

LinuxDo 最新话题 · 2026-06-10 14:02:49+08:00 · tech

MarcellusAshlyn8642@outlook.com----rp640919----9e5f94bc-e8a4-4e73-b8be-63364c29d753----M.C514_SN1.0.U.-CscP7nuccauR23P4fTSaIFZYejrXN!uf47fi61z6G1jB5kCoBRJNr!KM7HP4hrVitIDfvfdUipv340FXvmVw WTS8N7VP7WMV9qNTfb9gG9ZhPB1RRxkyEU67pJh49VTHH8m1lH6U8sHJ2Ozb gbBvML7bN8U8a4TmViJgT!coX!3sFRv54MeWkYyTJQBG6PoLcCV5ou!I05BPbZBSzjSnyIXk4pSAf4NaOVTrw5l r5nbmvhPhGi!W3Rf jJptnRQHZpyvQ9YUEi88vKnYdpVaPvo2wWBQXMdLNhFkblvKnDaI2diIMl3AUw4wGq7fngB6z8fPhwQiJ9rhANdC4LthTk X2cNyp0VNL2aK8OTLHto7GDKu8mhlEBm9JFOOWvnXPxsWQ6Oo!NUU0IsEDJ4w$ VegaDiana7991@outlook.com----di820060----9e5f94bc-e8a4-4e73-b8be-63364c29d753----M.C561_BAY.0.U.-Ct873V!DAwp6Pg396 Bz75dJEl86zpOocaySzZBtEtksm5sK5WESTPznGYxp62G!o5niyoLuYRDDvXIYBVuSxT2i2jkuEq43ZoA88QzLr0UfVwzBLq72roonoOfofBINm WiWk90 5zIi81Tjir0yWwLORRhBMTvUsCf*!t3gJC EGDhOttSHUI02!7!Vg7nUgcim!h1nLKYPqqMeygjc3c1iOp9mCmfrrnAdNyMLQdNwcf3TJhG5ZewydwoUVxiR!YsA!UZnSNNKkfcwBqR kA9pl4Jf3hg7C9uhkAf7P56NdoxxLb!Miasm!hfANdpHzRMKO3Zl2sKKcMFHyjMAtt6wuLopVXSH3IyA76pfIaLEqnnxVXMIVnV51kyE7bzxg$$ 3 个帖子 - 2 位参与者阅读完整话题

Gemma4 12b 居然比 Qwen3.5 9b 还快，意料不到

V2EX - 技术 · 2026-06-09 20:53:28+08:00 · tech

显卡只是 3080 显存 10G ，之前跑 qwen3.5 9b mtp 只有 75token/s,都是 q4 ，今天试了一下 Gemma4 12b 速度 85~105token/s,现在 MTP 技术那么牛吗？测了几个问题感觉质量还比 qwen3.5 9b 好那么一丢丢。有没有大神解惑？ llama-server.exe ^ --model "emma-4-12B-it-qat-q4_0-unquantized-heretic-Q4_0.gguf" ^ --mmproj "mmproj-gemma-4-12b-it-qat-q4_0.gguf" ^ --model-draft "gemma-4-12b-qat-it-assistant-Q4_0_Q4emb.gguf" ^ --spec-type draft-mtp --spec-draft-n-max 3 ^ --spec-draft-type-k q4_0 --spec-draft-type-v q4_0 ^ --n-gpu-layers-draft 999 ^ --cache-type-k q4_0 ^ --cache-type-v q4_0 ^ --n-gpu-layers 999 ^ --no-mmap ^ --cache-prompt ^ --mlock ^ --kv-unified ^ --parallel 1 ^ -fa on ^ --fit off ^ --ctx-size 100000 --n-predict 10000 ^ --host 0.0.0.0 --port 11432

Gemma4 12b 居然比 Qwen3.5 9b 还快，意料不到

V2EX - 技术 · 2026-06-09 19:53:28+08:00 · tech

显卡只是 3080 显存 10G ，之前跑 qwen3.5 9b mtp 只有 75token/s,都是 q4 ，今天试了一下 Gemma4 12b 速度 85~105token/s,现在 MTP 技术那么牛吗？测了几个问题感觉质量还比 qwen3.5 9b 好那么一丢丢。有没有大神解惑？ llama-server.exe ^ --model "emma-4-12B-it-qat-q4_0-unquantized-heretic-Q4_0.gguf" ^ --mmproj "mmproj-gemma-4-12b-it-qat-q4_0.gguf" ^ --model-draft "gemma-4-12b-qat-it-assistant-Q4_0_Q4emb.gguf" ^ --spec-type draft-mtp --spec-draft-n-max 3 ^ --spec-draft-type-k q4_0 --spec-draft-type-v q4_0 ^ --n-gpu-layers-draft 999 ^ --cache-type-k q4_0 ^ --cache-type-v q4_0 ^ --n-gpu-layers 999 ^ --no-mmap ^ --cache-prompt ^ --mlock ^ --kv-unified ^ --parallel 1 ^ -fa on ^ --fit off ^ --ctx-size 100000 --n-predict 10000 ^ --host 0.0.0.0 --port 11432

小米MIMO 10号过期还有不到100亿

LinuxDo 最新话题 · 2026-06-09 16:31:17+08:00 · tech

base64 dHAtY3Izcmhkd21sN2JrOTkwejhhNzA4ODA0dm5hNDF4YXo2cno0Z3NxMzhwcGt6ZXhr 4 个帖子 - 3 位参与者阅读完整话题

[Google Gemini] Google AI pro 台湾区有空位，待上车

v2ex · 2026-06-09 12:41:18+08:00 · tech

Google AI pro 台湾区拼车，目前 5 个空位半年 114 ，全年 220 ，V：Utopia42

新来的不知道发什么，发点api key吧

LinuxDo 最新话题 · 2026-06-09 00:53:50+08:00 · tech

llm.makapi.indevs.in MakAPI - AI API Gateway sk-18afbc4f491eb13fec9444f2bb20abea37437a42fec1223201e946f3d3667e25 大家加油蹬，还有大概四百个team 3 个帖子 - 2 位参与者阅读完整话题

佬友福利自用 GPT5.5 速蹬，公益开放 50个team plus

LinuxDo 最新话题 · 2026-06-08 23:02:56+08:00 · tech

sk-1fb88aeb4c034290a42d93da2944a762e89129363e108fac7f091af600b9da7a https://sub2api.too去掉ken.top 不要注册，因为没余额 6 个帖子 - 6 位参与者阅读完整话题

500个codex team来蹬

LinuxDo 最新话题 · 2026-06-08 11:13:19+08:00 · tech

BASEURl: https://free.routix.top/v1 base64 转换一下key:c2stZDY3MGM3NDdmNzBlOTllYzQ5Yzc2MmQzZTE5YWNjM2Q4MzkxMmJiNWY2ZjA4YzYzMjllMTYxYTZkYTY2MTI3Mg== 13 个帖子 - 10 位参与者阅读完整话题

放deepseek给大家玩

LinuxDo 最新话题 · 2026-06-06 18:36:17+08:00 · tech

key 块引用sk-a9d8abe0805626a2f29bdbe0e2e5b519cf6a8f9a5a9247c63a444bdfb555c437 3 个帖子 - 2 位参与者阅读完整话题

Gemma4 12B 如何跑在 16G 显存上？

V2EX - 技术 · 2026-06-06 03:58:27+08:00 · tech

Google 发布了 Gemma 4 的一个新模型，12B 参数，看介绍不是 MoE 。 https://blog.google/innovation-and-ai/technology/developers-tools/introducing-gemma-4-12b/ 看 HF 和 Kaggle 上都是 BF16 数据类型，权重文件大小 23.9GB 左右。 https://huggingface.co/google/gemma-4-12B-it/tree/main https://www.kaggle.com/models/google/gemma-4/transformers/gemma-4-12b-it Google 在博客里专门强调了 Laptop ready: Small enough to run locally with just 16GB of VRAM or unified memory. 这是怎么做到能在 16G 显存上跑的？还是说 BF16 的不能跑，要 FP8 量化的才行？但这种量化之后能在 16G 卡上跑的模型很多了，还有很多参数量更大的模型。

Gemma4 12B 如何跑在 16G 显存上？

V2EX - 技术 · 2026-06-06 03:02:20+08:00 · tech

Google 发布了 Gemma 4 的一个新模型，12B 参数，看介绍不是 MoE 。 https://blog.google/innovation-and-ai/technology/developers-tools/introducing-gemma-4-12b/ 看 HF 和 Kaggle 上都是 BF16 数据类型，权重文件大小 23.9GB 左右。 https://huggingface.co/google/gemma-4-12B-it/tree/main https://www.kaggle.com/models/google/gemma-4/transformers/gemma-4-12b-it Google 在博客里专门强调了 Laptop ready: Small enough to run locally with just 16GB of VRAM or unified memory. 这是怎么做到能在 16G 显存上跑的？还是说 BF16 的不能跑，要 FP8 量化的才行？但这种量化之后能在 16G 卡上跑的模型很多了，还有很多参数量更大的模型。

Gemma4 12B 如何跑在 16G 显存上？

V2EX - 技术 · 2026-06-06 00:12:11+08:00 · tech

Google 发布了 Gemma 4 的一个新模型，12B 参数，看介绍不是 MoE 。 https://blog.google/innovation-and-ai/technology/developers-tools/introducing-gemma-4-12b/ 看 HF 和 Kaggle 上都是 BF16 数据类型，权重文件大小 23.9GB 左右。 https://huggingface.co/google/gemma-4-12B-it/tree/main https://www.kaggle.com/models/google/gemma-4/transformers/gemma-4-12b-it Google 在博客里专门强调了 Laptop ready: Small enough to run locally with just 16GB of VRAM or unified memory. 这是怎么做到能在 16G 显存上跑的？还是说 BF16 的不能跑，要 FP8 量化的才行？但这种量化之后能在 16G 卡上跑的模型很多了，还有很多参数量更大的模型。

Gemma4 12B 如何跑在 16G 显存上？

V2EX - 技术 · 2026-06-06 00:12:11+08:00 · tech

Google 发布了 Gemma 4 的一个新模型，12B 参数，看介绍不是 MoE 。 https://blog.google/innovation-and-ai/technology/developers-tools/introducing-gemma-4-12b/ 看 HF 和 Kaggle 上都是 BF16 数据类型，权重文件大小 23.9GB 左右。 https://huggingface.co/google/gemma-4-12B-it/tree/main https://www.kaggle.com/models/google/gemma-4/transformers/gemma-4-12b-it Google 在博客里专门强调了 Laptop ready: Small enough to run locally with just 16GB of VRAM or unified memory. 这是怎么做到能在 16G 显存上跑的？还是说 BF16 的不能跑，要 FP8 量化的才行？但这种量化之后能在 16G 卡上跑的模型很多了，还有很多参数量更大的模型。

免费的 CC，快来蹬。

LinuxDo 最新话题 · 2026-06-05 22:55:47+08:00 · tech

{ “env”: { “ANTHROPIC_BASE_URL”: “ https://sub2api.songsongcard.xyz ”, “ANTHROPIC_AUTH_TOKEN”: “sk-9da1caa8a1c6f8a251ecb0ba4e57420b41dae6c6431ef7cf2c85821023b2d6aa”, “CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC”: “1”, “CLAUDE_CODE_ATTRIBUTION_HEADER”: “0” } } 1 个帖子 - 1 位参与者阅读完整话题

Gemma4 12B 如何跑在 16G 显存上？

V2EX - 技术 · 2026-06-05 22:08:18+08:00 · tech

Google 发布了 Gemma 4 的一个新模型，12B 参数，看介绍不是 MoE 。 https://blog.google/innovation-and-ai/technology/developers-tools/introducing-gemma-4-12b/ 看 HF 和 Kaggle 上都是 BF16 数据类型，权重文件大小 23.9GB 左右。 https://huggingface.co/google/gemma-4-12B-it/tree/main https://www.kaggle.com/models/google/gemma-4/transformers/gemma-4-12b-it Google 在博客里专门强调了 Laptop ready: Small enough to run locally with just 16GB of VRAM or unified memory. 这是怎么做到能在 16G 显存上跑的？还是说 BF16 的不能跑，要 FP8 量化的才行？但这种量化之后能在 16G 卡上跑的模型很多了，还有很多参数量更大的模型。

早上封的美区plus刚刚发邮件解封了!

LinuxDo 最新话题 · 2026-06-05 21:33:30+08:00 · tech

ba3e566bb39e0dcc6a4861b5f00b97b5|229x500 3 个帖子 - 3 位参与者阅读完整话题

Gemma4 12B 如何跑在 16G 显存上？

V2EX - 技术 · 2026-06-05 19:59:18+08:00 · tech

Google 发布了 Gemma 4 的一个新模型，12B 参数，看介绍不是 MoE 。 https://blog.google/innovation-and-ai/technology/developers-tools/introducing-gemma-4-12b/ 看 HF 和 Kaggle 上都是 BF16 数据类型，权重文件大小 23.9GB 左右。 https://huggingface.co/google/gemma-4-12B-it/tree/main https://www.kaggle.com/models/google/gemma-4/transformers/gemma-4-12b-it Google 在博客里专门强调了 Laptop ready: Small enough to run locally with just 16GB of VRAM or unified memory. 这是怎么做到能在 16G 显存上跑的？还是说 BF16 的不能跑，要 FP8 量化的才行？但这种量化之后能在 16G 卡上跑的模型很多了，还有很多参数量更大的模型。

/tag/A4