WWW.YOUINFO.SITE
标签聚合 26B

/tag/26B

LinuxDo 最新话题 · 2026-06-04 11:15:57+08:00 · tech

这次是gemma4家族的12b版本开源,现在有E2B、E4B、12B、26B A4B、31B,对个人用户非常友好,谷歌算是北美御三家唯一还在坚持搞开源的了。 不知道qwen3.7还会不会开源,感觉这次提升还挺大的。 huggingface.co google/gemma-4-12B-it · Hugging Face We’re on a journey to advance and democratize artificial intelligence through open source and open science. 1 个帖子 - 1 位参与者 阅读完整话题

IT之家 · 2026-06-02 09:50:51+08:00 · tech

IT之家 6 月 2 日消息,群联电子 (Phison) 今日宣布与英特尔合作,增强 AI PC 的本地 AI 应用执行能力。 群联 Pascari aiDAPTIV 内存延伸技术 现已适配第 3 代酷睿 Ultra 处理器 (Panther Lake / PTL) 并支持 OpenVINO 工具套件 ,这使得最新一代 AI PC 能支持更大的 MoE AI 模型、更长时间的 AI 会话、代理式 AI 工作流。 通过 Cache Memory, aiDAPTIV 可将 AI 工作内存从系统 DRAM 拓展至高性能高耐久 NAND,建立新的 AI 内存架构 ,降低本地 AI 工作负载对 DRAM 的需求并支持 KV Cache 复用等运行时功能。 根据群联内部测试,在相同测试环境下,搭载 aiDAPTIV 的系统仅需 16GB DRAM 即可执行 26B 参数规模的 AI 模型,而对于未配备 aiDAPTIV 的系统则需要 32GB 的 DRAM 才能完成相同工作负载。

V2EX - 技术 · 2026-05-19 17:50:13+08:00 · tech

前置条件:5070ti 16g ,llama.cpp ,全跑在显存。 1. 跑 gemma4 26b a4b iq4_xs 量化( MoE 结构) 速度大概是 120t/s-150t/s ,首 token 和后续输出都很快 2. 跑 devstral small2 24b q4_k_m 量化 (稠密结构) 速度大概是 8t/s-10t/s ,首 token 可能很慢,整体输出都慢得多。 思考: 现在的模型有两种结构:稠密( Dense )和 MoE (混合专家模型)。 以上述两种模型举例 稠密模型是所有层( dev 这个有 40 层)都参与计算,消耗 24b 的完整算力,也就是单 token 2x24b=48gflops (不算量化),算力消耗大,推理成本高。 moe 是总共 26b 参数,每次推理只激活 4b 参数,只消耗激活参数 4b 的算力,单 token 算力消耗 2x4=8gflops ,算力消耗小很多,但有 26b 的参数(知识)。gemma 这个有 128 个专家,每次激活 8 个专家和 1 个共享专家(所有 token 必须首先经过共享专家),moe 模型是通过动态路由判断选择专家的。 可以看出算力需求差异巨大。 常见的几个顶级开源模型 glm5.1 参数 754b 激活 40b deepseek-v4 pro 参数 1.6t 激活 49b v4 flash 参数 284b 激活 13b minimax2.5 参数 229b 激活 10b moe 模型虽然每次激活的参数少,但必须把完整参数都全量加载到显存中。也就是说算力消耗大大减少,但显存需求没变。 可以大概推测,顶级大模型以后可能只有 moe 结构了,参数小的可能有稠密架构,因为算力成本还尚可接受,参数量很大的稠密结构,恐怕算力成本高到厂商也难以商用吧。 本地部署,我看来推理速度有 40-50token/s ,基本可以自用了,这是一个及格线。 我看来有两种比较好的本地部署方案 1. 买 nv 工作站显卡,pro6000 96g 咸鱼 6w 多,pro6000d 84g (显存没 ecc ,整体比 6000 略差)咸鱼 4w ,pro5000 84g 这种。 2. 用同等价钱稍微低点,等 m5 pro 的 mac mini/studio 发布后购买。 改显存,矿卡,二手的很久的专业卡等就不讨论了,不懂这部分。 mac 跑推理,olmx 官网我看了模型推理速度排行榜,还是差了点,不知道 4w 价钱的 m5 pro 的 mac mini/studio 会不会明显提高。 还有就是比如双 5070ti 跑模型推理,不知道速度怎么样,价钱相对不贵。我用的是 ddr4 pcie 4.0 的主板,双显卡要 pcie 拆分 8x8 ,pcie5.0 肯定更好,我得换主板换内存,成本太高,没法测试,如果内存没这么贵,就换主板买内存搞个 5060ti 16g 来测试了,这个可能也是一种方案吧。

V2EX - 技术 · 2026-05-19 17:50:13+08:00 · tech

前置条件:5070ti 16g ,llama.cpp ,全跑在显存。 1. 跑 gemma4 26b a4b iq4_xs 量化( MoE 结构) 速度大概是 120t/s-150t/s ,首 token 和后续输出都很快 2. 跑 devstral small2 24b q4_k_m 量化 (稠密结构) 速度大概是 8t/s-10t/s ,首 token 可能很慢,整体输出都慢得多。 思考: 现在的模型有两种结构:稠密( Dense )和 MoE (混合专家模型)。 以上述两种模型举例 稠密模型是所有层( dev 这个有 40 层)都参与计算,消耗 24b 的完整算力,也就是单 token 2x24b=48gflops (不算量化),算力消耗大,推理成本高。 moe 是总共 26b 参数,每次推理只激活 4b 参数,只消耗激活参数 4b 的算力,单 token 算力消耗 2x4=8gflops ,算力消耗小很多,但有 26b 的参数(知识)。gemma 这个有 128 个专家,每次激活 8 个专家和 1 个共享专家(所有 token 必须首先经过共享专家),moe 模型是通过动态路由判断选择专家的。 可以看出算力需求差异巨大。 常见的几个顶级开源模型 glm5.1 参数 754b 激活 40b deepseek-v4 pro 参数 1.6t 激活 49b v4 flash 参数 284b 激活 13b minimax2.5 参数 229b 激活 10b moe 模型虽然每次激活的参数少,但必须把完整参数都全量加载到显存中。也就是说算力消耗大大减少,但显存需求没变。 可以大概推测,顶级大模型以后可能只有 moe 结构了,参数小的可能有稠密架构,因为算力成本还尚可接受,参数量很大的稠密结构,恐怕算力成本高到厂商也难以商用吧。 本地部署,我看来推理速度有 40-50token/s ,基本可以自用了,这是一个及格线。 我看来有两种比较好的本地部署方案 1. 买 nv 工作站显卡,pro6000 96g 咸鱼 6w 多,pro6000d 84g (显存没 ecc ,整体比 6000 略差)咸鱼 4w ,pro5000 84g 这种。 2. 用同等价钱稍微低点,等 m5 pro 的 mac mini/studio 发布后购买。 改显存,矿卡,二手的很久的专业卡等就不讨论了,不懂这部分。 mac 跑推理,olmx 官网我看了模型推理速度排行榜,还是差了点,不知道 4w 价钱的 m5 pro 的 mac mini/studio 会不会明显提高。 还有就是比如双 5070ti 跑模型推理,不知道速度怎么样,价钱相对不贵。我用的是 ddr4 pcie 4.0 的主板,双显卡要 pcie 拆分 8x8 ,pcie5.0 肯定更好,我得换主板换内存,成本太高,没法测试,如果内存没这么贵,就换主板买内存搞个 5060ti 16g 来测试了,这个可能也是一种方案吧。

V2EX - 技术 · 2026-05-19 16:50:13+08:00 · tech

前置条件:5070ti 16g ,llama.cpp ,全跑在显存。 1. 跑 gemma4 26b a4b iq4_xs 量化( MoE 结构) 速度大概是 120t/s-150t/s ,首 token 和后续输出都很快 2. 跑 devstral small2 24b q4_k_m 量化 (稠密结构) 速度大概是 8t/s-10t/s ,首 token 可能很慢,整体输出都慢得多。 思考: 现在的模型有两种结构:稠密( Dense )和 MoE (混合专家模型)。 以上述两种模型举例 稠密模型是所有层( dev 这个有 40 层)都参与计算,消耗 24b 的完整算力,也就是单 token 2x24b=48gflops (不算量化),算力消耗大,推理成本高。 moe 是总共 26b 参数,每次推理只激活 4b 参数,只消耗激活参数 4b 的算力,单 token 算力消耗 2x4=8gflops ,算力消耗小很多,但有 26b 的参数(知识)。gemma 这个有 128 个专家,每次激活 8 个专家和 1 个共享专家(所有 token 必须首先经过共享专家),moe 模型是通过动态路由判断选择专家的。 可以看出算力需求差异巨大。 常见的几个顶级开源模型 glm5.1 参数 754b 激活 40b deepseek-v4 pro 参数 1.6t 激活 49b v4 flash 参数 284b 激活 13b minimax2.5 参数 229b 激活 10b moe 模型虽然每次激活的参数少,但必须把完整参数都全量加载到显存中。也就是说算力消耗大大减少,但显存需求没变。 可以大概推测,顶级大模型以后可能只有 moe 结构了,参数小的可能有稠密架构,因为算力成本还尚可接受,参数量很大的稠密结构,恐怕算力成本高到厂商也难以商用吧。 本地部署,我看来推理速度有 40-50token/s ,基本可以自用了,这是一个及格线。 我看来有两种比较好的本地部署方案 1. 买 nv 工作站显卡,pro6000 96g 咸鱼 6w 多,pro6000d 84g (显存没 ecc ,整体比 6000 略差)咸鱼 4w ,pro5000 84g 这种。 2. 用同等价钱稍微低点,等 m5 pro 的 mac mini/studio 发布后购买。 改显存,矿卡,二手的很久的专业卡等就不讨论了,不懂这部分。 mac 跑推理,olmx 官网我看了模型推理速度排行榜,还是差了点,不知道 4w 价钱的 m5 pro 的 mac mini/studio 会不会明显提高。 还有就是比如双 5070ti 跑模型推理,不知道速度怎么样,价钱相对不贵。我用的是 ddr4 pcie 4.0 的主板,双显卡要 pcie 拆分 8x8 ,pcie5.0 肯定更好,我得换主板换内存,成本太高,没法测试,如果内存没这么贵,就换主板买内存搞个 5060ti 16g 来测试了,这个可能也是一种方案吧。

V2EX - 技术 · 2026-05-19 15:50:13+08:00 · tech

前置条件:5070ti 16g ,llama.cpp ,全跑在显存。 1. 跑 gemma4 26b a4b iq4_xs 量化( MoE 结构) 速度大概是 120t/s-150t/s ,首 token 和后续输出都很快 2. 跑 devstral small2 24b q4_k_m 量化 (稠密结构) 速度大概是 8t/s-10t/s ,首 token 可能很慢,整体输出都慢得多。 思考: 现在的模型有两种结构:稠密( Dense )和 MoE (混合专家模型)。 以上述两种模型举例 稠密模型是所有层( dev 这个有 40 层)都参与计算,消耗 24b 的完整算力,也就是单 token 2x24b=48gflops (不算量化),算力消耗大,推理成本高。 moe 是总共 26b 参数,每次推理只激活 4b 参数,只消耗激活参数 4b 的算力,单 token 算力消耗 2x4=8gflops ,算力消耗小很多,但有 26b 的参数(知识)。gemma 这个有 128 个专家,每次激活 8 个专家和 1 个共享专家(所有 token 必须首先经过共享专家),moe 模型是通过动态路由判断选择专家的。 可以看出算力需求差异巨大。 常见的几个顶级开源模型 glm5.1 参数 754b 激活 40b deepseek-v4 pro 参数 1.6t 激活 49b v4 flash 参数 284b 激活 13b minimax2.5 参数 229b 激活 10b moe 模型虽然每次激活的参数少,但必须把完整参数都全量加载到显存中。也就是说算力消耗大大减少,但显存需求没变。 可以大概推测,顶级大模型以后可能只有 moe 结构了,参数小的可能有稠密架构,因为算力成本还尚可接受,参数量很大的稠密结构,恐怕算力成本高到厂商也难以商用吧。 本地部署,我看来推理速度有 40-50token/s ,基本可以自用了,这是一个及格线。 我看来有两种比较好的本地部署方案 1. 买 nv 工作站显卡,pro6000 96g 咸鱼 6w 多,pro6000d 84g (显存没 ecc ,整体比 6000 略差)咸鱼 4w ,pro5000 84g 这种。 2. 用同等价钱稍微低点,等 m5 pro 的 mac mini/studio 发布后购买。 改显存,矿卡,二手的很久的专业卡等就不讨论了,不懂这部分。 mac 跑推理,olmx 官网我看了模型推理速度排行榜,还是差了点,不知道 4w 价钱的 m5 pro 的 mac mini/studio 会不会明显提高。 还有就是比如双 5070ti 跑模型推理,不知道速度怎么样,价钱相对不贵。我用的是 ddr4 pcie 4.0 的主板,双显卡要 pcie 拆分 8x8 ,pcie5.0 肯定更好,我得换主板换内存,成本太高,没法测试,如果内存没这么贵,就换主板买内存搞个 5060ti 16g 来测试了,这个可能也是一种方案吧。

V2EX - 技术 · 2026-05-19 15:50:13+08:00 · tech

前置条件:5070ti 16g ,llama.cpp ,全跑在显存。 1. 跑 gemma4 26b a4b iq4_xs 量化( MoE 结构) 速度大概是 120t/s-150t/s ,首 token 和后续输出都很快 2. 跑 devstral small2 24b q4_k_m 量化 (稠密结构) 速度大概是 8t/s-10t/s ,首 token 可能很慢,整体输出都慢得多。 思考: 现在的模型有两种结构:稠密( Dense )和 MoE (混合专家模型)。 以上述两种模型举例 稠密模型是所有层( dev 这个有 40 层)都参与计算,消耗 24b 的完整算力,也就是单 token 2x24b=48gflops (不算量化),算力消耗大,推理成本高。 moe 是总共 26b 参数,每次推理只激活 4b 参数,只消耗激活参数 4b 的算力,单 token 算力消耗 2x4=8gflops ,算力消耗小很多,但有 26b 的参数(知识)。gemma 这个有 128 个专家,每次激活 8 个专家和 1 个共享专家(所有 token 必须首先经过共享专家),moe 模型是通过动态路由判断选择专家的。 可以看出算力需求差异巨大。 常见的几个顶级开源模型 glm5.1 参数 754b 激活 40b deepseek-v4 pro 参数 1.6t 激活 49b v4 flash 参数 284b 激活 13b minimax2.5 参数 229b 激活 10b moe 模型虽然每次激活的参数少,但必须把完整参数都全量加载到显存中。也就是说算力消耗大大减少,但显存需求没变。 可以大概推测,顶级大模型以后可能只有 moe 结构了,参数小的可能有稠密架构,因为算力成本还尚可接受,参数量很大的稠密结构,恐怕算力成本高到厂商也难以商用吧。 本地部署,我看来推理速度有 40-50token/s ,基本可以自用了,这是一个及格线。 我看来有两种比较好的本地部署方案 1. 买 nv 工作站显卡,pro6000 96g 咸鱼 6w 多,pro6000d 84g (显存没 ecc ,整体比 6000 略差)咸鱼 4w ,pro5000 84g 这种。 2. 用同等价钱稍微低点,等 m5 pro 的 mac mini/studio 发布后购买。 改显存,矿卡,二手的很久的专业卡等就不讨论了,不懂这部分。 mac 跑推理,olmx 官网我看了模型推理速度排行榜,还是差了点,不知道 4w 价钱的 m5 pro 的 mac mini/studio 会不会明显提高。 还有就是比如双 5070ti 跑模型推理,不知道速度怎么样,价钱相对不贵。我用的是 ddr4 pcie 4.0 的主板,双显卡要 pcie 拆分 8x8 ,pcie5.0 肯定更好,我得换主板换内存,成本太高,没法测试,如果内存没这么贵,就换主板买内存搞个 5060ti 16g 来测试了,这个可能也是一种方案吧。

v2ex.com · 2026-05-03 18:31:11+08:00 · tech

https://crazyrouter.com/ 4fa4f59a69804173871b9751239bb352 b334de8d00084b9aa3c293effb77e181 a191389e5e76426bb426f41019f87406 f181d520185740dda42c2fc4ac8a9da6 c810b617ffb24d168369fc8ad84124d9 5c0dea3e5f864ace888a15c762d9859e cbe7695d18674d58ab7c0ed2ee2d3634 863d6f4d6e8847b1af8ed59b994db01d a392b2003826409999a73b43bf2fb269 f2759ba744a2426386048410247dea5f 8718f7a783b6484589ee872cd987116d 1d3adbde6f1942efbc2e13ce5422cbc0 81feb6121b7d4a5ba2947bf98696c70d 3ad491b70dd541069aea1609bf597c4e cc2b0a6c7c1e4fc69c2cc59484e55c0e cca127496b8445b1843fabc0df93bed9 358480f2a3a64edb97bab1348462ee21 3126c11acb2547f9ab47975741704c87 bf23fef67b7d4bdeade17afcdfa64c57 39b834f0ae4249e0b16b95f7b819536c a58a4e036ac342f1a9f61a855d41b49b c9fbe41ab7e14897baef36039ed3fb5e 333f647639c54361ae819ca02188ab38 92b7226e0011483a9947ccbb707437c9 74544657a09a44038b80abc646f97e83 1d6c47bfff9d4cd6af592ea151da6aa1 fa89e57f7a0d44949719b3cd4474f5d3 0c79a6275cdd4f3e80935c487ea1fadd 3df57d8f8b854896bcead85a3f6b32ce 0cea68161092451da6285cd4a2cae9f5 08f36f84999240b1881617b5eb382bdb f6286976f7604133990350717faf650a 5766b69f34d44c5f9f2b7301fb8b3986 f06b4028d2034289a4e284d42afd7872 99bfd1498bae4932b5fc344da10df96e 2838648fc0bb4b9f8e90300c28880452 77ce5b7a444f4dc790952681193c3932 485029ce1df74005ada892a26f4f6b75 23f5163c6c17408c8e7b311c7e89b8b6 5a6aa0eb71e14b0595595368ee4cab1e bade58d3e8f04d8a87941891499cb582 f070f0614e384e36b03f51b4e98d5a88 1d255c0b154545939580628d4172946d e88b51984a5646e8b43d5d9d29e08b9c e40546cd0709467cac5c914d23c8d4f8 05c84308cd3a4ed484245771939f87e5 e298917d5c4b478fb97b7e0a970d612d 85cd5123dec74fd4b77327cf21260448 2d13f87eb4864d31b708df47356f4994 adcfc849df0047b38f8be1dea10972ae d2d3a8e0dd374653b17de5ef470ef9e7

v2ex.com · 2026-05-03 17:31:11+08:00 · tech

https://crazyrouter.com/ 4fa4f59a69804173871b9751239bb352 b334de8d00084b9aa3c293effb77e181 a191389e5e76426bb426f41019f87406 f181d520185740dda42c2fc4ac8a9da6 c810b617ffb24d168369fc8ad84124d9 5c0dea3e5f864ace888a15c762d9859e cbe7695d18674d58ab7c0ed2ee2d3634 863d6f4d6e8847b1af8ed59b994db01d a392b2003826409999a73b43bf2fb269 f2759ba744a2426386048410247dea5f 8718f7a783b6484589ee872cd987116d 1d3adbde6f1942efbc2e13ce5422cbc0 81feb6121b7d4a5ba2947bf98696c70d 3ad491b70dd541069aea1609bf597c4e cc2b0a6c7c1e4fc69c2cc59484e55c0e cca127496b8445b1843fabc0df93bed9 358480f2a3a64edb97bab1348462ee21 3126c11acb2547f9ab47975741704c87 bf23fef67b7d4bdeade17afcdfa64c57 39b834f0ae4249e0b16b95f7b819536c a58a4e036ac342f1a9f61a855d41b49b c9fbe41ab7e14897baef36039ed3fb5e 333f647639c54361ae819ca02188ab38 92b7226e0011483a9947ccbb707437c9 74544657a09a44038b80abc646f97e83 1d6c47bfff9d4cd6af592ea151da6aa1 fa89e57f7a0d44949719b3cd4474f5d3 0c79a6275cdd4f3e80935c487ea1fadd 3df57d8f8b854896bcead85a3f6b32ce 0cea68161092451da6285cd4a2cae9f5 08f36f84999240b1881617b5eb382bdb f6286976f7604133990350717faf650a 5766b69f34d44c5f9f2b7301fb8b3986 f06b4028d2034289a4e284d42afd7872 99bfd1498bae4932b5fc344da10df96e 2838648fc0bb4b9f8e90300c28880452 77ce5b7a444f4dc790952681193c3932 485029ce1df74005ada892a26f4f6b75 23f5163c6c17408c8e7b311c7e89b8b6 5a6aa0eb71e14b0595595368ee4cab1e bade58d3e8f04d8a87941891499cb582 f070f0614e384e36b03f51b4e98d5a88 1d255c0b154545939580628d4172946d e88b51984a5646e8b43d5d9d29e08b9c e40546cd0709467cac5c914d23c8d4f8 05c84308cd3a4ed484245771939f87e5 e298917d5c4b478fb97b7e0a970d612d 85cd5123dec74fd4b77327cf21260448 2d13f87eb4864d31b708df47356f4994 adcfc849df0047b38f8be1dea10972ae d2d3a8e0dd374653b17de5ef470ef9e7

v2ex.com · 2026-05-03 17:31:11+08:00 · tech

https://crazyrouter.com/ 4fa4f59a69804173871b9751239bb352 b334de8d00084b9aa3c293effb77e181 a191389e5e76426bb426f41019f87406 f181d520185740dda42c2fc4ac8a9da6 c810b617ffb24d168369fc8ad84124d9 5c0dea3e5f864ace888a15c762d9859e cbe7695d18674d58ab7c0ed2ee2d3634 863d6f4d6e8847b1af8ed59b994db01d a392b2003826409999a73b43bf2fb269 f2759ba744a2426386048410247dea5f 8718f7a783b6484589ee872cd987116d 1d3adbde6f1942efbc2e13ce5422cbc0 81feb6121b7d4a5ba2947bf98696c70d 3ad491b70dd541069aea1609bf597c4e cc2b0a6c7c1e4fc69c2cc59484e55c0e cca127496b8445b1843fabc0df93bed9 358480f2a3a64edb97bab1348462ee21 3126c11acb2547f9ab47975741704c87 bf23fef67b7d4bdeade17afcdfa64c57 39b834f0ae4249e0b16b95f7b819536c a58a4e036ac342f1a9f61a855d41b49b c9fbe41ab7e14897baef36039ed3fb5e 333f647639c54361ae819ca02188ab38 92b7226e0011483a9947ccbb707437c9 74544657a09a44038b80abc646f97e83 1d6c47bfff9d4cd6af592ea151da6aa1 fa89e57f7a0d44949719b3cd4474f5d3 0c79a6275cdd4f3e80935c487ea1fadd 3df57d8f8b854896bcead85a3f6b32ce 0cea68161092451da6285cd4a2cae9f5 08f36f84999240b1881617b5eb382bdb f6286976f7604133990350717faf650a 5766b69f34d44c5f9f2b7301fb8b3986 f06b4028d2034289a4e284d42afd7872 99bfd1498bae4932b5fc344da10df96e 2838648fc0bb4b9f8e90300c28880452 77ce5b7a444f4dc790952681193c3932 485029ce1df74005ada892a26f4f6b75 23f5163c6c17408c8e7b311c7e89b8b6 5a6aa0eb71e14b0595595368ee4cab1e bade58d3e8f04d8a87941891499cb582 f070f0614e384e36b03f51b4e98d5a88 1d255c0b154545939580628d4172946d e88b51984a5646e8b43d5d9d29e08b9c e40546cd0709467cac5c914d23c8d4f8 05c84308cd3a4ed484245771939f87e5 e298917d5c4b478fb97b7e0a970d612d 85cd5123dec74fd4b77327cf21260448 2d13f87eb4864d31b708df47356f4994 adcfc849df0047b38f8be1dea10972ae d2d3a8e0dd374653b17de5ef470ef9e7