bf16 - WWW.YOUINFO.SITE - WWW.YOUINFO.SITE

V2EX - 技术 · 2026-05-06 19:10:09+08:00 · tech

https://ollama.com/library/gemma4:31b-coding-mtp-bf16 本地部署的时候，Best Practices 部分有一些有用信息。

蚂蚁集团百灵大模型开源 Ling-2.6-flash，提供 BF16、FP8、INT4 等版本

www.ithome.com · 2026-04-29 09:27:20+08:00 · tech

IT之家 4 月 29 日消息，蚂蚁集团旗下的百灵大模型今日宣布， Ling-2.6-flash 正式开源。同步提供 BF16、FP8、INT4 等多个版本，方便开发者根据不同硬件环境、推理成本和部署需求灵活选择。 Ling-2.6-flash 是一款总参数量 104B、激活参数 7.4B 的 Instruct 模型，两周前以 Elephant Alpha 的匿名身份登陆 OpenRouter。官方表示，过去两周里持续收集来自开发者的真实反馈，并针对 Ling-2.6-flash 的使用体验进行了多轮优化，进一步改善了中英文自然切换能力，并提升了其在主流 Coding 框架中的适配效果。据介绍，Ling-2.6-flash 的核心能力体现在三个方面：混合线性架构，释放推理效率：通过引入混合线性架构，模型从底层优化计算效率，在 4 卡 H20 条件下推理速度最快可达到 340 tokens/s ，Prefill 吞吐达到 Nemotron-3-Super 的 2.2 倍 Token 效率优化，提升智效比：在训练过程中对 Token 效率进行了针对性校准，力求以更精简的输出完成既定目标。在 Artificial Analysis 的完整评测中，Ling-2.6-flash 仅消耗 15M tokens ，约为 Nemotron-3-Super 等模型的 1/10 面向 Agent 场景进行定向增强：针对当前需求最旺盛的 Agent 应用，在工具调用、多步规划与任务执行能力上持续打磨，使模型在 BFCL-V4、TAU2-bench、SWE-bench Verified、Claw-Eval、PinchBench 等评测中，即使面对激活参数更大的模型，依然能够取得相近甚至 SOTA 级别的表现 IT之家附开源链接如下： Hugging Face ： https://huggingface.co/inclusionAI/Ling-2.6-flash ModelScope ： https://www.modelscope.cn/models/inclusionAI/Ling-2.6-flash

部署本地模型 token 输出万能公式

www.v2ex.com · 2026-04-20 18:54:39+08:00 · tech

比如看 dgx spark 这台机子，部署 31B BF16 gemma 这台机子的带宽 273 GB/s 31B 参数 × 2 bytes (BF16) ÷ 273 GB/s = 每个 token 227 ms = 理论最大 4.4 token/s 实际能到 3token/s 已经是牛逼 plus ，顶多 2.5token/s 所以有个关系，不要问能不能运行咋的，自己大概算下基本就知道能不能用简单得推理我觉得至少要到 25token/s ，看起来才正常 1. 模型必须能加载完，显存只是基本条件 2. 必须要看内存带宽（ Memory Bandwidth ），这个太低得话估计就是个跛子，我看几乎很少有人部署模型时注意这个配置，这个也是非常重要得参数 3. 上面得基本是按照英伟达机子算出来得，mac 机子比较特殊，基本只要能加载到 gpu 里面，剩余一点内存，就能用速度不会很慢（ 20token/s 将就能用），冷启动稍微慢点还有个本地模型部署，除了花大钱，本地部署就是玩玩可以，起码现在不要妄想超过线上得模型，尤其写代码方面我个人认为现在本地模型能做得事 ocr 总结做知识库 openclaw 还有什么爱马仕这个推理也可以做，需要提前用线上模型完成复杂得代码，本地执行推理一定要记得做好机子散热，一定！！一定一定！！！希望大家来交流自己得心得，大家共同学习进步

部署本地模型 token 输出万能公式

www.v2ex.com · 2026-04-20 17:54:39+08:00 · tech

比如看 dgx spark 这台机子，部署 31B BF16 gemma 这台机子的带宽 273 GB/s 31B 参数 × 2 bytes (BF16) ÷ 273 GB/s = 每个 token 227 ms = 理论最大 4.4 token/s 实际能到 3token/s 已经是牛逼 plus ，顶多 2.5token/s 所以有个关系，不要问能不能运行咋的，自己大概算下基本就知道能不能用简单得推理我觉得至少要到 25token/s ，看起来才正常 1. 模型必须能加载完，显存只是基本条件 2. 必须要看内存带宽（ Memory Bandwidth ），这个太低得话估计就是个跛子，我看几乎很少有人部署模型时注意这个配置，这个也是非常重要得参数 3. 上面得基本是按照英伟达机子算出来得，mac 机子比较特殊，基本只要能加载到 gpu 里面，剩余一点内存，就能用速度不会很慢（ 20token/s 将就能用），冷启动稍微慢点还有个本地模型部署，除了花大钱，本地部署就是玩玩可以，起码现在不要妄想超过线上得模型，尤其写代码方面我个人认为现在本地模型能做得事 ocr 总结做知识库 openclaw 还有什么爱马仕这个推理也可以做，需要提前用线上模型完成复杂得代码，本地执行推理一定要记得做好机子散热，一定！！一定一定！！！希望大家来交流自己得心得，大家共同学习进步

[Local LLM] 部署本地模型 token 输出万能公式

v2ex.com · 2026-04-20 17:40:14+08:00 · tech

比如看 dgx spark 这台机子，部署 31B BF16 gemma 这台机子的带宽 273 GB/s 31B 参数 × 2 bytes (BF16) ÷ 273 GB/s = 每个 token 227 ms = 理论最大 4.4 token/s 实际能到 3token/s 已经是牛逼 plus ，顶多 2.5token/s 所以有个关系，不要问能不能运行咋的，自己大概算下基本就知道能不能用简单得推理我觉得至少要到 25token/s ，看起来才正常 1. 模型必须能加载完，显存只是基本条件 2. 必须要看内存带宽（ Memory Bandwidth ），这个太低得话估计就是个跛子，我看几乎很少有人部署模型时注意这个配置，这个也是非常重要得参数 3. 上面得基本是按照英伟达机子算出来得，mac 机子比较特殊，基本只要能加载到 gpu 里面，剩余一点内存，就能用速度不会很慢（ 20token/s 将就能用），冷启动稍微慢点还有个本地模型部署，除了花大钱，本地部署就是玩玩可以，起码现在不要妄想超过线上得模型，尤其写代码方面我个人认为现在本地模型能做得事 ocr 总结做知识库 openclaw 还有什么爱马仕这个推理也可以做，需要提前用线上模型完成复杂得代码，本地执行推理一定要记得做好机子散热，一定！！一定一定！！！希望大家来交流自己得心得，大家共同学习进步

/tag/bf16