本地部署模型经验分享

本地部署模型经验分享
本地部署模型经验分享

最近手上有个项目,是用本地部署大模型进行视觉检测
测试了之前留下来微调过的Qwen2.5VL 7B,然后又测了新的Qwen3.6 27B,Qwen3.6 35BA3B,还有gemma4-26BA4B
总体测下来,感觉qwen3.6 35B的最好用,由于是moe模型,所以速度比稠密模型快很多,5090跑的q5量化版本,能有230t/s以上,效果也是最好的,但是优化起来比较麻烦,如果训练lora的话得用原版模型训练,本地算力不够,估计得上云端,还在考虑有没有其他思路能够优化的

3 个帖子 - 1 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文