Gemma4 12B部署体验,5090单卡,80+tokens/s

Gemma4 12B部署体验,5090单卡,80+tokens/s
Gemma4 12B部署体验,5090单卡,80+tokens/s

这个尺寸对单卡比较友好(5090跑有点傲娇了,后面用lnl 258v应该才是归宿),用的是ud家的Q8_XL,速度80+tokens/s

需要说明的是,当前llama.cpp对gemma4uv不识别,导致没法用多模态,再等能,应该很快,毕竟G家这次动了编码器,L家居然没0day适配,再等等,当前给到 text就能正常跑了

image

3 个帖子 - 3 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文