WWW.YOUINFO.SITE
标签聚合 dense

/tag/dense

LinuxDo 最新话题 · 2026-06-04 05:55:28+08:00 · tech

Google – 3 Jun 26 Introducing Gemma 4 12B: a unified, encoder-free multimodal model An overview of Gemma 4 12B, a model designed to bring high-performance multimodal intelligence directly to your laptop. 以下为 官方公布的benchmark 同样为多模态模型,采用encoder-free 架构训练, 支持文字,图片,音频 可参阅相关技术报告 developers.googleblog.com Gemma 4 12B: The Developer Guide- Google Developers Blog Meet Gemma 4 12B: the first medium-sized, encoder-free multimodal model capable of natively ingesting audio and video. Ideal for local AI development with 16GB VRAM, Hugging Face integrations, and drop-in local API servers. 采用sliding window attention技术 1024的滑动窗口大小,256k上下文长度. 谷歌blog介绍,其 性能接近gemma4 26b model 4 个帖子 - 4 位参与者 阅读完整话题

linux.do · 2026-04-27 18:50:11+08:00 · tech

最近在尝试本地部署 Qwen3.6-27B 和 Gemma4-31B,发现因为是 Dense 模型,两者的生成速度都挺慢(相比 200多 B 的 MoE 模型而言,速率还低了一半,只有约 25-30 token/s)。但是我发现 Qwen3.6 支持 Multi-Token Prediction (MTP) 功能,在 vllm 上尝试了一下,发现 TPS 直接提高到了 50-55,我的天 ! 但是我看 Gemma4 官方模型不支持 MTP,如果 Gemma4 能达到这个速率的话我感觉还是 Gemma4 更好了 。如果要提高 TPS 的话还有什么办法呢 另外 DeepSeek-V4 好像也支持 MTP,这样的好技术就应该有更多模型支持啊!!! 3 个帖子 - 2 位参与者 阅读完整话题

linux.do · 2026-04-23 13:17:26+08:00 · tech

使用的是Unsloth家的动态,选的Qwen3.6-27B-UD-Q5_K_XL.gguf量化版本,用的是5090单卡,32G vram,大家可以根据这个表格,快速选配下 目前输出感觉是 qwen 3.6 27B ≈ Jackrong/Qwen3.5-27B-GLM5.1 > qwen 3.6 35B_A3B ≈ qwen 3.5 27B 再期待下 其他家对 qwen 3.6 27B的进一步变种专训结果,有机会在Herems上再跑下~ 附上启动参数, -ngl 99 -c 262144 -np 1 -fa on --cache-type-k q4_0 --cache-type-v q4_0 –no-mmap --mlock --threads 16 --threads-batch 16 --batch-size 256 --ubatch-size 256 –temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.0 --presence-penalty 0.0 --repeat-penalty 1.0 2 个帖子 - 1 位参与者 阅读完整话题