SILX AI 正式发布 Quasar-Preview：18B MoE 架构的早期预览版拥有5M上下文长度

发布时间：2026-06-09T13:28:35+08:00 阅读：0 分类：tech

今日，SILX AI 宣布推出其 Quasar 基础模型系列的首个公开版本——Quasar-Preview。

Quasar-Preview 并非旨在与当前顶尖模型“刷榜”竞争，而是一个用于验证和探索前沿架构的奠基之作。它的主要技术规格包括：采用约 18B 总参数的混合专家（MoE）架构，其中激活参数（Active Parameters）仅为 2B 级别，保持了极高的推理效率。配置了实验性的 500万（5M）Token 上下文窗口，采用 Safe NoPE / DrOPE 风格的阶段性长上下文扩展方法，专为未来的基于内存的系统而设计。模型基于 Loop Transformer 和 Quasar 混合注意力构建，内部包含了 Quasar、Raven 和 GLA 混合层，并结合了稀疏 MoE 路由技术。

目前训练所用的 Token 数量在 1T 到 1.5T 之间（其中长上下文扩展路径目前接收了不到 1B 的 Token）。

官方强调，Quasar-Preview 并非最终形态的 Quasar 模型，也不能代表该架构的最终质量。它采用 MIT 协议开源发布，旨在将架构公之于众，方便研究人员进行测试与开发。
该模型依托 Bittensor（SN24）去中心化基础设施进行训练。SILX AI 计划在未来通过以下方式持续提升模型性能：

迭代式的子网训练与知识蒸馏
更长的训练周期与更强的后训练
进一步的长上下文扩展训练以及架构更新

huggingface.co

silx-ai/Quasar-Preview · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

1 个帖子 - 1 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文

silx-ai/Quasar-Preview · Hugging Face

延伸阅读