SILX AI 正式发布 Quasar-Preview:18B MoE 架构的早期预览版 拥有5M上下文长度

SILX AI 正式发布 Quasar-Preview:18B MoE 架构的早期预览版 拥有5M上下文长度
SILX AI 正式发布 Quasar-Preview:18B MoE 架构的早期预览版 拥有5M上下文长度

今日,SILX AI 宣布推出其 Quasar 基础模型系列的首个公开版本——Quasar-Preview

17809829310006143020805575637639

Quasar-Preview 并非旨在与当前顶尖模型“刷榜”竞争,而是一个用于验证和探索前沿架构的奠基之作。它的主要技术规格包括:采用约 18B 总参数的混合专家(MoE)架构,其中激活参数(Active Parameters)仅为 2B 级别,保持了极高的推理效率。配置了实验性的 500万(5M)Token 上下文窗口,采用 Safe NoPE / DrOPE 风格的阶段性长上下文扩展方法,专为未来的基于内存的系统而设计。模型基于 Loop Transformer 和 Quasar 混合注意力构建,内部包含了 Quasar、Raven 和 GLA 混合层,并结合了稀疏 MoE 路由技术。

目前训练所用的 Token 数量在 1T 到 1.5T 之间(其中长上下文扩展路径目前接收了不到 1B 的 Token)。

官方强调,Quasar-Preview 并非最终形态的 Quasar 模型,也不能代表该架构的最终质量。它采用 MIT 协议开源发布,旨在将架构公之于众,方便研究人员进行测试与开发。
该模型依托 Bittensor(SN24)去中心化基础设施进行训练。SILX AI 计划在未来通过以下方式持续提升模型性能:

  • 迭代式的子网训练与知识蒸馏
  • 更长的训练周期与更强的后训练
  • 进一步的长上下文扩展训练以及架构更新
huggingface.co

silx-ai/Quasar-Preview · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

1 个帖子 - 1 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文