JetBrains 开源 120 亿参数 Mellum2 模型

JetBrains 开源 120 亿参数 Mellum2 模型
JetBrains 开源 120 亿参数 Mellum2 模型

JetBrains 近日宣布,将其面向软件工程系统的新一代机器学习模型 Mellum2 正式开源。这距离公司在 2025 年开源首个 Mellum 模型仅过去一年多时间,当时的 Mellum 是一款专注代码补全的小型模型,参数规模约为 40 亿。与之相比,Mellum2 的总参数量扩大到 120 亿,但 JetBrains 强调,通过采用稀疏专家混合(Mixture-of-Experts,MoE)架构,每个 token 实际参与计算的仅为约 25 亿活跃参数,从而在标准硬件上依然能够保持较快推理速度。

与仅在编辑器中执行代码补全任务的“聚焦型” Mellum 不同,Mellum2 被定位为一款完整的智能编码助手。它既可以生成和编辑代码,也能调用外部工具,执行多步“Agentic”工作流,支持长对话,并具备显式推理能力。开发者可以在 Apache 2.0 许可下使用其基础版、指令调优版和“思考版”模型,在构建产品或内部工具时保持对数据的完全控制。

从规格上看,Mellum2 相比初代 Mellum 在多个关键指标上有明显变化:原始 Mellum 采用的是稠密参数设计,而 Mellum2 转向 MoE 架构;总参数量从 40 亿提升至 120 亿,但活跃参数从 40 亿降至 25 亿;上下文窗口从 8192 token 大幅提升到 131072 token,使其更适合处理长文档和复杂工程场景;两代模型均采用 Apache 2.0 开源许可证。

JetBrains 表示,Mellum2 特别适合用于路由与编排复杂的 AI 工作负载,构建低延迟的检索增强生成(RAG)管线,为大型系统中的子 Agent 提供快速推理支持,以及在本地或私有环境中部署 AI。为进一步提升模型在代码与数学等专业领域的表现,团队在预训练阶段采用了三阶段数据“课程”,逐步从多样的 Web 数据迁移到更精心筛选的代码和数学内容。

除 Mellum2 之外,JetBrains 还公布了一项产品线调整:公司将停止维护面向 Python 开发者的数据科学 IDE DataSpell。根据官方信息,DataSpell 已于 5 月 28 日正式“退役”,相关的数据科学功能将被整合进入 PyCharm 专业版。现有的 DataSpell 有效订阅会在 2026 年 9 月 1 日自动转换到 PyCharm Pro。

查看评论

来源: cnBeta全文版查看原文