话说这里面一定有很多故事,闫俊杰曾在商汤做副总裁,这之间发生了什么故事让他创业 4 个帖子 - 4 位参与者 阅读完整话题
6月1日,稀宇科技正式发布新一代模型MiniMax M3。该模型具备前沿编程能力、最高1M超长上下文,并支持原生多模态(图片、视频输入及电脑桌面操作),成为国内首个同时具备这三项能力的模型,也是目前唯一的开源模型。 据官方披露,在编程评测集SWE-Bench Pro上,M3得分59.0%,超过GPT-5.5和Gemini 3.1 Pro,接近Opus 4.7;在Agent评测Claw-Eval上,M3获得最高分;在多模态测试集OmniDocBench上,M3得分超过Gemini 3.1 Pro。 M3采用了全新的稀疏注意力架构MSA(MiniMax Sparse Attention),在100万上下文下每token计算量仅为上代模型的1/20,prefilling阶段加速超9倍,decoding阶段加速超15倍。 MiniMax同步更新了Agent产品MiniMax Code,并推出Token Plan订阅方案(Plus 49元/月、Max 119元/月、Ultra 469元/月)。M3 API即日起开放使用,512k上下文版本上线限时5折,持续7天。模型权重及技术报告将于10天内开源。 查看评论
IT之家 5 月 31 日消息,人工智能公司 MiniMax Group Inc.(稀宇科技)今日于香港联交所发布公告,拟发行人民币股份,并评估科创板上市。 MiniMax 董事会在公告中宣布, 已决议探究发行人民币股份的初步建议 ,当中可能涉及寻求专业顾问订立协议、与相关证券或其他监管机构进行咨询或磋商。该事宜的进展将取决于市场状况及必要的监管批准。 IT之家在此援引公告内容,MiniMax 在香港联交所上市成功后,持续评估资本市场。 目前正对上海证券交易所科创板上市计划进行评估 。公司已聘请专业顾问就科创板上市进行咨询,并签订辅导协议。 相关阅读: 《 MiniMax 签署辅导协议,正式启动 A 股 IPO 进程 》
IT之家 5 月 27 日消息,上海稀宇科技有限公司(MiniMax)今天在 X 平台发布推文, 预告将推出 MiniMax M3 系列模型。 该推文转发了一篇 5 月 26 日发表在 arxiv 上的论文《The MiniMax-M2 Series: Mini Activations Unleashing Max Real-World Intelligence》,回顾了 MiniMax M2.x 系列模型的背后工作。IT之家附上相关截图如下: 该论文指出 MiniMax M2.x 系列模型总参数 229.9B,但每个词元仅激活 9.8B 参数,主打“低激活、高智能”,配备 192K 上下文窗口,预训练数据规模达 29.2T 词元。 在模型设计上,M2 系列采用 62 层解码器式 Transformer(变换器),使用 256 个细粒度专家,并为每个词元激活 8 个专家。 在训练系统层面,MiniMax 提出 Forge,这是一个面向智能体的强化学习系统,支持白盒与黑盒智能体统一接入。系统通过训练、推理与智能体解耦,配合窗口化 FIFO 调度、前缀树合并和推理加速,降低长轨迹训练成本。 M2.7 最受关注的升级,是论文提出的“自我进化”雏形。模型已能自主排查训练失败、阅读日志、修改脚手架代码,并在内部任务上完成 100 轮自主迭代。 论文称,这套系统已吸收团队 30% 到 50% 的日常迭代工作量,且在内部编程脚手架优化中带来 30% 性能提升,显示模型开始参与自身开发闭环。 参考 The MiniMax-M2 Series: Mini Activations Unleashing Max Real-World Intelligence
【稀宇科技】尊敬的用户,MiniMax 开放平台 Token Plan 现已正式打通 MiniMax Agent,使用已有账号登录即可共享订阅。欢迎前往 MiniMax Agent 体验: https://agent.minimaxi.com/ 收到的短信 MiniMax Agent是不是新上线的 好像都在抄codex app 啊 有没有佬们使用了最新的MiniMax Agent吗 国产替代 昨天MiniMax发布了最新的MiniMax Agent桌面端以及技术报告,原生支持了Agent Teams和Agent记忆能力,报告还说后续会跟M3一起开源。有没有佬体验过MiniMax Agent桌面端的来分享一下使用体验? 附官方技术报告: MiniMax Agent Team:为长程任务,持续进化而生 1 个帖子 - 1 位参与者 阅读完整话题
MiniMax 不认马嘉祺?稀宇科技公布大模型“失语”原因:特定词元后训练不足导致 - IT之家 1 个帖子 - 1 位参与者 阅读完整话题
IT之家 5 月 9 日消息,在人工智能领域,一个大模型能够准确“复述”特定名词,看似是一项基础能力,却也可能因训练机制的细微偏差而“失灵”。 稀宇科技(MiniMax)今日发布官方技术报告,就旗下 M2 系列模型无法正确输出“马嘉祺”等特定人名一事进行了解答,并宣布已通过全词表合成数据覆盖完成性能修复。 据介绍,该问题的核心在于大模型处理文字的“分词器”(Tokenizer)机制。与传统逐字处理不同,大模型在读写文本时会先将文字切分为若干“词元”(Token)。 在 MiniMax 模型的词表中,“马嘉祺”被切分为“马”和“嘉祺”两个词元。其中,作为一个人名整体,“嘉祺”被合并为一个独立的词元。 IT之家注:大模型训练通常分为两个阶段:预训练阶段接触海量互联网文本,让模型掌握广泛词汇;而后训练(即指令微调)阶段则使用精选对话数据来教会模型如何与人交流。 MiniMax 团队排查发现,在其后训练所使用的对话数据中,含有“嘉祺”一词的样本数量极少。这种数据分布上的稀疏,导致“嘉祺”这一词元在后训练阶段几乎没有得到有效训练。 与此同时,大量高频词元(如工具调用标记、编程符号等)在训练中不断更新其向量参数,持续“挤压”“嘉祺”这类低频词元的向量空间,最终将其推离了原本正确的生成概率区域。当模型需要输出这一名字时,只得退而求其次,选择了发音相近的高频词元,例如“佳琪”或“琪琪”。 ▲ 统计分布检查:对比全词表的 embed_tokens norm 分布,token 190467(“嘉祺”)的向量范数落在正常分布范围内,未出现未训练 token 常见的异常小值的现象,表明该 token 在预训练阶段已被充分学习 ▲ “嘉祺”对应的权重向量在后训练过程中发生了显著偏移,余弦相似度大幅下降且 Norm 变化很大 值得关注的是,这并非孤立个案。为了系统性地评估这一现象的普遍性,MiniMax 团队对模型全部约 20 万个词元进行了参数扫描。 结果发现,约有 4.9% 的词元在模型后训练后发生了显著退化。这些退化的词元大致可分为四类:预训练阶段使用的特殊标记(如代码填充符号)、LaTeX 公式与维基百科源码标记、中文 SEO 垃圾关键词(如“传奇私服”、“无痛人流”等),以及占比最大的日文口语和博客模板表达。 这一发现直接解释了该模型另一个长期存在的疑难问题:在日语对话中偶尔会混入俄语或韩语字符。统计数据显示,日语词元的退化比例高达 29.7%,远超中文(3.9%)和英文(3.5%)等其他语种。这说明,数据稀疏的后果是全局性的 —— 当后训练数据对不同语种的覆盖率不均衡时,模型在生成响应时就可能误入歧途。 ▲ 小语种混淆率实验评测(核心指标,100 次采样,temperature=1.0):分别使用韩语和日语 prompt,统计输出中非目标语言字符的出现率。 在确认根因后,修复思路随之变得清晰:确保每个词元在后训练阶段都能获得最低限度的训练。为此,MiniMax 构造了一份覆盖全词表的合成数据,通过让模型完成“复读”任务,为所有词元建立起生成频率的下限保障。 官方基准数据显示,修复后模型的全词表输出参数稳定度(余弦相似度)最低值已大幅提升至 0.97 以上;同时,日语回答中混入俄文字符的比例由修复前的 47% 降至 1%。 除此之外,MiniMax 团队目前仍在同步探索更多优化方向,包括在指令微调数据中混入预训练语料、针对未覆盖词元定向合成对话样本、以及从源头裁撤词表中业务场景永不启用的特殊标记等。 MiniMax 反思道,这一问题的深层原因在于分词器设计与下游使用场景之间的脱节。毕竟,大模型的分词器通常基于大规模的网络语料训练而成,其中不可避免地包含大量仅出现在特定领域或小众语言中的词元。这些词元在预训练阶段尚能获得充分训练,一旦进入后训练阶段,就会因数据分布差异而失去其生成能力。这起看似简单的个案,最终暴露出一个影响深远的结构性问题:在后训练阶段,团队不仅要保证语义层面的多样性,更需要从底层的统计视角保障词元层面的数据覆盖。
36氪获悉,天眼查知识产权信息显示,近日,MiniMax关联公司上海稀宇极智科技有限公司申请注册“MINIMAX MAVIS”商标,国际分类涉及网站服务、科学仪器,当前商标状态均为等待实质审查。该公司成立于2021年11月,法定代表人为闫俊杰,注册资本40亿人民币,经营范围包括计算机系统服务、信息系统集成服务、人工智能基础软件开发、人工智能应用软件开发等,由香港稀宇极智有限公司全资持股。
36氪获悉,天眼查App显示,近日,MiniMax关联公司上海稀宇极智科技有限公司发生工商变更,注册资本由10亿人民币增至40亿人民币,增幅300%。 该公司成立于2021年11月,法定代表人为闫俊杰,经营范围包括计算机系统服务、信息系统集成服务、人工智能基础软件开发、人工智能应用软件开发等,由香港稀宇极智有限公司全资持股。
36氪获悉,视觉中国披露一季报,公司2026年一季度实现营业收入1.85亿元,同比下降2.15%;归属于上市公司股东的净利润2.39亿元,同比增长1240.47%,基本每股收益0.3423元。报告期内,业绩变动主要系公司投资的MiniMax(稀宇科技)股价波动产生的公允价值变动损益。