IT之家 6 月 8 日消息,据《华尔街日报》报道,知情人士透露,中国人工智能初创企业阶跃星辰最快将于本周一递交香港首次公开募股(IPO)申请。 知情人士称,主要投资方给出的该公司估值最高达 120 亿美元(IT之家注:现汇率约合 815.21 亿元人民币)。若此次上市顺利,将成为香港近年来规模最大的 IPO 之一,不过有相关人士表示,估值仍存在变动可能。 这家总部位于上海的企业,是今年又一家计划登陆港交所的国内大模型企业。此前其竞争对手智谱 AI 与 MiniMax 已先后完成上市。两家公司自今年 1 月挂牌以来股价大幅上涨,早期投资者有望在下月限售期解除后收获可观回报。 智谱 AI 和 MiniMax 近期均表示,正筹备登陆内地资本市场。另据《华尔街日报》报道,国内人工智能初创企业月之暗面也在筹备香港上市。 大批 AI 企业集中冲刺上市,反映出国内人工智能企业正抢抓当前向好的市场环境,把握投资者高涨的投资热情。过去一年,香港再度成为全球 IPO 最为活跃的市场之一,人工智能、半导体、生物医药等领域的大批中企赴港上市是主要推动力。 阶跃星辰由前微软副总裁姜大昕于 2023 年创立。今年早些时候,该公司聘请人脸识别企业旷视科技的印奇出任董事长。
模型采用 198B参数MoE混合专家架构 ,仅11B参数为动态激活参数,在保障高性能的同时大幅提升推理效率,原生支持 256K超长上下文窗口 ,可高效处理海量文本与长序列任务。在工具使用方面,它致力于高可靠性,τ²-bench 得分超过 98%。Step 3.7 Flash 兼容 Claude Code、MCP 协议等工具链,并支持在 Mac Studio M4 Max 等设备上本地运行。模型权重以 Apache 2.0 许可开源。 1 个帖子 - 1 位参与者 阅读完整话题
我觉得是阶跃。同样的内容,如果描述得稍微黑暗点,在 Kimi 和 DeepSeek 可以被正常回应,但阶跃会拒绝回应 5 个帖子 - 4 位参与者 阅读完整话题
跃星辰今日正式发布并开源 Step 3.7 Flash,是面向 Agent 生产化阶段推出的新一代 Flash 模型,围绕 Agent、Coding、Search 与多模态工作流进行系统优化。特别适用于构建高吞吐量的自动化智能体工作流。最高生成速度可达 400 Tokens/s,适合高频、多轮、低等待的 Agent 应用。 支持 256k 上下文窗口 ,并提供低、中、高三个推理级别,让开发者能够根据实际需求精确平衡响应速度、tokens 成本与能力。 针对主流 Agent 框架(Claude Code / KiloCode / RooCode / OpenCode / Hermes Agent / OpenClaw 等)、MCP / Skills 等工具调用协议和开发链路进行兼容优化,降低模型接入和工作流编排成本。 StepFun 开放平台文档中心 概览 - StepFun 开放平台文档中心 高速推理 + 原生多模态 + 工具调用 · 阶跃星辰旗舰多模态推理模型 modelscope.cn ModelScope 魔搭社区 ModelScope——汇聚各领域先进的机器学习模型,提供模型探索体验、推理、训练、部署和应用的一站式服务。在这里,共建模型开源社区,发现、学习、定制和分享心仪的模型。 1 个帖子 - 1 位参与者 阅读完整话题
IT之家 5 月 29 日消息,阶跃星辰今日正式发布并开源 Step 3.7 Flash,是面向 Agent 生产化阶段推出的新一代 Flash 模型,围绕 Agent、Coding、Search 与多模态工作流进行系统优化。 Step 3.7 Flash 采用稀疏 MoE 架构, 总参数 196B+1.8B (ViT)、 激活参数 11B ; 最高生成速度可达 400 Tokens/s ,适合高频、多轮、低等待的 Agent 应用。 据介绍,Step 3.7 Flash 有以下能力: 原生多模态理解与执行 : 原生理解 UI、图表、文档、图片和应用界面,将复杂视觉信息转化为结构化结果、代码生成和可执行任务。 联网与视觉搜索增强 : 强化联网检索与图像搜索,使模型在开放信息环境中跨文本与图像主动获取并交叉比对多源证据。 高可靠工具调用与编排: 在长程多轮 Agent 工作流中稳定调用 API、浏览器、终端、Office 工具和外部系统,保持任务轨迹一致,降低跑偏和执行失败。 Agent 生态兼容优化: 针对主流 Agent 框架(Claude Code / KiloCode / RooCode / OpenCode / Hermes Agent / OpenClaw 等)、MCP / Skills 等工具调用协议和开发链路进行兼容优化,降低模型接入和工作流编排成本。 ▲ 左一为 Step 3.7 Flash IT之家附相关链接如下: Model Page: https://static.stepfun.com/blog/step-3.7-flash/ GitHub: https://github.com/stepfun-ai/Step-3.7-Flash Huggingface: https://huggingface.co/stepfun-ai/Step-3.7-Flash Modelscope: https://modelscope.cn/models/stepfun-ai/Step-3.7-Flash 国内开放平台 API 接入: https://platform.stepfun.com 海外开放平台 API 接入: https://platform.stepfun.ai
国内模型后排的比如stepfun,longcat,混元等等,以及百度的文心一言(没看懂为什么某个榜单第一),大家有亲身体验过吗?混元的我个人使用体验不如minimax 2.7,stepfun也是不如而且应该略差于混元,百度文心一眼确实没用过(但是参数看起来很大)。 6 个帖子 - 5 位参与者 阅读完整话题
我对阶跃的看法是这样的: 阶跃是一个小厂,热度常年被阿里、DeepSeek、字节、智谱清言等大厂盖过,但它不差。 虽然它的模型没法用于专业用途(反正我没见过有人用阶跃的模型 Vibe Coding,我本人用 DeepSeek 来 Vibe Coding),幻觉问题也会有一些,但情感能力比 Kimi 和 DeepSeek 强一些。 还有就是,免费用户用 Kimi 体验比较差,用阶跃基本不会遇到聊的人太多的情况。 大家可以在评论区说说自己对阶跃的看法。 3 个帖子 - 3 位参与者 阅读完整话题
消息称阶跃星辰即将完成 25 亿美金融资,腾讯已进入股东名单并连续跟投 - IT之家 1 个帖子 - 1 位参与者 阅读完整话题
IT之家 5 月 11 日消息,今日,《科创板日报》记者获悉,老股东腾讯已跟投阶跃星辰新一轮融资。上周有消息人士对记者称,阶跃即将完成 25 亿美金(IT之家注:现汇率约合 170.18 亿元人民币)融资,并已拆除红筹架构,加速赴港 IPO 准备。据了解,早在阶跃 B 轮融资, 腾讯就已进入其股东名单 ,并连续跟投。 IT之家注意到,今年 4 月,腾讯云与阶跃签署战略合作,双方将围绕智能座舱 Agent 展开深度共创,充分发挥阶跃的大模型技术优势,以及腾讯云在云计算、智慧出行、内容及应用生态领域的优势, 打造全新的智能座舱 Agent 助手: 以语音为入口的交互中枢,免唤醒、能连续对话、可识别情绪。既能机智地住接梗,也能陪你谈天说地。 基于用户情绪、驾驶状态、环境和历史信息秒懂你的意图,精准推荐腾讯系海量内容及应用生态,如音乐、视频、地图等。 打通腾讯在支付、地图、出行服务等领域的生态接口,为你提供一站式服务。
IT之家 5 月 9 日消息,阶跃星辰昨晚发布了新一代实时语音大模型 StepAudio 2.5 Realtime,目前已全量上线,开发者可通过阶跃星辰开放平台接入使用。 该模型定位于打造更具“活人感”的 AI 对话体验,重点围绕副语言感知、人设自定义与对话能力三个方向进行技术升级。 IT之家从官方获悉,StepAudio 2.5 Realtime 的核心突破在于其对“副语言”信息的处理能力。所谓副语言,指的是语调、语速、停顿乃至一声叹息或轻笑等文字以外的表达方式,这些细节恰恰是人类情感传递的主要载体。模型通过对这些元素的解读,可以感知对话者的情绪状态与潜在意图,比如从低沉的声线中察觉疲惫,或是从急促的语气里识别出烦躁情绪,并据此动态调整回应的语气与策略,旨在降低交互的生硬感,使其更像与真人交谈。 在人设灵活性方面,StepAudio 2.5 Realtime 将定义权完全交给用户。开发者可以通过 API,从性格特质、背景经历、个人好恶到语言习惯与对话边界,对 AI 角色进行精细化调节。这一能力的背后,是模型基于超过 10,000 个高质量原生人设,通过算法裂变生成的百万级人设特征矩阵,并结合海量真实场景对话语料训练而来。针对深度角色扮演中常见的“人设崩塌”痛点,开发团队进行了专门的 RLHF(基于人类反馈的强化学习)对齐优化。据官方介绍,即使在极端情境的压力测试下,模型依然能保持高度稳定、可信的角色一致性。同时,该模型也内置了 5 个预设人设供用户直接选择体验。 在整体对话能力上,该模型强调智商与情商的双重跃升。除了深度理解复杂语义、应对抛梗接梗等交流场景,模型还能灵活调用多领域知识以提供更深度的对话体验,在应用中既可扮演提供情绪价值的聊天搭子,也能模拟专业 HR 进行面试等严肃场景。 根据官方发布的 2026 年 4 月评测数据,该模型在五个测试维度中均位列第一。其中最能反映真实体验的主观评测(手机 App 真人对话打分)得分 80.41,高于 GPT-Realtime-1.5 的 68.01 和 Gemini Live 的 67.16;语音问答基准得分为 79.80,约为 GPT-Realtime-1.5 的 1.5 倍。
DeepSeek 千问 智谱清言 MiniMax KIMI 元宝 阶跃星辰 其它 点击以查看投票。 16 个帖子 - 13 位参与者 阅读完整话题
据 The Information 报道,Meta 20 亿美元收购 AI agent 公司 Manus 被中国国家发改委叫停后,中国证监会开始收紧对红筹架构(中国公司通过注册在开曼群岛等海外实体持有境内资产的上市架构)公司赴港 IPO 的审批。多家正考虑港股上市的中国 AI 公司因此开始评估拆除海外架构、回归国内实体。 月之暗面(Kimi 系列模型开发商)正就架构重组与律师讨论,尚未做出决定。该公司正接近完成一轮估值 180 亿美元的融资。阶跃星辰已于今年早些时候主动开始拆除海外控股架构,判断转为国内实体可缩短港股 IPO 审批时间。阶跃星辰的投资方包括上海市政府,其投资人均支持重组。自动驾驶公司 DeepRoute.ai 也在进行类似讨论。 拆红筹是一项复杂的法律工程,通常需要 6 到 12 个月。公司须回购海外控股实体中所有投资人的股份,在国内设立中外合资企业,再以合资企业名义向原投资人重新出售股份。投资人在此过程中须按中国法规缴纳资本利得税。如果部分投资人因外汇管制等顾虑选择不参与,公司就要另找资金填补缺口。最终上市时,现有投资人的锁定期也会从红筹架构的 6 个月延长到 12 个月。 目前没有针对红筹架构的全面禁令,但证监会已向月之暗面等公司问询其海外控股情况。多位律师建议客户观望,等证监会明确要求再行动。中国绝大多数科技巨头(阿里巴巴、字节跳动、腾讯、百度)仍为开曼注册。 https://www.theinformation.com/articles/moonshot-ai-chinese-firms-weigh-corporate-overhaul-wake-meta-manus-deal-reversal 3 个帖子 - 3 位参与者 阅读完整话题
来自官方微信群 9 个帖子 - 8 位参与者 阅读完整话题
阶跃星辰PLAN 增加智能路由 增加deepseek等模型 4 个帖子 - 2 位参与者 阅读完整话题
彭博社援引知情人士称,包括国家发改委在内的中国监管部门近几周要求多家 AI 企业在融资中拒绝美国来源的资本,除非获得政府明确批准。正在筹备 IPO 的月之暗面和阶跃星辰均已收到发改委的相关指导。字节跳动也被要求不得在未获批准的情况下通过老股转让等方式引入新的美国投资者。 此举是 Meta 以 20 亿美元收购中国 AI agent 初创公司 Manus 之后,北京持续升级监管反应的一部分。此前中国已对 Manus 联合创始人肖弘和季逸超实施出境限制,并审查该交易是否违反技术出口管制和对外投资规定。 https://www.bloomberg.com/news/articles/2026-04-24/china-to-curb-us-investment-in-tech-companies-after-meta-deal 7 个帖子 - 7 位参与者 阅读完整话题
阶跃星辰发布 StepAudio 2.5 ASR 自动语音识别模型:推理速度提升 400%,定价骤减 90% - IT之家 1 个帖子 - 1 位参与者 阅读完整话题
IT之家 4 月 24 日消息,阶跃星辰今日宣布推出新一代自动语音识别模型 StepAudio 2.5 ASR。 该模型的核心突破在于率先将大语言模型的推理加速技术引入语音识别领域,在推理速度与转写精度两个维度均有显著提升,主要面向会议转写、语音交互、输入法、媒体内容处理、长音频识别等场景。 传统语音识别模型受限于自回归生成机制,需要逐个 Token 依次输出,效率较低。StepAudio 2.5 ASR 采用 ASR+MTP-5 深度融合架构,将此前应用在 Step 3.5 Flash 大模型上的 MTP(IT之家注:多 Token 预测)技术移植至语音识别领域。该技术使模型能够一次预测多个候选 Token,并通过并行验证机制快速确认结果,打破了传统自回归机制逐个输出的效率瓶颈。 实测数据显示,模型推理速度提升 400%、时延降低 60%,推理峰值达 500 tokens/s,推理成本直降 80%。以 5 分钟左右的音视频为例,几乎可以实现即时转写。 在转写精度方面,StepAudio 2.5 ASR 在覆盖新闻播报、会议访谈及强噪声环境的多个中英文权威测试集上,综合转写精度达到业内 SOTA 水准。在 LibriSpeech 等中英文 10 个权威开源测试集上的综合错误率均低于竞品。 针对长音频处理这一语音识别领域的长期痛点,行业内通常依赖“切片-转写-拼接”方案,即把音频切成若干小段分别识别再合并,但这种方式容易造成上下文信息割裂 —— 模型在转写后半段内容时,可能已经“忘记”了开头信息。StepAudio 2.5 ASR 复用了大语言模型原生的 32K 上下文窗口能力,支持端到端一次性读入最长 30 分钟的连续音频,无需分段切割。在 30 分钟满载输入测试中,模型没有出现随时间推移精度衰减的情况。 定价方面,StepAudio 2.5 ASR 仅为 0.15 元 / 小时,约为此前 Step ASR 2 的十分之一。目前,该模型已全量上线阶跃星辰开放平台和 Step Plan,开发者可通过官网体验使用。 相关阅读: 《 人人都能是配音导演,阶跃星辰发布语音生成模型 StepAudio 2.5 TTS 》 参考资料: 阶跃星辰开放平台: https://platform.stepfun.com/docs/zh/guides/models/stepaudio-2.5-asr Step Plan: https://platform.stepfun.com/docs/zh/step-plan/integrations/audio-api 体验中心: https://www.stepfun.com/studio/audio ?tab=speech-recognition Demo Page: https://stepaudiollm.github.io/step-audio-2.5-asr/ Model Card: https://stepaudiollm.github.io/step-audio-2.5-asr/model-card/
IT之家 4 月 16 日消息,阶跃星辰今日发布新一代语音生成模型 StepAudio 2.5 TTS ,官方号称人人都能是配音导演。 阶跃星辰官方表示,该语音合成模型首次将语境理解能力引入语音生成全流程。通过 Global Context(全局语境)+ Inline Context(文中语境)双档控制,搭配 Zero-shot 音色复刻, 让 AI 不是念文本,而是演文本 。 StepAudio 2.5 TTS 支持以下核心能力: 全局语境控制: 支持自定义整段语音的情绪基调、角色状态与场景氛围,使表达更统一、更连贯。 文中语境控制: 不仅能控制一句话怎么说,还能进一步调节语气、节奏、停顿、轻重变化、角色感和场景感,让声音表达更有分寸。 零样本复刻与全音色控制: 在保留目标音色特征的同时,支持对情感、风格和表达方式进行灵活调节,让同一种声音说出更多不同感觉。 IT之家附官方演示网址如下: https://stepaudiollm.github.io/step-audio-2.5-tts/zh.html
消息人士称,中国人工智能初创企业阶跃星辰最快将于周一提交香港首次公开募股(IPO)申请。(新浪财经)
作者 | 邱晓芬 编辑 | 袁斯来 硬氪独家获悉,具身智能企业「原力灵机」近期完成新一轮融资,资方主要为数家大模型公司,包括 智谱、阶跃星辰、商汤科技。 此外, 华勤、上汽恒旭 等产业投资方持续加注 。 「原力灵机」 是一家通用具身大模型公司,2025年3月由旷视科技联合创始人兼CTO 唐文斌 创立,团队核心创始成员为旷视科技原班人马。 有意思的是,此次融资也是商汤、旷视这两家曾经的对手,在具身智能的热潮中罕见“会师”; 另外,算上A+轮独家领投的 阿里 ,这也是具身智能赛道罕见同时聚齐国内四家大模型厂商——此前,智谱仅通过Z基金小范围投资具身智能领域,阶跃星辰则几乎未出手具身智能。 而这一集体动作也释放出一个信号,当 大模型竞争的主战从Token向Action转移 ,拥有物理世界交互能力的具身模型,已成为模型公司们锚定的下一片高地。 伴随着此次融资,唐文斌也在兵合一处,着手整合机器人资产。 硬氪独家获悉,「原力灵机」近期通过股权并购方式,完成了与「Atomix」(原力聚合)物流机器人的合并, 剑指具身智能的大规模落地与全球化扩张。 「 Atomix 」的业务基因最早可以追溯到2016年——彼时,唐文斌在旷视科技内部主导智慧物流与机器人调度业务(河图系统),主推多形态物流机器人解决方案。 直到2024年7月,随着旷视业务变化,唐文斌将物流机器人业务从旷视体系剥离独立,并成立「 Atomix 」。 经过几年的探索,「 Atomix 」的托盘四向车销量已达全球第二,累计服务项目超过500个,客户包括优衣库、蜜雪冰城、宁德时代等, 公司年营收近十亿 。 随着具身智能硬件供应链趋近成熟,行业已经逼近那堵必须逾越高墙:具身大脑。相比语言模型进化路径的清晰,具身智能模型当下甚至找不到低成本、海量且高质量的数据,遑论找到收敛的训练范式。可以说,整个行业都在混沌之中摸索。 这种情况下, 本体、大脑、数据的整合,或许成为具身赛道的新常态 。 一直以来,具身智能行业的理想状态是打造真正的数据飞轮。而实际情况是,行业正处于“数据死结”状态——模型需要真实场景里的错误数据来推进进化,而若没有好模型的武装,机器人无法进场景,也就无法采集真实的数据。 因此,有消息人士称,两家公司的合并,本质上是闭环模型与场景,打开数据死结。 正如唐文斌此前在采访中提到,Picking(抓取)正是具身智能时代的“原子任务”——Picking之于具身智能,正如Coding之于大模型,而「 Atomix 」正像是一台连续运转的Picking数据发动机。 「原力灵机」机器人 做早餐 (图源/企业) 据了解,在未来, 「Atomix」在超20个国家、500多个项目里跑出来的真实数据,将直接成为「原力灵机」模型训练的燃料;而「原力灵机」所训练的具身智能模型,也将快速实现跟「Atomix」现有机器人进行协同作业。 这一构想或许并非空中楼阁,而是建立在一定的技术底座之上。在此之前,「原力灵机」已经推出了通用具身大模型“DM0”。 唐文斌此前接受采访时提到,在数据层面,「原力灵机」已完成了业内首次“三类数据大融合”——将互联网语义、智能驾驶物理规则、机器人实操数据进行混合训练,提升数据的规模与质量。 而这种跨域混合训练的方式,使得“DM0”跳出了对特定硬件参数的依赖,像一位经验丰富的“老司机”,在海量异构数据中抽象出了通用的物理规律,并且能够无视硬件差异,在多种不同构型的机器人本体间迁移,实现通用的操作逻辑。 「原力灵机」机器人 在调酒 (图源/企业) 更关键的是,「原力灵机」也试图将大模型的“思维链推理”延伸至物理空间——这也使得,“DM0”仅用2.4B的小参数规模,就实现了突破亚毫米级的精细操作,在长程连续任务中的成功率大幅提升。 通过一系列组合拳,“DM0”正试图打破传统具身模型数据单一、换机即瘫、参数臃肿的痛点。 此次合并、融资后,中国的具身智能行业正迎来一位强劲玩家。更重要的是,这也提示行业正进入下一个阶段——寻找到具身模型的scaling law。 这绝非仅靠堆砌机器人本体就能逾越的险隘。 就在本周,媒体披露字节跳动正重金招募具身智能技术负责人,目标直指头部创业公司的核心技术骨干;与此同时,海外具身智能明星企业Skild AI也刚完成了对Zebra(斑马技术)机器人自动化业务的并购。 海内外巨头的动向如出一辙——随着本体制造商、数据资产方、模型研发者、场景运营方开始加速聚拢,行业正式进入深水区。 首页图源|网络 排版|范馨雅 欢迎交流