文|周鑫雨 编辑|张雨忻 《智能涌现》独家获悉, 字节跳动 AI 制药业务线已启动拆分与独立融资进程。 据悉,拆分后字节仍将控股新公司,AI 制药核心团队、核心算法、技术平台和已有管线资产将整体进入新主体。同时,该业务也将继续从火山引擎获得算力支持。 新公司将由字节跳动 AI 制药团队主导负责。字节 AI 制药团队成立于 2021 年,由刘凯负责,据悉核心成员约50人,由 AI4S 算法人才和资深制药领域专家构成。该团队自成立起便承担着从基础模型研究到产业化的核心职能。 此前字节内部负责蛋白结构预测模型的相关团队,也已并入由刘凯负责的 AI 制药团队 ,相关算法模型团队已完成整合,将继续推进该领域的基础模型研究,少数人员离职。 字节 AI 制药的业务进展,是这次拆分融资的重要基础。 字节跳动在 AI 制药方向有多个技术成果,2025 年,字节 AI4S 团队发布了分子结构预测模型 Protenix 和 Seedfold,并在 2026 年迭代 Protenix-v1/v2,构建面向蛋白、配体等生物复合体系的高精度开源结构预测能力。 在蛋白质设计和预测方面,团队则推出了 PXDesign 等蛋白 binder(结合蛋白)设计工具。 同时,字节还推出了面向真实药物研发的 AI 制药平台 Anew Labs。 Anew Labs 官网显示,团队已发布 AnewSampling、AnewOmni、AnewFEP、AnewSynth、scNext 等研究,覆盖蛋白-配体动态结构预测、全原子分子生成、自由能计算、合成可行性预测和虚拟细胞等方向,并推出 IL17AA/AF/FF、IL4R 等早期药物管线。 2026 年 4 月,Anew Labs 在美国免疫学会年会上首次披露 IL-17 小分子项目,在全球范围内首次实现用小分子对 IL-17 家族 AA/AF/FF 3个二聚体的阻断。由于 IL-17 是银屑病、强直性脊柱炎等自免疾病的重要通路,而同时抑制 A/F(两种关键炎症因子)已被抗体药物验证有临床价值。 这表明,字节的 AI 制药能力已经从模型和算法,进一步进入具体靶点、具体分子和内部管线验证阶段。 随着技术进步和 AI 制药上的探索不断取得进展,字节判断从科研到产业的机会正在成熟。因此,整合内部各方向团队,决心试水产业化。 当然,AI4S 的产业化挑战很大。 AI4S 业务的验证周期较长,环节更为复杂。以制药为例,涵盖模型研发、湿实验及临床验证等多个复杂环节,因此对专业人才的需求量更大,所需的组织管理形式和互联网业务也有所区别。 知情人士透露, 此次进行业务拆分,是为了建立更符合该业务特征的独立组织架构 。字节希望借此调整更好地吸引顶尖人才加入,进而推动该领域基础模型能力以及算法和制药产业的结合。 同时,制药行业本身也正处于效率压力之下。 过去二十多年,全球药企研发投入持续增加。全球最大的医疗健康数据和临床研究服务公司之一 IQVIA 预计,全球药品支出到 2028 年将达到约 2.3 万亿美元。 市场规模足够大,但新药研发成本高、周期长、失败率高的核心痛点并未根本改变。行业迫切希望引入 AI 技术来突破这些限制。 目前,AI4S 研究正在加速进展,体现在其解决复杂性问题的能力正在显著增强。 以 AlphaFold(谷歌 DeepMind 研发的蛋白质结构预测模型)系列的迭代为例:从初代验证可行性,到 AlphaFold 2 实现 2 亿个蛋白质原子级精度预测,再到 AlphaFold 3 跨越单一蛋白质限制,精准预测复杂相互作用系统——这证明 AI 已经深入到了药物设计的重要环节。 如果说蛋白结构预测还是一个基础研究问题,那么近年来涌现出的多模态分子生成模型,即是直接切入制药行业核心问题——药物设计,这可能也说明 AI 制药从研究逐步迈向产业化应用 字节布局 AI4S 已有多年。早在 2020 年前后,字节就开始系统进入 AI 制药、分子模拟和计算生物学等方向。此后,其在第一性原理计算、量子化学、分子动力学、材料模拟,以及面向能源与药物分子生成等方向均有团队覆盖。 大模型研究团队 Seed 成立后,AI4S 也成为字节前沿技术布局的一部分。 一位接近这次拆分的人士称, 这是字节第一次试水 AI4S 的产业化,内部非常重视 ,“生物科技有自己的产业逻辑,独立出来,有独立决策灵活性,希望能跑通中国的 AI4S 产业路径。”
文|李嘉星 编辑|周鑫雨 一句话介绍 context-mode 是一款专为 AI 编程打造的上下文优化 MCP(Anthropic 发布的模型上下文协议)插件。 它解决了开发者在长周期开发中遭遇的“模型失忆”与“Token 过多消耗”的核心痛点。 据团队表示,在编程场景下,context-mode 能够让 AI 编程的成本降低 98%,同时将大模型的记忆力从30分钟提升至 3 小时。 团队背景 context-mode 的背后是一支背景多元的跨国初创团队。目前团队的核心成员分布在土耳其、法国等 4 个国家,主要通过 GitHub 异步协作。 Mert Köseoğlu(核心开发者、创始人): 曾作为技术顾问为 OpenAI 等企业提供技术服务,拥有超 10 年全栈工程与系统架构经验。创业前,他曾先后任职于 Countly、Planhat 及 Jotform 等全球知名数据与 SaaS 平台,担任高级软件工程师。 孙逸诚(核心开发者、多平台适配负责人): 团队里的中国面孔,目前大二在读。他曾入围强基计划(数学与物理全省前 18 名),具有 Temporal-RAG(时序数据检索增强)引擎的独立开发经验,并获得知乎全球 A2A(Agent-to-Agent)黑客松银奖。 产品及业务 图源: context-mode 简单来说,context-mode 是一款专门为 AI 编程助手“减负”和“整理记忆”的开源 MCP 插件。 该项目发布后曾 登顶 GitHub Hacker News ,目前已在 GitHub 获得超 1.5 万颗 Star。context-mode 现已吸引逾 24.3 万名开发者接入,完成了对 15 个主流平台的底层适配,并被微软、谷歌、Meta、字节跳动及 Cursor 等科技公司的研发团队采用。 context-mode 之所以能在极客圈获得大量的关注,正是因为其精准切中了一个令人头疼的行业焦虑: 被昂贵API账单和大模型失忆逼疯的开发者 随着“龙虾(OpenClaw,一个开源 Agent 框架)”等全自动AI编程智能体的普及,Vibe Coding 的应用门槛进一步降低。 然而,享受到 AI 带来的效率提升的同时,用户很快意识到,智力是昂贵的:一方面,Claude、GPT等顶尖模型的 Token 定价并不便宜,包含充足 Token 额度的高级套餐,定价动辄高达 200 美元/月。 另一方面,受制于当下的能力,在执行具体任务过程中,模型的反复试错、重复检索都会造成额外的 Token 浪费。 在实际开发场景中,大模型往往表现得像一个“没有常识的数据处理机器”。团队成员孙逸诚分享了一个踩坑经历: 参加 Kaggle 数据竞赛时,他将一个包含 300 组数据的训练任务交给了 Claude。为了确认任务进度,Claude 没有选择写一段定时脚本,而是选择每隔 5 秒钟向整个项目发起一次全局检索。这种极其低效的“死盯”策略,让一个高配会员账号的 API 额度在短短半小时内消耗了 90%。 与此同时,大模型还存在“失忆”的问题。开发者发现,当代码量触及某些主流 IDE(集成开发环境)的隐形上限(如 164K)时,系统会不得不丢弃或压缩历史信息,导致模型遗忘关键细节。这就导致:前一秒还在流畅写代码的 AI,下一秒就会把前置的关键架构和约束条件忘得一干二净。 面对大模型严重的“幻觉”与“失忆”,context-mode 给出了解法: 既然大模型处理海量原始数据又贵又笨,那就剥夺它直接阅读原始数据的权利。 孙逸诚打了一个比方:“传统的 AI 编程就像看一场马拉松,大模型会死死盯着每一个选手的每一步,这当然会耗尽它的上下文。而 context-mode 做的, 是把跑马拉松的过程扔进一个屏蔽的沙盒(Sandbox)里,大模型只需要看最后的排名结果。” 具体到工作原理,首先,通过引入“虚拟沙盒”与精准检索,context-mode 能够有效降低 Token 的消耗。 在传统的调用模式中,每一次 MCP 工具的调用都极其昂贵,庞大的原始数据会被直接倾倒进大模型的上下文窗口,导致 Token 消耗量上升。 context-mode 的“虚拟化沙盒”机制,就好比在大模型和操作系统间建立了一道“防火墙”。它会先把所有文件和运行记录存放在本地,需要用到时再帮大模型把相关内容找出来。 《智能涌现》的测试结果。 根据《智能涌现》的测试,接入 context-mode 后,大模型读取一份 79.3 KB 的文件时, Token 的消耗成本降低了 87.7%。 其次 , 为了解决大模型的“失忆”痛点,context-mode 通过构建“存档点”,实时监控开发者的每一次文件编辑。 当对话太长,它会主动构建并向 AI 注入一个通常小于 2KB 的“快照”,相当于在代码编辑过程中建立了一个“存档点”。官方表示, 这种机制能将大模型连续编程的有效时间从 30 分钟提升至 3 小时。 最后,context-mode 引入了强制性“用代码思考(Think in Code)”的范式,从而节省 Token 消耗。 所谓的 Think in Code,简单而言,就是不让模型逐行阅读、处理文件,而是先让模型编写一个“小程序”,让“小程序”先在本地完成数据分析,再将提炼后的结果反馈给模型。 context-mode 创始人 Mert 告诉《智能涌现》,开发者陷入了一个误区:习惯将海量数据直接丢给大模型进行处理。实际上,面对 50 个文件的数据统计任务,与其让模型亲自逐个阅读,不如先让模型写一段脚本,由脚本完成统计工作,再把结果返回给模型。 用 Mert 的话说,一个脚本可以替代十几个昂贵的工具调用,并节省百倍的上下文。 根据《智能涌现》的测试,接入 context-mode 后,模型处理一份文件时, 节省了 99.98% 的 Token 成本。 context-mode 的上手门槛,比 Cursor 等需要重新下载并适应环境的独立开发软件(IDE)更低。作为一个轻量级的 MCP(模型上下文协议)插件中间件,context-mode 可以直接接入开发者原有的工作流中。 context-mode 团队还提供了一系列快捷指令,用来查看各大平台的 Token 节省情况。用户只需要在聊天框中输入指令,浏览器就会弹出一个本地的数据统计面板,记录着当周调用了多少次 API,以及 context-mode 拦截了多少次无效的数据读取。 △快捷指令列表。 图源: context-mode 近期,context-mode 针对企业研发场景,推出了 “上下文即服务” 。 在企业研发场景中,AI 的 ROI 往往难以衡量。 为此,context-mode 推出了企业服务“Insights”。获得授权后,安装在程序员电脑上的插件,可以直接将程序员使用 AI 的过程数据(比如调用了什么工具、报错了几次、消耗了多少钱),发送到Insights 所在服务器上。 与此同时,Insights 还能针对不同岗位,提供不同的数据报告。比如面向安全总监,系统会自动生成安全报告;面向财务团队,系统可以提供 Tokens 消耗明细。 目前,Insights 仍处于定向内测阶段。 Founder思考 停止将大模型视为“数据处理器”,它本质上是“代码生成器”。 现在很多平台和开发者陷入了一个误区,喜欢把 50 个文件直接读入上下文,让大模型去里面“数”有多少个函数。 这不仅缓慢,而且极其浪费算力。我们的主张是“用代码思考(Think in Code)”——LLM 应该去编写一个统计脚本来完成计数,最后只输出结果。 一个脚本可以替代十几个昂贵的工具调用,并节省百倍的上下文。在未来的 AI 编程范式中,这是所有平台都必须遵循的底层铁律。 无限上下文是一个伪命题,克制才是 AI 工具最难建立的壁垒。 行业里都在卷大模型的长文本能力(比如 100K 甚至 1M 的上下文),但这其实是个陷阱。把几十 KB 的报错日志一股脑倾倒给 AI,只会加速它的“失忆”和幻觉。 真正的解法不是盲目扩容,而是建立起一套极度克制的“状态记忆层(沙盒)”。谁能把传给 AI 的无效噪音压缩到极致,谁才能真正帮开发者把连续编程的时间从 30 分钟延长到 3 个小时。 下一代 AI 编程的瓶颈不在于模型够不够聪明,而在于上下文管理框架够不够清晰。 现在大家都在抱怨 AI 会在同一个 Bug 上反复跌倒。这并不是因为模型变笨了,而是它在冗长的对话中迷失了。 只有给 AI 提供像单机游戏一样的存档点,强制它按优先级读取记忆,才能为它真正有价值的逻辑推理留出足够的空间。 大厂在卷“全家桶”,而我们在做跨平台的“万能插座”。 我们花大量精力去适配 Cursor、Claude、Gemini 等不同的底层逻辑,是因为真实的开发者生态永远是碎片化且快速迭代的。 开发者不需要另一个被大厂深度绑定的全能 Agent,他们需要的是一个轻量、不吃内存、即插即用且能极大降低 API 账单的中间件。
文|周鑫雨 编辑|张雨忻 杨轩 《智能涌现》从多个信源处独家获悉,2026 年,字节 AI 有四个重要的命题: 加大对世界模型训练的投入,年底前,模型 性能达到现阶段世界模型全球 SOTA(最佳)Google Genie 3 的水平。 视频模型继续保持领先地位, 探索“动态生成”等新方向。 进一步打好 Coding 的地基, 做好 Coding 的 Dogfooding(数据回流、评测,形成飞轮),提升 Agent 能力。 豆包强化商业化能力, 重点场景是“办公”。 字节的未竟之地:世界模型 如今,字节的 AI 矩阵中,有让字节终于得以进入中国大模型第一梯队的 Seed 2.0,还有做到世界 SOTA 水平的 Seedance 2.0,另外在应用侧,豆包也形成了断层式领先—— 我们从多方了解到,2026 年春节过后,豆包 DAU 达到 2 亿 。 “没有明显短板。”一名大厂 AI 战略如此评价字节的 AI 业务矩阵。 但在一众模型中,唯独少了大模型研究下一阶段的关键:世界模型。 几名接近 Seed 团队人士告诉我们,字节是入场世界模型赛道较晚的玩家。 2024 年,刚从阿里加入字节的周畅,扛起了世界模型研究的大旗 。 但当时内部的判断是,世界模型路线和商业化场景还不明确,更重要的是打好视频模型的仗。 直到 2025 年,字节才在小范围内成立研究组,开始对世界模型中的 VLA(视觉-语言-动作模型)路线进行探索。带队人有两位: 一是字节 AI Lab 负责人李航——2025 年 4 月,AI Lab 整体(包含 Robotics 团队)并入了 Seed,目的之一是提升模型和应用(具身智能)之间的沟通效率——主要基于仿真数据进行世界模型训练。 另一位是 Seed 多模态研究员王文千,主要基于自然数据做训练。 来到 2026 年,吴永辉终于在 Seed 全员会上为世界模型设立了一个明确的目标: 2026 年底之前至少发布一版世界模型���性能对标目前的世界 SOTA(最佳)—— Google 在 2025 年 8 月发布的 Genie 3 。 但从目前的进度来看,追赶的速度不够。一位接近 Seed 人士告诉我们,吴永辉多次在 Seed 内部会直言字节世界模型和具身智能的效果不及预期。 另有 Seed 成员透露,根据内部评测,截至2026年初,字节世界模型的综合性能距离全球 SOTA 还存在 10% 的差距。 但这场仗代表未来。 一方面,世界模型的下游,便是至少千亿美金体量的具身智能市场,以及想象空间极大的游戏和娱乐场景。 一名前 Seed 研究员曾对我们表示,字节机器人此前的落地场景主要为物品运输、工业搬运,但内部判断天花板较低,“市场前景更广阔的人形机器人是字节一定会入局的方向。” 另一方面,世界模型的路线仍然存在诸多非共识,包括视频生成派、VLA(视觉-语言-动作模型)派、JEPA(像素预测)派等。 “赌,以字节的人才密度和资金投入,大概率能赢。”一名AI投资人对我们分析,“不赌,则一定会输。” 围绕跻身世界第一梯队的目标,2026年以来,字节针对世界模型训练,也已经做了不少调整。 《智能涌现》得知,2026年春节后, Seed 新设立了一支世界模型研究组,负责人为前Meta FAIR Lab研究员范浩奇,汇报给 Seed 多模态和世界模型负责人周畅; 与此同时,原来李航和王文千带领的两个 VLA 研究组合并,统一向周畅汇报。 多名知情人士告诉《智能涌现》,原来李航和王文千的研究组所探索的路线,主要是 VLA,追求“即兴”、“真实”,目标应用场景是具身智能;而范浩奇带领的新队伍走的则是 3D 仿真路线,主打娱乐和游戏这类应用场景。 除了人力和探索路线的扩张,世界模型在资金投入上也是文本、Coding、视频等多个模型方向中最高的一个。 很显著的是数据预算。一名字节数据平台的员工告诉我们,训练数据“走量”的策略,此前在 LLM(大语言模型)和 Seedance 2.0 上取得了显著收益,团队计划将同样的“数海战术”应用在世界模型的训练上。 这也对应着更高昂的数据投入——我们从多方了解到,2026 年,字节批给世界模型的训练数据(包括VLA、长视频、3D 等模态)的预算,在各个模态中是最高的,金额达到数千万元。 一名数据供应商提到,字节在世界模型上的数据投入,能达到其它厂商的 3-4 倍。 Coding :追求更极致的数据工程 Coding 能力是基础,是决定 Agent 效果上限的关键——这已成为业界的共识。 多名知情者曾对我们提及字节对 Coding 的重视。“字节对 Coding 的投入一直很高,仅次于今年的世界模型。”有接近 Seed 的人士告诉《智能涌现》。 比如,内部会定向采购数据,或是研究 Claude Code、CodeX 等海外顶尖 Coding 模型的训练数据 demo。 在 2025 年的火山引擎 Force 大会上,字节跳动技术副总裁洪定坤也表示,Coding 作为一种高度结构化、逻辑严密的任务,对模型理解复杂的语义结构、逻辑推理、算法设计和精确表达都有很高的要求,能助力模型智能上限的探索。 但在外界,字节 Coding 业务的存在感一直不强。无论是 2025 年 11 月发布的模型 Doubao-Seed-Code,还是 2025 年初发布的 AI 编程工具 Trae,效果和声量都不及智谱的 GLM 5 和月之暗面的 K2。 “字节 Coding 效果难以取得突破的原因在于缺少数据回流。” 一名知情者评价。由于模型能力有限,字节相关业务都不愿意使用 Seed-Code。 就连 AI Coding 应用 Trae,最早接入的也是 DeepSeek 和 Claude Code,以及产品内部自己训练的 Coding 模型。 这就导致,字节 Coding 模型缺少来自真实应用场景的反馈。 2026 年以来,不少字节员工感受到,各个业务方正在加大对 Seed 模型的支持力度。一名 Seed 员工告诉《智能涌现》,原来字节并不限制业务侧使用第三方 Coding 模型做开发,但 2026 年以来,多个应用部门被强制要求使用 Seed 模型。 不过,在更极致的数据投入下,Seed 在人才招聘上的速度倒是稍有放缓。 有AI 圈猎头告诉《智能涌现》,字节 HR 现在对外释放的信号是:粗放高薪招聘的时代已经结束了,接下来的命题是内部培养、提拔年轻人才,提高算法待遇。 如今,Seed 为数不多的招聘口子,主要开放给了来自DeepSeek,以及OpenAI、DeepMind、Meta 等海外大厂的 AI 人才,比如前 DeepSeek 核心成员郭达雅、前英伟达研究员董鑫。 Seedance 如何保持 SOTA 地位 2026 年字节在 AI 模型上的另一个重点,则是维持 Seedance 在全球视频生成领域的 SOTA 地位。 “Seedance 2.0 的胜利,是数据的胜利。”某视频生成初创企业的创始人曾对《智能涌现》这样评价 Seedance 2.0。我们得知, 庞大的训练数据量和超过 2000 人的评测团队,造就了 Seedance 2.0 的亮眼效果。 但持续靠“走量”的训练方式也存在隐忧。一些研究表明,视频生成领域存在“Anti-Scaling Law”现象,简单而言,训练数据越多,模型越容易“偷懒”,只学习某些关键帧,而忽视完整叙事——因此,越到训练后期,数据“走量”的收益往往越低。 两名数据侧的知情人士告诉我们, Seedance在预训练上已经做到了天花板,接下来想要提升性能,就必须清洗训练数据,进行更精细的后训练。 与此同时, “动态生成”能力是 2026 年 Seedance 团队关注的新方向。 所谓的“动态生成”,也就是互动视频,指的是用户可以输入指令,随时调整视频生成的内容和剧情。在这一赛道上,已经跑出了估值高达 13.2 亿美金的Vivix AI(前商汤高级研究总监刘宇创立)。 多名知情者告诉《智能涌现》,周畅一直十分看好动态生成的落地前景。 “互动视频可以做成小游戏,也可以做互动剧集,同时也能和世界模型的探索接轨(视频生成也是世界模型的一条探索路径)。”一名接近 Seed 人士表示。 加速豆包的商业化和出海 36氪曾独家报道 ,豆包预计将在 6 月下旬正式上线付费内容;与此同时,豆包也在计划与抖音电商打通,完善付费场景。 2026 年 5 月初,豆包曾在 App Store 中更新过付费订阅方案,月订阅价格在免费到500元不等。 6 月 3 日,豆包官方也宣布,即将针对专业人群的生产力需求推出“豆包专业版”,包含软件开发、数据分析、专业设计、流程自动化、金融分析、科学研究等专业服务。 多名知情者透露,春节后, 豆包 DAU 已经突破 2 亿 。“今年豆包的投流预算很低。”在一名知情者看来,高 DAU 带来的是高昂的推理成本和运维压力,豆包在这个时间点推进商业化,带有降一降增长的增速,以及自我造血的双重目的。 而 PPT 生成,是豆包建立用户付费心智的核心切入点 。“豆包希望加强 PPT 生成功能,是为了面向金融、法律等高净值行业的白领收费。”一名接近豆包人士告诉《智能涌现》, 下一阶段,豆包还计划推出企业版,与企业内部的系统打通,但内部仍在讨论具体的结合方式 。 他表示,这一想法,是受到了海外模型商业模式的启发。目前,面向办公场景收费这条商业化路径,在海外已经得到了验证。据 Anthropic 披露的数据,Claude Code 上线仅 6 个月,ARR 就达到了 10 亿美元;上线一年后,2026 年 2 月的 ARR 已经达到了 25 亿美元。 面向企业开发场景的 Claude Code 带来的可观现金流,也让成立比 OpenAI 晚了 6 年的 Anthropic,在今年年初一跃反超 OpenAI 的 ARR。 那么现在,豆包要解决的问题就是把自己的用户心智从一个可以免费问一切的“通用入口”转变为一个虽然要花钱但能帮你提高效率的“办公助手”。 不过,豆包想进入的这个市场已经开始拥挤。有豆包人士对智能涌现提到,在调研企业客户的过程中,字节发现企业 AI 工具市场已经被不少行业 AI 解决方案供应商占领,迟来的豆包必然要面对更高的获客成本。 《智能涌现》了解到,出海也是豆包今年的重要命题之一。 此前,据《界面新闻》报道,豆包海外版应用 Dola 在 2025 年底的 DAU 已经突破千万。《智能涌现》了解到, Dola 2026 年的增长目标为:年底达到 3000万 DAU。 一名知情人士表示,小语种国家是 Dola 面向的主要市场。目前,海外 AI Chatbot 市场,已经基本被 ChatGPT、Claude、Gemini 占据。不在欧美市场与“AI 御三家”正面对抗,差异化切入小语种市场,是 Dola 的增长策略。 第三方数据显示,2025 年下半年以来,Dola 频频登上印尼、马来西亚、墨西哥等国家的应用商店下载榜。 —— 加入字节一年来,吴永辉的命题就是带领 Seed 一边修 Bug,一边做 SOTA 模型。而 2026 年,在AI 的每一个战场中,字节的目标都是做赢家。 如今,Seed 2.0、Seedance 2.0 成果初显,Seed 积累的工程、数据经验、人才,也将会以更高效的方式,复用到新一轮战争中。 (《智能涌现》作者邓咏仪对本文亦有贡献。) 封面来源|AI生成、视觉中国 欢迎交流! 欢迎交流!
文|王欣逸 李嘉星 编辑|周鑫雨 一家Day 1就在做多模态大模型的公司,无法拒绝参与到具身智能和世界模型热潮之中。 2026年,随着Seedance 2.0、GPT Image 2.0等模型的爆火,多模态能力越来越成为行业内绕不开的关键词。5月19日,智象未来首届开放日上,智象未来给出了他们的判断和回答:“原生多模态是实现AGI的必经之路。” 本场开放日活动主题为“Imaging the World”,不过,对于智象未来而言,「World」的重要性,几乎要放在「Video」和「Image」之前了。 “我们的终极目标是打造世界模型。”智象未来CEO梅涛在活动中反复提及这一观点,在他的定义中,智象未来要做一家原生多模态大模型公司。 在梅涛看来,一个真正的世界模型需要同时满足多个条件:掌握物理规律、解决长时间跨度的因果推理、实现全模态交互以及绝对的安全性。 当下业界主流的世界模型训练路线可以分为李飞飞的“生成3D世界”一派,以及Yann LeCun的“自监督预测世界”一派。 智象未来则做出了不同的选择——做算法和架构层的创新,从世界模型训练中最稀缺、成本最高的多模态数据入手,率先聚焦在视频、图像、3D交互等数据的生成上,用低成本的合成数据对抗行业数据稀缺瓶颈,并从中积累一些在世界模型上可复用的视觉模型能力。 具体而言,他们要让多模态模型从构建之初就拥有理解真实世界规则的能力。原生全模态Unified Transformer(UiT)架构能做到“Any to Any”(任何形式输入支持任何形式输出),这也正是世界模型所需要的能力:在统一架构中理解、生成并预测现实世界的不同状态。 过去一段时间,他们做出了从“模型即产品”到“做Agent平台”的转变。 作为一家主要面向To B的公司,他们概括自己的打法是做一个“1+1+3”MaaS(软件即服务)平台,分别为底层的HiDream系列大模型、中间层的HiHarness企业服务平台,以及上层三大场景的应用:商业营销、影视创作、社媒创作。 概念火热的同时,资本也在不断押注。继上个月拿到安徽省产投、东方富海等机构参投的5亿人民币B轮融资之后,智象未来又火速官宣了下一轮融资,两周内再次完成亿元级新一轮融资。 一系列竞争也随之而来,当下的模型能力越来越强,在和海内外基模厂商争夺模型市场的同时,智象未来还要攥紧他们手中的新牌——MaaS平台,并瞄准视频生成领域的垂类赛道,开展和大公司的争夺战。 在智象未来开放日结束后,《智能涌现》等媒体和智象未来CEO梅涛,以及其投资人东方富海合伙人王兵聊了聊,以下为对话实录(略经摘编)。 很多具身智能公司低估了视频模型的重要性 问:在大家的认知当中,智象未来之前做图像和视频比较多,从二维的图像、视频,到三维的物理世界,你们的战略转型是怎么发生的? 梅涛: 目前大家将市面上一些模型称之为世界模型还太早了。世界模型有不同的路径,未来可能也会有多种可能性。 到今天为止, 我们不会去对外声明我们目前是一家世界模型公司 ,我们更倾向于将智象未来定义为 原生多模态大模型公司 。 智向未来更关注原生的全模态大模型及其应用领域,不过,原生多模态大模型公司在将来肯定会通往世界模型。 问:现在很多公司都自称在做“世界模型”,但外界对这个概念的定义很模糊。您如何界定智象未来所追求的“世界模型”? 梅涛: 我们会非常严谨地认为智象未来做的是原生多模态的模型,在迈向世界模型的过程中,会比较聚焦在视频、图像、3D交互这些数据的生成上。 问:智象未来从拼接式多模态升级为原生多模态,这在技术上出现了什么拐点?目前技术是否成熟? 梅涛: 多模态生成领域的技术尚未收敛,这正是创业公司的机会。如果技术完全收敛、统一采用DIT框架,我们也就没有空间了。 正因为技术没有快速收敛,我们才能通过算法创新,以少量资源实现与大厂同等的效果,而非单纯去拼数据与算力。 问:从全模态大模型到世界模型,需要还需要达成哪些成熟的技术条件? 梅涛: 第一是掌握物理规律,包括流体力学、固体力学、分子动力学和牛顿定律等,目前行业还难以全面枚举和掌控; 第二是解决长上下文的因果关系问题; 第三是实现与物理世界的全模态交互,比如机器人怎么拿起杯子、拧开盖子、倒水并判断用户需求,这离我们还有相当长的距离; 第四是安全性,机器人如果进入家庭,必须保障百分之百的安全,避免对人身或贵重物品造成损害。 我们现阶段更务实的选择是关注原生多模态问题,既能实现商业化落地,也能为未来迈向世界模型做好技术积淀。 问:很多视频生成模型公司都在卷长视频、真实性,在迈向世界模型的过程中,这些指标会发生改变吗? 梅涛: 世界模型强调的是生成世界的能力,包括逻辑关系、视觉效果等。 我们对自己的视频模型有三个维度的要求: 第一是 模型能力 ,即视觉内容的合理性、质量,与物理规律的符合度,在模型能力上我们必须瞄准天花板来做; 第二是 视频时长 ,我们目前能做到分钟级的生成,甚至在技术上可以做到3分钟、5分钟甚至无限长; 第三是 实时性与交互能力, 当模型花1分钟就能生成出1分钟时长的视频,那基本就可以实现交互了。我希望我们的产品可以朝这个方向努力,比如通过算法提供低质量的预览,用户确认后再输出高精度的2K或4K视频。 问:在训世界模型的过程中,数据是比较稀缺的资源。您认为世界模型的数据获取、清洗和标注策略,和之前训图像、视频模型相比有什么不同? 梅涛: 模型训练过程包含三个要素:算法、数据和算力。 倘若算法框架固定下来,剩下的就是在比拼数据和算力了。举个例子,如果大家都在用DiT(Diffusion Transformer)架构做视频模型的话,数据的质量、分布以及数据标注的质量,对模型能力相当重要。 不过,一旦算法和架构发生了变化,或者出现了新的架构和新的算法,数据的重要性就会弱一点。这也是创业公司的机会所在——我们不完全拼算力和数据,而是关注算法本身的创新。 回到数据层面来看,为了获取高质量真实的数据和反馈,我们做了一套工具链条,用以收集、清洗和标注这些数据。 我们拥有20万小时有影视版权的视频数据,和不少厂商保持着合作关系,同时也正寻求和头部拥有版权数据的影视公司的合作。 世界模型的数据情况与视频模型有所不同,世界模型数采需要全方位多模态的数据,成本更高,且更为稀缺。因此,智象未来在做的是,将其他厂商采集到的毫米级真人实操数据,用视频模型生成万份级不同场景、肤色的真人数据,并用这些真实数据及机器合成数据训练VLA(Vision-Language-Action,视觉-语言-动作模型)和WAM(World Action Model,世界动作模型)。 问:用纯真实数据训模型,和用机器合成数据训模型,效果会有所不同吗? 梅涛: 我们会进行小规模的验证,形成从数据到模型训练的闭环。具体来说,就是看用机器生成的数据对市面上普通的乃至最好的VLA和WAM模型有没有好处,反推去验证数据的有效性。 问:您曾提到,很多具身智能公司低估了视频模型的重要性。您为什么认为没有视频模型,具身智能很难走远? 梅涛: 现在具身智能公司的模型规模普遍很小(不到100B)。如果真要承担类似世界模型的复杂任务,靠小模型和有限的数据采集,不太可能实现广泛的泛化。 我们做的是全球唯三、能够达到千亿规模的多模态模型。如果没有一个坚实、厚重的底座模型,做具身智能很难实现很好的泛化,即便在特定场景里因为有数据采集能做一点,也很难扩展到其他场景。 多模态模型Token的毛利率,远远高于大语言模型 问:今年初,Sora的关停下架对国内视频领域的创业者产生了一定影响,这会影响投资人的投资决策吗? 王兵: 不会, 因为这是OpenAI的战略。目前在Coding领域,OpenAI被Anthropic压得很厉害。在有限的资源和竞争之下,OpenAI可能自然把短期内难以赚钱的图像、视频模型的优先级放低了。 但从去年到今年,整个图像和视频模型行业的商业化进展非常快,比如可灵、Seedance 2.0等,在收入上表现是不错的。 不过,视频生成赛道真实存在的可能是版权问题,这也是我们选择投智象未来的重要原因,智象的所有的数据都是合法、有版权的。 在大模型特别烧钱的背景下,我们特别看中企业如何用最有效的方式和大公司进行差异化竞争。具体来说,一方面,企业怎样用较低的成本做出能力比肩头部大厂的基模,并做好研发效率和资金效率;另一方面,企业能利用先进技术,快速落地到不同的商业场景中,差异化做好B端场景服务。 问:视频模型真的能赚钱吗? 王兵: 它一定会赚钱。 第一是算力成本一定会指数级下降,英伟达每年推出的芯片算力都是上一代的5-10倍,但价格几乎没有涨太多,因此算力的平均价格每年都在下降。 你今天看到不赚钱的项目,可能过两年就开始赚钱了,因为算力成本在不断下降。 第二是,过去几年,图像和视频的生成效果无法达到商业化的水准,但今年,我们可以看见包括AI短剧、短视频、电商视频的质量几乎都能实现商业化。在影视、广告等几乎所有视频领域应用场景中,AI一定会取代绝大部分的人工。 问:在视频生成行业做To B服务,毛利率能实现为正吗? 梅涛: To B的毛利率挺高的,同时,多模态模型Token的毛利率也远远高于大语言模型Token的毛利率。 问:衡量视频赛道企业是否到达商业化的节点,有什么样的标准吗? 王兵: 我们观察了这个赛道很长时间,一直没有下手的原因是,我们还不清楚什么时间点品质和成本能够达到商业化水平。 从去年开始,我就感觉那个“点”就快到了,同时我们也在等那个最合适商业化的转折点。这个“点”一定会来,而且就目前来看,它到来的时间比我们想象的要快。 从具体对企业的衡量标准来看:第一个是团队技术背景,团队是该领域的开拓者且经历了很长时间的积累;第二个是稳定性,团队的人才密度很高,能持续保持稳定;第三个是资金效率、研发效率以及团队长期的专注力。 问:您对视频生成赛道创业公司的商业化路径选择是怎么看的? 王兵: 在算力成本大幅下降之前,尽量不要在To C上和巨头公司打起来。 以智象为代表的创业公司,先做To B肯定是对的,通过做To B,企业能提升产品的逻辑能力、场景落地的能力,在没有烧很多钱的同时还能实现一定的收入。 问:平台与各大模型平台的合作模式与分成机制是什么?分佣比例方便透露吗?在电商、短剧上又存在什么样的合作模式? 梅涛: 行业共识是,没有一家厂商的模型能满足客户所有要求。所以我们打造了MaaS平台,既沉淀自研的多模态能力,也接入Deepseek等第三方大语言模型,满足客户端到端的需求。平台上沉淀了大量API与Skills,用户贡献行业技能,我们会与之分佣。 在电商短视频广告上,我们有三种收费模式:一是按Token售卖工具;二是RaaS素材服务;三是按GMV分佣,比例在15%至 30%。 短剧方面,我们现阶段主要是给承制方提供AI制作工具,目前不分佣。如果遇到一些精品短剧制作方,比如我们和安徽电视台、华策的合作,我们会联合承制和发行,这种模式下就会有分佣了。 问:您之前提到,AI时代不卷是不行的。今年你们调整了公司的战略,要做“1+1+3”MaaS平台,是什么时间点或者市场体感推动您做出这样的决定? 梅涛: 我们是科学家创业背景,习惯脚踏实地做事。但真正对我们触动比较大的是Minimax、智谱等企业港股上市表现优异。在二级市场上,大家对中国AI公司的估值和信心很强,这让我们意识到需要提升品牌叙事能力。 在一级市场的体感上,2023年大家更看重模型效果,但2024年底至2025年更看重商业化成绩,今年大家开始向海外对标模型能力。 今年,一级市场和二级市场的投资人都开始转向模型能力本身,都意识到 模型就是产品,产品就是商业化。 我们一直都是同时做模型和商业化。很难说某一家公司的模型排名始终全球第一,如果没有及早建立商业化壁垒、没有用户心智和行业属性,模型能力上去了,商业化很难跟上。我认为模型和商业化需要两手抓。 问:从卖通用工具转到开始卖端到端Agent,你们团队内部有没有battle过? 梅涛:这个争论一直有。 最开始我们觉得模型能力就是产品,因此我们把模型做成了一个简单的C端应用,结果发现并不是这样。除了开发者,普通B端用户不会自己写代码去调用模型,而是要有一个Agent作为中间层。 所以从创业第一天起,我们就坚定要 做B端的企业服务 。关于商业化的大方向我们没有任何摇摆,To B、To C我们都做,但中间我们摇摆过到底是做SaaS还是做RaaS(内容即服务),包括为什么选择做内容电商,而不是传统的货架电商。 我们踩过很多坑才发现,做货架电商其中的视频或图片可能很长时间不会更换,你很难证明其中的价值。但内容电商的客户每个月要消耗大几千条短视频,超级客户一年要几十、上千万条,这不可能都用人工来拍,这就是端到端Agent的价值所在。 问:你们想做企业服务的模式是指什么? 梅涛: 首先,我们不做定制化。我们团队规模才两三百人,但已经服务4万家的中小型企业客户、4000万个人用户以及100多家头部客户。 我们的企业服务主要包括三方面,一是直接做To 大B、To 小B或者To C模式的服务,二是和平台型企业合作,三是通过自己的平台,服务中小型客户。 在AI行业,企业服务不同于传统的B端客户,我们提供标准化的产品和服务,这些客户更像是小B或大C,可能是一个团队,也可能是一个人。 行业还没出现能一统天下的模型 问:目前国内外大厂都在布局世界模型和视频模型,智象未来准备如何面对这些愈发激烈的竞争? 梅涛: 这个问题可以拆解为两个方面: 第一,智象如何实现和大厂的共存? 我们可以把整个行业分成三层,第一层是做C端流量入口的平台,如字节、阿里、Google等有流量分发能力的公司;第二层是做底层基座大模型的公司,如Anthropic、OpenAI、也包括字节、阿里;第三层的公司在市面上多如牛毛,包括很多做Agent的公司以及做应用的公司。 我们位于第二层和第三层,既做模型,又做应用。 我们不会和大的模型厂商直面竞争底座模型,但我们会做出一些差异化的竞争。比如,我们的图像开源模型能做到全球排名第一,闭源模型也正在冲榜的过程中,目标是全球前三。在视频领域,我们正在做营销、短剧等垂类应用场景的视频模型。 第二,客户为什么和我们合作?我们是一个严肃认真做企业服务的公司,这也是客户选择我们的原因。很多人说我们公司有点像视频版的Anthropic,团队一直比较稳定,企业服务的基因也很强。 我们想靠模型能力、产品能力和生态能力,在整个商业化环境里走的更远一些。 问:在和大厂争夺获客的过程中,你们是怎么做的? 梅涛: 大公司平台不太会去做很深的应用和服务,但对于我们这类企业而言,首先要做是产品、服务,并形成闭环。例如,在商业短视频营销上,我们提供了HiBurst(智象未来的AI营销视频生产平台)服务加SaaS化(软件及服务)的工具。 我们和大厂相比的优势和差异化在于以下几个方面: 在图片领域,我们要成为客户的必选项; 在视频领域,我们则倾向于深耕部分垂类场景:一是无限长视频的生成、长思考和长时长;二是营销场景,做好“人货场”(用户、商品、渠道)的交互;三是短剧领域,我们的MaaS(模型即服务)平台,能优化、编排自研和第三方模型。 总体来看,在To B上,我们既做自己的产品,也做整个行业的生态。我们的策略是,在接入自家产品的同时,也接入第三方模型公司的产品,为用户提供一个端到端的产品和服务。 问:您提到做平台是为了补齐短板,但相比于其他打出“降本”口号的平台,你们如何说服用户付费,并选择你们平台上的生态伙伴? 梅涛: 我们跟大厂在平台上竞争意义不大。首先,我们构建了完整的产品能力,能支撑业务快速迭代;其次,我们提供的是差异化模型能力,比如智象的图片模型在性价比上具备国际竞争力,在视频领域,无论是直播场景、漫剧还是特定内容创作,我们都有大厂覆盖不到的细分优势。目前行业还没出现能一统天下的模型,这给了我们差异化生存的空间。 更关键的是,我们沉淀了大量Skills和行业Knowhow,这也是我们与客户共创的核心。特别是在短视频营销和AI短剧领域,我们通过分析特定区域、国家及类目的爆款逻辑,提供爆款创意裂变方案。这种对爆款规律的把控能力的价值,或许远远大于单纯的内容生产。
文|周鑫雨 编辑|张雨忻 打开“观猹”,能看到一个完全不同于机构投资榜单所呈现出来的AI创业生态: 这里很少有动辄估值几亿美金的项目,活跃在社区中的,也常常不是有着名校、大厂背景的创业者,更多是普通的设计师、产品经理,甚至退休教师。 观猹。 “观猹”创始人仲泰告诉我:“ 这才是AI行业最真实的生态。 ” 仲泰,一个在AI创业者和开发者群体中并不陌生的名字。这名02年出生、带着黑框眼镜的瘦高男生,“创龄”已高达6年——高三做试题交流平台,大一做考题答疑社群;到2023年,他在AI风口,成立了科技自媒体“特工宇宙”。 仲泰。 而2025年7月上线的AI产品测评社区平台“观猹”,是他投入最大的一次创业。 和AI项目打交道两三年以来,仲泰试用过不下千个产品。他意识到,能拿到融资、有资源做投放的项目是极少数,“很多项目不是不好,而是没机会被大众看到。” 做“观猹”的初衷,就来自于一个朴素的想法: 在融资金额、团队背景之外,重新做一套AI应用的评价体系,让初创公司前期能得到曝光机会。 为了尽量确保机会的“公平”,“观猹”设计了一套严格的评价机制: 只有定向受邀,或者通过50道题的线上考试,才能成为有资格写产品点评的“观猹员”;发布的点评必须由真人撰写,并且通过机器和人工的审核;根据“观猹员”的活跃度和获赞数,发布评论的权重也有所不同。 观猹员考试。 相对的,项目想要入驻“观猹”,几乎没有门槛。“就算是同质化的项目,我们也很包容。”仲泰告诉《智能涌现》,“最终项目的好坏,我们交给大众用户来评判。” 在口碑发酵下,上线半年以来, “观猹”入驻项目已经达到了近2000多个,“观猹员”数量增加到了近5000个,社区的月活用户数已经有几十万。 OiiOii、QClaw、Aivilization,以及Paper2Gal等不少项目在这里起步、受到关注,然后获得融资。 不少人将“观猹”称为“中国版的Product Hunt”,但在仲泰看来,Product Hunt只提供了一条曝光渠道,但初创公司和如今愈发兴荣的OPC(One-Person Company,一人公司)需要的还有更多,比如完善产品基础设施的第三方组件、GTM(go to market)的方法论,以及更实惠的Token资源。 因此,“观猹”提供了统一登录SDK、统一支付SDK、营销等服务。“对没有产品运营经验的创业者而言,跑通整一套登录、支付、营销体系的学习成本和时间成本是很高的。”仲泰解释。 此外,还有Token补贴——“观猹”上线了自己的第三方模型集成平台TokenDance,以低廉的渠道价为创业者提供API。 TokenDance作为平台上唯一的“亏本”项目,仲泰告诉我们,“TokenDance可以不赚钱” ,毕竟,很多早期创业者很难负担得起Token成本。 “观猹”想做的事有点太多了,但仲泰觉得没办法不做。越多项目涌现,需要解决的需求就越多。《智能涌现》获悉,近期, “观猹”(似一科技)完成了来自红杉中国、华兴资本的种子轮融资。 红杉中国合伙人公元对智能涌现表示,“观猹是一个超级节点,汇聚了许多年轻创业者和Builders,也是前沿AI产品的发现与分发平台,在这儿能感受到最前沿的信号。期待观猹团队能在不确定性的未来中,能观察到更多新知和洞见。” 华兴资本CEO王力行在谈及观猹时则表示,“观猹的独特性在于,它站在AI builder与真实用户之间,既接近开发者侧的创新供给,也能感知用户侧的真实反馈。我们看重的是团队对新一代AI应用生态的理解深度和迭代速度。随着AI应用生态不断丰富,观猹有机会在连接产品、用户和商业化路径的过程中,沉淀出自己的平台价值。” 以下,是《智能涌现》与仲泰有关“观猹”、有关AI创业生态的交流: 我们在“劫富济贫” 能被大多数人看到的AI应用,其实是极少数。 很多团队没有拿到融资,无法负担一些渠道的投放;也有不少技术背景的创业者,不知道怎么做内容、怎么做marketing。所以“观猹”想做的事很朴素: 重新做一套AI应用的评价体系,让初创公司前期能得到公正的曝光机会。 中国没有AI产品的点评平台。 2023年,我就想做一个交流AI的社区,类似于豆瓣或者推特,但当时没什么钱,短期商业化也不明朗,所以一直没做。 2025年,我找到了一个抓手:先做中国版的Product Hunt,之后再扩展成一个AI产品上新发布与交流的社区。 选择Product Hunt这样的产品形态,首先在于国内没有这样的AI产品点评平台;其次 大厂没法做,因为他们自己做了、投资了很多AI产品,不够公正 ,这件事需要第三方平台来做。 “观猹”提供Token补贴,商业模式主要是广告和渠道费。 当一个技术团队不知道如何做内容、做marketing,我们的同学会教他。如果产品特别好,我们甚至会免费帮忙推流。 当产品更成熟一些,我们会提供“观猹”的 “统一登录”体系 。“观猹”上的用户,都是非常精准的AI用户,可以直接用观猹账号登录应用,不需要额外用手机号和邮箱注册。 现在我们也在探索“观猹”的 “统一支付”服务 。对于小规模创业团队和一些OPC来说,从产品到商业化,中间涉及的支付、结算、运营流程都有一定学习成本。未来如果通过观猹的支付SDK完成交易闭环,我们作为渠道和服务方,也会收取一定费用。 最近我们还做了类似OpenRouter的 模型API聚合平台,TokenDance(词元跳动) 。我们用Token资助了很多大学生团队,对于他们而言,每天1000多元的Token消耗已经很多了。等他们开始商业化,我们会提供Token的折扣。 我们可以在Token补贴上亏钱 ,因为对多数早期创业者而言,Token是高消耗的昂贵资源。收入来源则是广告和渠道费。 目前排行榜上的热门产品,依然是大厂应用占大多数。这是很正常的现象,毕竟大厂产品的成熟度更高,前期用户的使用意愿也会更高。 但我们倾向于通过建联初创团队和OPC,提供Token等服务让初创产品更完善,得到更多的曝光。 我们现在就在和大厂合作,赚一些钱,再补贴给开发者,“劫富济贫”(笑)。 行业最稀缺的资产是“真实” 关于“观猹”的机制,我们一开始没有想从投票切入,因为 投票太容易被“操纵”了。 我们参考了Steam、豆瓣、烂番茄、虎扑等评分网站的机制,最终形成了既能写好评、又能写差评的机制。 相较于大多数渠道, “观猹”的差异化是真实。 太多虚假的评价、曝光、数据可以靠钱买到,真实反而成了稀缺资源。 “观猹”社区是一个双边网络,一边是Builder,一边是User。 如果想让双方都有比较好的留存,就需要一群核心用户,为社区产出客观、高质量的评价和内容。这群用户就是“观猹员”。 目前,“观猹员”的数量已经扩充到了近5000人。为了把控“观猹员”的质量,我们的审核机制一开始从定向邀请,变成了线上考试,就像B站的入站考试那样。只有通过线上考试,才能获得写项目点评的资格。 成为“观猹员”也并不意味着可以随意发布点评。平台设置了机器和人工两道审核机制,一旦被发现用AI糊弄,或者点评质量低下,“观猹员”就会被吊销资格。 我们也在搭建权重机制。根据活跃度、获赞数,“观猹员”发布的点评、给项目的评分,占据的权重会有所不同。 入驻“观猹”有基础的门槛:纯靠10分钟Vibe Coding出来的项目就不太行。 过了基础门槛的项目都能上架,但最终平台推不推流,还是会根据项目的热度、评分来评判。这是“观猹”的推荐机制。 我们不卡copycat,毕竟AppStore也不卡。 一个产品火了,copycat出现是很自然的。但最终, 产品好坏与否,用户会做出评判。 AI产品的存活窗口期只有3个月 OPC(一人公司)的泡沫有点大。 大家都在吹泡泡,但没人在真正解决问题。 OPC对创业者素质的要求很高。ta要足够敏锐,在快速的市场变化中捕捉到机会,并且还要快速做出产品,然后商业化、赚到钱——能跑通这条路径的人很少很少。 现在“观猹”上入驻只有30%的OPC,其他70%还是相对成熟的公司。 AI产品的存活窗口期越来越短。 据我观察, 一个产品从推出到被忘记的时间,一年前是6个月,现在只有3个月。 我们一直都在规划一个叫做“AI坟墓”的板块。一些停运的产品,都会被收录进来,大家可以来缅怀,或者分析产品失败的原因。 失败本身具有记录的价值。 很多时候失败并不是产品本身的问题,可能是时机的问题、赛道的问题、团队调整的问题。 Vibe Coding门槛变低,让很多小众需求得到了满足。 比如AI算命,一开始很多人不理解,项目也大同小异。但我翻阅“观猹”评论区后发现,算命的需求也很细分,光方法就分易经、塔罗等等。 未来AI项目的落地场景会越来越细分。 现在的黑客松很热闹,但热闹后没有沉淀出一些真东西。 选手获奖后,其实很快就没人在意产品的动态。我希望“观猹”能够覆盖黑客松的完整链条,包括后续项目的服务、资源对接等落地相关的服务。 现在各个初创团队pivot(指调整创业方向)的速度越来越快,因为基模的能力还在高速迭代。 Pivot是正常现象,或者说是一件“好事”。 这意味着创业试错的成本在降低。 早期项目的困境,在于没有渠道匹配到种子用户 国内大多AI产品都没有太多用户,平均就 两三万。 产品要持续迭代、持续融资,都离不开种子用户。 不少早期OPC来“观猹”,就是为了获取早期的种子用户。我们也在规划相关的服务模式。未来,通过算法加上一定的人工,“观猹”上的项目可以匹配到至少1000个种子用户。 因为根据“1000铁粉(1000 True Fans)”理论,项目不需要让全世界都喜欢, 只要拥有1000个愿意真正支持你的用户,理论上就能养活自己。 现在有一种论调:传统软件已死,App已经没意义了,大家都会用personal agent调用skill。 我认可这是一种趋势,但还很遥远。放眼更大的C端群体,其实大家对Vibe Coding的了解还很基础,这个市场还需要被教育。大部分人的操作习惯还在App上,ta的需求也到不了使用龙虾(OpenClaw)的级别。 所以至少3-5年内,我认为AI软件还是会迎来大爆发。短期内,各种AI生产类工具会跑得更快。但AI+泛娱乐领域,其实还存在不少融了很多钱、但还在探索的公司,里面还有很大的机会。 Skill存在相当多的非共识。 一部分人认为Skill是偏过渡态的东西,会被下一代的模型能力吞噬掉。 Skill Market也存在非共识。 个人的经验能不能被AI很好地“蒸馏”?尤其是工作流非常复杂的情况下。这会影响Skill的质量和定价。 与此同时,不少人也不希望面向市场公开自己的经验。 一旦形成共识,机会都是大厂的。 只有存在足够多的非共识才好玩。 好消息是,目前AI行业的共识和非共识,每隔一两个月就会变。 近期我们团队聊的比较多的非共识是:To A(To Agent)产品的机会到底是AI-Native创业团队的,还是飞书、WPS等老牌软件团队的? 支持前者的人认为,传统软件是设计给人用的,再怎么想兼容Agent,文档格式也无法完全变成Markdown(一种对AI系统友好的语言格式)。 支持后者的人则觉得,飞书等软件厂商有相当的用户基础,在把握用户心智上有优势。 眼下三到五年, 真人的链接和社交还是很重要的。 Agent、世界模型、机器人,都太遥远了,AI还没到真正破圈的程度。 因此,“观猹”会把很大的精力放在社区的运营上。未来我希望能建立三个用户心智: Builder第一时间会想到来“观猹”上架产品; User第一时间会想到来“观猹”获得AI的前沿资讯; “观猹”会成为AI产品的活跃社区,大家愿意相信上面的评分是公正客观的。 欢迎交流!
文|周鑫雨 邓咏仪 编辑|张雨忻 硅谷持续了两个多月的Token-Maxxing(Token军备竞赛)焦虑,在Meta以一种戏谑的方式按下了休止符。 前情大家都知道了:2026年3月,为了鼓吹自己是一家“AI-Native”公司,Meta曾在内部上线了一个“Claudeonomics(Claude经济学)”榜单:员工消耗的Token越多,排名就越高;垫底的员工,有被裁的风险。 不过,当我们在4月末来到硅谷,Meta的朋友带来了故事的后续:榜单上线一个月后,第一名的员工将Token消耗刷到了 近50万美金/月,折合近3000亿个Token。 不久后,Meta下架了这个榜单。 至于下架原因,公司内没有明确说法,但员工猜测是因为“畸形竞争下消耗的token成本已远超Meta预期”。 2026年硅谷的开局,很焦虑,很魔幻。 “你要是半年前来湾区,大家心态还挺不错。”在圣何塞的一家韩国汤饭店,我见到了华人Agent创业者Ryan。 四周的普通话此起彼伏——随处可见的华人,或是全球Top10大厂的员工,或是跨洋寻机的创业者,他们构成了硅谷AI大军的绝对主力。 如今,调动湾区华人情绪的,大约是两件事: 第一件事,是Token-Maxxing焦虑和大幅裁员。 Token,“AI处理信息的最小单位”,正在代替DAU、GMV等指标,成为硅谷公司的新型攀比维度。 无论是设置员工Token消耗排行榜,还是慷慨地给予员工“不设限”的Token额度,硅谷厂商都透露出深深的焦虑:没有人想在AI转型中掉队。 但AI革命的另一面,是让裁员有了冠冕堂皇的理由。继Salesforce年初减员1000人、Amazon宣布今年裁减1.6万个职位后,Meta又对员工“打了个响指”:5月20日开启裁员,比例达10%,波及约8000人。 第二件事,则是Manus收购案的反转。 2025年12月30日,数十亿美金的一纸Meta收购文书,曾将Manus捧上“华人创业之光”的神坛。然而,仅仅过去4个月,这场收购就因合规问题,被强制叫停。 这是局势裂隙下,华人创业者合规焦虑、身份焦虑、生存焦虑的一个缩影。“中国团队-新加坡套壳-美国找钱、找买家”,这一全球套利的经典方法论开始失效。 Ryan直言:To be Chinese or not to be,是创业公司成立Day1就要做出的选择。 不过,即便光景不复从前,最先进的模型、背靠的全球市场和资源,以及一级市场更多元的钱,让硅谷依然是AI创业的耶路撒冷。 5月2日,旧金山一家小会场,挤满了近200名华人。这场主题为“Build For the NEXT Wave”的AI创业者沙龙,发布不到3天,门票就显示售罄。 作为主办方之一,Global AI社区Linkloud的联合创始人钱觐开告诉《智能涌现》,硅谷的华人创业者,普遍比在国内要松弛很多。他记得,不少在国内焦虑的创业者来到硅谷后,都感叹:硅谷的创业环境实在太好! “ 在硅谷,创业的容错率很高,一个方向做不出来就迅速pivot(指调整方向),这在硅谷很正常 ,毕竟现在行业变化节奏太快了。”他总结。 △Palo Alto的Blue Bottle,聚集了不少聊项目的创业者和投资人 以下,是我们在硅谷看到的有关Token焦虑、裁员阴云、出海创业的图景。Enjoy! 硅谷大厂的焦虑是什么形状的 在Meta,我已经不敢写文档了 在硅谷一众大厂中,Meta常被认为是在AI赛道上还没有找到自己的位置的那一个。而卷Token使用和激进的裁员也让焦虑也在员工中蔓延开来。 “同事前几天还在和我说,以后都不敢写文档了。”一位Meta员工对《智能涌现》表示。 硅谷的开放文化正在遭受AI的剧烈冲击。像Meta、Google这样的硅谷巨头,多年以来都实行高度开放的代码共享机制,不同产品线(如WhatsApp、Messenger)间,员工们都可互相查看和复用代码变更,这是为了能够共享好想法,推动业务迅速贴袋。 但Vibe Coding改写了这一切。 “如果你把想法写成了共享文档,被其他员工看到,很可能就被别人拿去让Agent进行Coding。” 上述员工说,一旦做出好产品,提供想法的人就只能获得design credit,而落地的功劳(execution credit)则属于做出产品的员工,后者是晋升的更核心依据。 组织调整更加激进 近期,Meta从各个部门强制抽调了超过千名员工,成立新部门——应用人工智能工程部(Applied AI Engineering),主要为如今Meta最炙手可热的MSL实验室(Super Intelligence Lab)提供支持,包括开发AI工具、标注数据、建立评测集等。 被抽调的员工基本没有活水或者更多选择,这在硅谷的大厂调整中很少见。“在加入这个部门后,很多人就被安排做Label(数据标注)。”上述Meta员工说。 这是因为,高质量数据依然是目前模型训练的瓶颈,Meta相信,让内部员工做数据,能够更好地反哺模型训练。 与此同时,Meta还发起了模型能力倡议(Model Capability Initiative),强制在美国员工电脑上安装一款新软件,收集员工们日常操作电脑的所有操作,作为提升模型能力的数据来源之一。为此,Meta的员工发起了激烈的抗议。 愤怒与焦虑的复杂情绪裹挟着这里的员工: “不知道什么时候自己就被替代了,不如回家先学学修水管吧。” 另一位Meta员工对《智能涌现》说。 面向扎克伯格创业 虽然Manus被收购的梦碎了,但在硅谷的华人创业者依然有不小的机会把自己卖给硅谷大厂。 根据Crunchbase的统计,仅Salesforce、OpenAI和Snowflake三家公司,在过去三年中就完成了35起公开收购交易。 其中,Meta是鲜少乐于收购华人AI公司的企业,比如由汪滔(Alexandr Wang)成立的Scale AI,以及由英伟达华人研究员王晓龙成立的具身大脑公司Assured Robot Intelligence,均被Meta收入囊中。 相对的,一名Meta研究员直言对我们表示,Meta“宽松”的收购策略在硅谷一度为人诟病,“近几年收购的公司,很多成立不到一年,没有经历过市场的验证。” 一名硅谷华人创业者直言: “现在硅谷流行面向扎克伯格创业,因为他买公司不那么挑。” 硅谷式“赛马” 当我们很自然地想把大厂的焦虑具象化到内部赛马时,却意外发现,在2023年前后入职硅谷大厂的员工,大多对“赛马”这个词感到陌生和不理解。 在硅谷有一个共识:“赛马本身造成的资源、人才浪费,可能比失败带来的更高。”在圣何塞的一场展会上,Google DeepMind的一名研究员告诉《智能涌现》。 所以,硅谷大厂的惯常做法是,让 最聪明的“大脑”相对自由地探索,再给予最大权限的算力支持 ——Claude Code、Nano Banana等项目最初都不在公司的战略规划内,而是来自某位研究员的突发奇想,但在确定为重要方向后,则给予足够支持。 不搞内部赛马,硅谷大厂的竞赛机制通常是: 与全球SOTA“赛马”。 长期以来,英伟达都是Meta的主要芯片供应商。但通过自主研发芯片,摆脱对外部算力供应商的依赖,掌握模型训练和推理的核心环节,一直是Meta的野望。所以,Meta的芯片业务MTIA的目标则定为了“打平英伟达的性能和生态”。 这场外部竞赛的最终结果,将交给Meta代号为“Avocado”的模型业务评判,胜者将被采购。“被Avocado采购,是MTIA今年的终极目标。”这名创业者总结。 再比如,在Google内部,DeepMind是唯一被允许可以不限额使用Claude Code、CodeX等竞品模型(为保证数据安全,Google采用了本地化部署)的部门——使用顶尖Coding模型提效的同时,一名Google员工告诉我们,DeepMind意在时刻洞悉对手的变化。 一把手工程 DeepMind大楼。 在Mountain View,你很难不被一幢连绵覆盖液压太阳能屋顶的巨大玻璃建筑吸引。 一名Google的朋友告诉我们,能在里面办公的,是两种人:一是Google董事级别的高层,二是DeepMind的研究员。放在国内,这种办公模式大概等同于张一鸣常驻Seed办公。 这种在空间上极度扁平的组织形式意味着: AI,已经成为Google的一把手工程。 在极度开放的Google园区中,这幢楼却几近与世隔绝。朋友提到,Google其他业务的办公楼之间,权限是相通的,员工可以拿工牌刷开任意写字楼的大门。唯独DeepMind Office是个例外。 “极致专注,极致Bottom-up” ,一名DeepMind研究员如此概括DeepMind的文化。 Token-Maxxing进行到哪一步了 越Token-Maxxing,公司就越先进吗? 在硅谷,大家对Token-Maxxing已经开始祛魅。 Google一名朋友告诉《智能涌现》,自从公司鼓励非开发者用Antigravity(Google的Coding Agent)做Vibe Coding,部门的代码量膨胀了3-4倍,但验收率也下降了30%。 2026年Q1,工程管理软件公司Jellyfish收集了7548名工程师的数据。他们也发现,Token消耗量最高的工程师,以10倍的Token成本,仅实现了2倍的产能增长。 这意味着, Token-Maxxing提升的仅仅是代码数量,而不是价值。 AI增加的隐形管理成本,也往往为人忽略。 “养了好几只小龙虾,小龙虾之间会打架,谁来管?”一位创业者Sharon已经在不少公司观察到人和Agent间的冲突:一个Agent改了代码,另一个Agent不知道,继续在旧版本上跑;两个Agent同时优化同一段逻辑,还会输出互相矛盾。 这种情况下,AI提效的价值还没看到,却先变成了一种新的管理负担。 比起用Token来卷员工,“商人”马斯克更想把Token卖出真金白银 而在一众Token-Maxxing的硅谷头部大厂中,稍显特殊的是特斯拉。 几名硅谷大厂朋友告诉我们, 特斯拉和SpaceX内部,对员工的Token用量有严格的限制。 至于原因,一位朋友猜测:比起用Token来卷员工,“商人”马斯克更想把Token卖出真金白银。 “Stop Hiring Humans” Artisan AI的广告牌 一家名为Artisan AI的AI市场营销公司,自2024年起在湾区投放了大量写有“Stop Hiring Humans”的广告牌。 这句略带警示和挑衅意味的话,在天空中的热气球、拉横幅的直升机、路边大广告牌上随处可见。 但Artisan AI大举投放的动作很大程度是为了博眼球。Artisan AI CEO Jaspar Carmichael-Jack后续也在博客上承认,这句标语,就是为了引发争议和讨论。 “湾区是一个表演性质很强的地方。” 硅谷创业者Ryan评价,“Token-Maxxing、裁员,归根结底都是大厂们展示先进性的表演。” 同样在天空飘过的标语,还有:SaaS is Dead(SaaS已死)。 创业者的商机在哪里 “我快把签证办理干上市了” 什么是硅谷来钱最快的业务?答案之一,一定有H1-B工作签证办理。 Base在湾区多年的Neil告诉我,自己面向中国创业者的H1-B工作签代办业务,已经排到了2026年底,“还有人加钱,问我能不能插队加急”。当我问他办签证两年以来,到底赚了多少钱,他故作神秘地告诉我:“我快干上市了。” 在头部美元基金云集、坐拥斯坦福校园的Palo Alto,年收入达几百万美金的Visa Agency比比皆是。当你在Palo Alto最火的拉面店Nagi排队,转眼就能看到隔壁Visa Agency的硬广:Waiting for ramen?What about your visa? Palo Alto的Visa Agency广告 蓬勃发展的签证业务,微妙指向的是局势的变化:想要来硅谷创业,必须先解决身份问题。 华人面貌的翻转 数年前,华人在硅谷创业,会面临一些不宣于口的顾虑——TikTok的前车之鉴下,想要拿到硅谷主流VC的投资,华人身份可能会成为一道坎。 但在大模型竞争已经常态化的当下,无论在OpenAI、Anthropic这样的明星初创还是巨头,华人都已经是核心AI团队中的重要力量——Meta的Super Intelligence Lab的初始11人团队中,有7位都是华人。 如今在硅谷创业,理想的团队配置是:华人做技术,美国当地人做销售。“如果AI公司里没有华人创业者,硅谷VC很可能会觉得你不行。”一位创业者笑言。 硅谷有自己的增长Vibe 近三个月来,Base在旧金山的海外增长顾问Ying,收到了近10个国内AI应用的Offer,其中不乏估值过5亿美金的明星产品。 但她最后都拒绝了,理由是:和创始团队聊了之后,发现团队根本不懂硅谷的增长Vibe。 所谓的硅谷增长Vibe,Ying告诉《智能涌现》,是一种很暧昧、很抽象的气氛, “简单来讲,是让目标用户,在Chill的、没有倾略性的氛围中,自然而然成为你的用户”。 她心目中的增长模范生,是伯克利华人辍学生Allen Wang和Eric Liu创立的AI约会软件Ditto AI。 如果走在斯坦福校园中,你能在树干、宣传橱窗上看到Ditto AI的传单上醒目地写着:Get a Date Every Wednesday!这一类似“疯狂星期四”的标语,很快在学生群体间病毒式传播。 去年,Ditto AI还在湾区包了一艘游艇,供用户们约会社交。“包游艇在美国受很欢迎。”Ying提到,“但这是超出很多中国Founder认知的方式,大家也不愿意给预算。” Turning Token into Dollars 4月末,在一场著名的创业者社区活动中,GenSpark在演讲最后大方地给出了Token优惠券:只要扫码,每个人可以领1000 credit。这已经是如今AI创业公司的常见营销动作。 但2026年,Token的价格与从前不再同日而语。 一位在Genspark演讲现场的参会者向《智能涌现》回忆他当时的第一反应是:“这到底得撒多少钱啊?”。 GenSpark的Token券 “都在讲Token,无一例外。”Linkloud CEO钱觐开表示。4月末,他们在旧金山办的一场活动,就以“Turning Token into Dollars”命名。 热切讨论商业化,同样是因为Token的价格已经涨到令人吃惊的高位——引领这波Agent浪潮的Anthropic,ARR已飞涨至300亿美金,反超了OpenAI。 AI的商业模式创新存在吗?短期内可能只是旧商业逻辑的回归 在硅谷,大家今天仍在卷Token,卷谁更AI native,卷谁的组织改造更彻底。但Token烧到这个程度,一个老生常谈的问题被摆在桌子上:这些成本最后要怎么变成钱? 一位在硅谷从事多年线上广告的华人创业者Sharon告诉《智能涌现》,AI产品的商业化未必会先长出什么新物种,反而很可能先回到广告这条老路上。 在他看来,无论是ChatGPT还是豆包,这类产品最终都很难绕开广告,只是眼下还处于克制测试阶段,远没有全面放量。 “ChatGPT的广告没有任何创新。”Sharon说,OpenAI的广告经过了多种形式的探索,比如用户聊游戏就推游戏广告,最后发现根本做不到精准匹配,还是回到了最传统的竞价逻辑:谁出价高,谁上,在答案下方直接增加一个付费广告位。 但在他看来,所谓AI时代的新商业模式,至少在广告这件事上,目前只是旧生意换了个新入口。 来自中国的Token,正在湾区百花齐放 把国内模型厂商的Token,以更低价格转卖给海外客户,连孙宇晨都在5月推出了中转站新业务B.AI。 国内Token价格是海外的十分之一到十五分之一,而性能差距不到一半。Sharon说,他的公司每月消耗的云和Token并不多,是连年框都没签的小客户,但已经有国内销售主动来卖国内的Token。 不过,大家如今都对模型的商业化毫无安全感。模型迭代几乎按月更新,代理商也不敢把钱砸给某一家做核心代理——上个月押注的模型,这个月可能就被新玩家碾过去了。 此前在全球爆火的Seedance2.0,若要获得企业使用权要与火山引擎签1000万元的年框,只有头部影视公司愿意交这笔费用,但更多人正在观望。 —— Ryan告诉我,湾区有一种特有的“ 阳光抑郁症 ”: 每天都是一样的好天气,没有分明的四季,周围的景色几乎一成不变,“一旦生活不改变,人就会陷入循环停滞的空虚和恐慌”。 所以,“在湾区,人不能停下来,要主动改变”。 欢迎交流! 欢迎交流!
文|周鑫雨 邓咏仪 编辑|杨轩 林俊旸以创业者的身份,重新加入AI模型的战场。 《智能涌现》独家获悉,前阿里千问大模型技术负责人林俊旸近期已经开启创业,考虑方向包括世界模型和具身大脑。 目前, 林俊旸已经招募数名字节、腾讯和海外背景的成员,并以约20亿美金的估值开启融资,接触基金包括红杉中国、高榕创投等 。 截至发稿前,有关上述信息,林俊旸尚未回复。 时间距离3月初的那场“闪电”诀别,已经过去了两个月。 2026年3月4日凌晨,林俊旸在X上宣布离开千问:“me stepping down. bye my beloved qwen(我卸任了。再见了,我深爱的千问)。”更早前,3月3日下午,他在Qwen成员的钉钉群中发出消息:“无颜再带领大家。” 在从百模大战,快速收束至巨头争锋(字节、阿里、DeepSeek)的三年里,林俊旸是阿里Qwen留在大模型一线梯队的灵魂人物。 自2022年起,林俊旸就接手阿里Qwen团队,负责整体工作。三年以来,他主导了Qwen系列模型的研发和开源——最全尺寸、开源策略的推进,也让Qwen成为在全球开发者社区中颇具影响力的国产模型。 林俊旸掌舵的几年中,Qwen被“保护”为一个相对独立发展的组织。 《智能涌现》曾独家报道 ,为了追求模型训练的效率,此前Qwen拥有自己的预训练、后训练、Infra团队,多个模态方向的员工也在一起工作。 但站在集团的视角中,独立,会造成业务合作的阻力。 比如,《智能涌现》曾了解到,集团重点推进的ToC超级应用“千问App”,并没有得到Qwen团队的积极支持。 2026年3月3日,一场围绕Qwen团队拆分重组的沟通会,成了林俊旸离职的导火索。 当天下午,阿里云CTO周靖人向林俊旸传达了Qwen调整的计划:将原来的Qwen,拆分成预训练、后训练、文本、图像、语音等相对独立的水平团队。一天后,林俊旸官宣了自己的离开。 具身智能,成了林俊旸重回AI战场的切入赛道。 这一方向,也是他在阿里的未竟之业。2025年10月,林俊旸就在Qwen组建了一支专注于机器人与具身智能的小团队。 在X上,他提出了自己的判断:“多模态基础模型正在转化为基础代理,通过强化学习利用工具和记忆进行长时序推理。它们应该从虚拟走向物理世界!” 在硅谷,已经有数名AI大牛,投身于世界模型和具身大脑。 前谷歌副总裁、AI“教母”李飞飞创立的空间智能公司World Labs,在2026年2月官宣了10亿美金的融资,估值高达50亿美金; 3月,杨立昆(Yann LeCun,图灵奖得主)和谢赛宁(DiT架构提出者)成立的世界模型公司AMI Labs,在没有任何产品的情况下,完成了10.3亿美元的种子轮融资,投前估值就达到了35亿美元。 同样入局具身大脑的华人研究员周衔,其成立的Genesis AI在2025年7月,宣布完成1.05亿美元的种子轮融资。 在LLM技术路线收敛的情况下,路线存在诸多争议和可能性的具身智能、世界模型,恰恰成了VC和AI大牛愿意押注的非共识。 曾有AI行业人士对《智能涌现》评价:“林俊旸至少是1亿美金以上级别的人才。”但如今,也有投资人表达了对技术人才创业的担忧:“大厂没有那么自由,但也提供了相对安全、可控的环境。技术高管创业,往往容易在商业化上水土不服。” 抛除阿里时代的技术光环,创业者林俊旸接下来直面的,将是商业世界的考验。 封面来源|相关活动主办方 欢迎交流! 欢迎交流!
作者|黄楠 周鑫雨 编辑|袁斯来 杨轩 硬氪独家获悉,AI卡片录音笔公司Plaud已于2025年年中拿下腾讯的融资,估值达10亿美元; 目前,Plaud公司估值已涨至约20亿美元。同时,硬氪从相关人士处了解到,Plaud正在推进与腾讯会议之间的硬件合作。 有关上述信息,硬氪向Plaud及腾讯方面求证,双方均表示消息不实。 一名接近Plaud人士告诉硬氪,Plaud在2024年的总营收约5600万美金,利润率接近20%,“2025年营收差不多涨了3倍”。另有知情者透露,2025年Plaud全年收入达到了历年最高,大陆全线产品的出货量符合内部预期。 但Plaud出货量谈不上高, 有一位行业人士告诉硬氪,其销量在国内市场或未超过十万台。 显然,Plaud很难复刻过去几年在海外顺风顺水的爆涨。 Plaud的崛起,踩中了ChatGPT引爆的AI录音硬件风口。2023年,苹果手机海外市场无法提供通话录音的痛点,让AI卡片录音笔Plaud Note迅速出圈。这款厚度仅2.9毫米、支持磁吸充电的设备,集成多麦克风阵列,接入大模型后可实现数十种语言实时转写、会议纪要生成、多语言翻译等功能,解决海外用户通话与会议记录刚需。 随后,Plaud海外市场迎来爆发式增长,迅速跻身独角兽行列。官方数据显示,2025年7月,Plaud全球销量已突破百万台规模,其首创AI录音产品此前两年均实现十倍级的增长。Plaud联合创始人许高在同年11月的《福布斯》访谈中也透露,2025年Plaud总营收预计能达到2.5亿美元。 高速增长背后,是海外市场的天然红利与先发优势。 “Plaud早期能起来,核心是抓住了单一形态的先发窗口。当时没人做这么轻薄、能磁吸手机、还集成大模型的录音设备,海外用户没有替代选择。”某头部AI硬件公司负责人告诉硬氪。 靠着海外品牌势能,Plaud开启中国市场布局。 知情人士对硬氪透露,早在2025年初,Plaud便启动内地业务筹备,初期选择从医疗、金融两大行业切入,以ToB专业服务作为落地突破口。 2025年9月,Plaud面向中国内地消费级用户,发布Plaud Note、NotePin S、Note Pro三款产品,定价分别为1149元、1249元和1299元。 从左到右依次为:Plaud Note Pro、Plaud NotePin S、Plaud Note(图源/企业) 可以看到,Plaud整体定价高于国内同类竞品,但核心功能并无实质性差异化。进入中国内地后,Plaud海外积累的品牌与供应链优势几近失效,发展瓶颈逐渐凸显。“成熟的供应链体系意味着,在国内复制产品的成本会很低。中国市场会更卷。”曾有一名Plaud员工对硬氪表示。 从硬件结构来看,Plaud护城河稀薄,形态极易被复制,其核心的磁吸卡片设计并无太高工程壁垒。依托国内完善的音频硬件供应链,同行厂商可以快速复刻外观形态,且在小型化工艺、降噪收音、硬件调校上实现赶超。 即便后续Plaud推出Pin等新形态产品,也仅停留在外观、佩戴方式的微调,没有实现场景体验的颠覆性创新,也未能延伸到生活、娱乐等多元记录场景,难以撬动用户复购和换机需求。 其次是软件方面,Plaud的AI功能无独占性,工具属性同质化。实时转写、会议摘要、多语言翻译等核心能力,均基于通用大模型开放能力实现,难以形成独家底层技术。有业内人士向硬氪评价称: “AI给了Plaud起飞的红利,但它没能沉淀出专属技术壁垒。单纯的记录、转写、总结功能,以国内App和大模型的迭代速度,同类功能很快就能被平权复刻。目前来看也确实是如此。” 更关键的是办公生态巨头的降维入局后,直接包抄Plaud这样的创业公司。2025年8月,钉钉发布AI录音卡片DingTalk A1;2026年1月,安克联合字节推出“AI录音豆”,赛道竞争进一步加剧。 正如一名Plaud员工的评价:“国内巨头下场的速度远超想象,2026年的战略必须要更卷。” Plaud长期局限于办公、通话记录单一场景,而这恰恰是钉钉、飞书的生态主场。企业用户本就深度使用钉钉、飞书办公协作,平台原生自带会议录音、智能纪要、文档联动能力,无需额外再单独购置硬件,直接分流大量Plaud核心客群。 如今,AI录音硬件赛道正变得愈发拥挤。追觅、出门问问等头部科技厂商快速推出同形态竞品。Plaud必须依托某个大厂,构筑自己的模型能力,才有可能在国内市场存活。 恰巧, 腾讯也需要一个硬件触手,快速加入智能硬件的战争。 一名知情人士告诉硬氪,此前,腾讯会议和企业微信就有成立硬件项目小组,探索与手机、手表等硬件的结合。“腾讯不会放弃硬件入口。” 腾讯快速入局硬件战场的另一重原因,则在于办公软件的增长逐渐触及天花板。 一名业内人士提到,即便近两年腾讯会议收入增长了数倍,但内部对市场的整体判断是,“ AI驱动的软件增长红利很快会消失,硬件会是新的增长曲线 ”。 “腾讯会议很早就想过,既然腾讯会议的定位是会议工具,那么,终极形态应该不仅覆盖线上,还要覆盖线下。”上述人士表示,“目前覆盖线下最好的触手就是硬件,尤其是符合用户纪要习惯的录音笔。” 对上述信息,腾讯方面表示消息不实。 若随着腾讯投资Plaud落定,三大AI大厂均已布局AI录音硬件赛道。而它们的触手显然不止于录音场景,而是会围绕自己的办公软件,推出覆盖多场景的硬件,最终形成更宽更深的护城河。办公场景已经迎来巨头们软件 +硬件的全面战争。
文|王毓婵 周鑫雨 编辑|杨轩 “看流水(即营收),AI视频类这些项目的表现确实很不错,可以说是AI最赚钱的细分赛道之一。”投资行业人士对36氪说。 中国 AI 视频生成赛道,正在经历大厂模型能力疯狂增长的巨大红利。来自字节跳动的Seedance和来自快手的可灵这两款“超级底座”正在进行一周一小版、两月一大版的高频迭代。阿里巴巴也在4月底,对视频生成模型HappyHorse 1.0开启灰测,720P视频生成刊例价为0.9元/秒。 愿意为此花钱的内容创作者太多了,太急迫了。众多短剧、内容公司排队等待使用Seedance2.0已经成为2026年AI世界的一个奇观。由此,在AI视频模型外“套一层壳”,使其更简单易上手的AI视频Agent产品,也迎来了增长奇迹。 一位业内人士对智能涌现透露,头部公司一个月的算力消耗成本应该在百万元以上。 “一部短剧的算力消耗成本约为3万元,工具平台如果一个月能接100部这样的工程,那么消耗量就能达到300万。这没什么难度,只是时间问题。” 在必应上搜索“AI视频生成工具”这样的关键词,能看到不少此类产品的广告。“据我了解,某头部工具平台一天在这个广告上的消耗就有两三万元,那么一年光这一个渠道的广告投放就至少需要七八百万元。由此可以反推它的收入水平是多么高。”业内人士称。 AI视频创作平台Creati对智能涌现透露,上线一年,该平台的全球用户量就突破了千万级别。产品ARR(年度经常性收入),一度达到了2000万美金。 但令这些AI视频Agent产品担忧的是,如果大厂也从模型层走到产品层,跟自己抢饭碗呢?今年1月,抖音还推出了AI视频应用“随变”,将工具+社区两块业务一并做了起来。以及,产品公司设计的应用层功能又可能随着大模型的一次升级被覆盖。 “短期来说,这类工具型公司与大模型厂商之间还是合作关系。创业公司的利润很大程度上由它们能接入哪些模型、能拿到多大API价格折扣来决定。”蔚来资本投资经理冯绘霓表示,“但同时,据我所知,大厂对这些‘合作伙伴’也看得很紧。在这些比较重要的赛道方向上面,大厂内可能有不止一个团队在做。” 这是一个“等待被大厂吞没”的行业,还是真的有可能长出像Adobe那样的工具型公司? 产品公司在生态位上的弱势,体现在利润里。“如果看利润,其实大家的毛利率都挺低。”某投资人表示,很多项目在牺牲UE(单位经济效益)换规模,因为“目前这个行业没什么壁垒,所以都在烧钱补贴获客,还做不到盈亏平衡。” 但依然有不少投资人愿意对其下注。这个赛道最明星的中国公司——LibTV 的母公司LiblibAI,在去年10月完成了由红杉中国、CMC资本等机构投资的1.3亿美元B轮融资。更早之前,它还曾创下 “一年内连续四轮融资”的行业纪录。 工具类公司融资规模排名 “ 今年AI视频工具是为数不多可以投的赛道 ,因为视频的迭代速度比语言、coding慢很多,所以在语言工具、coding应用大批被基模颠覆的情况下,视频生成项目反而相对更‘可看’。”一位投资人对智能涌现表示。 这些AI视频Agent产品依然有时间做出自己的护城河。 在这场“不对等的竞争”中,谁能活下来? 大厂之剑,与商业化护城河 目前来看,主流的工具类产品有三种形态: 要么做好“idea”,通过AI Agent将创作流程极度简化为“自然语言指令”,比如ZeroCut、Ribbi;要么做好“editing”,把无限画布、细节调整做到非常精细,比如LibTV、Buzzy;要么“离钱更近”,直接把视频生成与电商交易/社媒运营挂钩,比如TapNow。 本文包括创业者和投资人在内的所有受访人都认同,等大模型厂商卷完了基建层面的事,势必就要做应用层面的事,这只是一个时间早晚的问题。关键是,这个时间窗口有多久,以及窗口关闭了之后,自己还能否存活。 曾在大厂工作,并经历了古典互联网时代竞争的张云剑,打造了AI视频创作平台ZeroCut。他认为,“ 至少在五年内,大厂很难一口气完美覆盖掉整个AI视频制作的全流程。” 他的判断主要基于以下两个认知: 第一, 视频制作是一条极长的创意服务链条 。外界或投资人往往只关注“工程工具”和“生成”这一层面,但视频生成实际上只占整个制作环节的一小部分。在真正生成视频之前和之后,有着非常复杂的创意和链条过程,因此,AI对流程的替代将是一个逐步的过程,五年内很难达到直接面向消费者,且完全不需要人工干预的终极形态。 第二, 基于市场竞争与细分逻辑,单一厂商很难在所有环节都做到极致 。一个完整的AI视频工作流需要调用语言模型、图片模型和视频模型。大厂虽然有能力做全流程覆盖,但这并不意味着它能在每一个细分领域都保持最强,例如有的模型在图片生成上做到了极致,但视频能力未必最强。这种能力的差异化最终会促成市场细分,而非一家独大。 同样离开大厂、投身AI创作工具创业的Ribbi创始人兼CEO Robin,在这一点上与张云剑观点接近。“ 大厂中,业务、模型和顶层之间的对齐是最困难的事,除非已经有业内共识。 ”Robin说,“在看到Taste的确切价值之前,为审美、品味构建模型,是大厂不愿意做的。只有当视觉创意生成从非共识,变成共识,才能激发更多大厂和顶尖人才参与进来。” 然而,投资经理冯绘霓觉得这个为期五年的这个预估有点“过于乐观”。 “大厂在接触这类工具型的初创公司时,其实 最想挖的不是产品或算法人才,而是运营。 ”冯绘霓说,“这揭示了一件事情—— 在技术层面,大厂自认为完全有这个能力把产品做出来 ,而目前的短板在于用户渗透。” 冯绘霓的判断是,Seedance、可灵等大模型的野心非常大,“它们不会只想做一个基建或者工具,他们更想做的是‘定义下一个内容平台、社交平台’,而工具只是‘顺带被做了’的部分。” 一句话来说,大厂会做,但不会明天就做。在这个窗口期,创业公司能做什么呢? 从腾讯、字节跳动等大厂离职创业的Anijam CEO方晨认为,创业公司与大厂竞争的关键,是“ 要更早跑起来,形成用户留存与数据沉淀。 ” 换句话来说,时间就是资源,跑起来的速度决定了达摩克利斯之剑落下之后的生死。“要尽快进入市场、获取用户,并在真实使用中积累数据与认知。”方晨说。 张云剑对ZeroCut的规划是, 公司的护城河在于“AI落地服务”与“社会分工” 。 “即使底层模型变得非常强大,市场上依然会有大量不会使用工具的用户,或者出于‘性价比’和‘比较优势’考虑而不愿亲自下场制作的企业客户。”张云剑说。因此,ZeroCut将避开工具层面的硬碰硬, 直接帮客户解决最终的“交付和落地”问题 。 这就涉及到了商业化路线的问题——是在大模型的算力成本与自己的用户定价之间赚差价,还是找一条新的商业化道路?前者虽然简单,但大模型厂商一旦降价,就会吸走用户,大模型厂商一旦涨价,自己的利润就会变薄。说白了终究是把命脉交在他人手中。因此,创业公司大多选择了后一条路。 ZeroCut的思路,就是"技术+服务"模式——如果客户有能力,可以直接使用工具;如果客户需要代工,平台会将订单对接给熟练掌握该工具的创作者,提供稳定的视频定制交付服务。至于 计费标准,则从传统内容承制公司的“人力计费”转为AI时代的“Token计费”。 客户不需要关心固定的人力报价,而是以视频生成过程中消耗的算力为基准来计价。 只是让用户“花钱买积分”根本不够。 许多AI视频生成工具,都在将手越来越深地伸向客户的业务深处,变得越来越像一个能包揽一切的乙方。 主打“电商+AI自动生成”商业模式的TapNow,就被外界评价为“离钱最近的项目” 。 传统 4A 公司高管在《BusinessFocus》的匿名访谈中提到:“TapNow 这种‘预测+自动生成’的逻辑,抢走了原本属于中小代理商的短视频代运营订单。” Ribbi不仅能用来创作音视图,还能帮用户监测内容发布到社交媒体之后的数据。感知阶跃也一样,致力于覆盖内容生成、发布、投放、A/B Test、效果分析、二创等的全流程。 “ 人一定是懒的动物。 没有用户希望做一个产品、完成一个环节,就换一个模型、换一套工具。”Robin说。 社交媒体,是Agent在线进化落地的核心训练场,将作品发布到社交媒体,是Agent与真实世界的交互。监测数据表现后,Ribbi能够自主迭代和优化创作路径,交付更好的结果。最终,平台就能够形成一个自主进化的创作闭环。 Ribbi目前的模式还没完全确定,但Robin确定未来一定不会是积分制,因为它“不够诚实清晰”。 但积分制仍然是目前行业的主流商业化模式,毕竟它足够简单,并且已经完成了用户教育。但随着工具能提供的服务越来越深化,以及“Token未来会越来越廉价”的美好愿景,也许未来的服务也会有未来的新商业模式。 “感知阶跃”创始人兼CEO张诗莹与方晨有一个共识,他们认为,未来时代的商业模式应该是 “为效果付费,而不应该为成本付费。” 方晨认为理想的情况是,当AI生成的准确率足够高,而Token成本足够低时,那么用户就可以仅在愿意下载内容时,才为最终产出买单,而非为生成过程中的Token消耗付费。 张诗莹则认为,Agent的商业模式,应该与人类Agency越来越相似,“收费模式不会是订阅,而更多会采用分佣的形式。” 工具型公司的时间窗口,是新时代诞生一个新的Adobe那么大的机会,还是在大厂包揽一切之前的昙花一现?对于已经入局的人来说,他们相信底层大模型归属大厂,但应用层也有创业公司能做的事。 “我立志成为硅基生命的垫脚石。”Robin说。“假设某一天,某家模型厂商实现了AI的自主进化,即便功不在我,我也愿意贡献我们对Context Layer自主进化的Know-How、开源我们的技术架构,帮助模型厂商训练更好的自主进化模型。” 技术路线之争:提供idea,还是提供editing? 创业公司之间,目前也有显著的思路分歧。 同样是AI视频生成工具,产品的形态却千差万别——有的一打开首页就像进了抖音(会自动播放AI视频)或得物(满屏AI广告片示范),有的却只有简简单单一个对话框,像进了任意一个chatbot。这背后是行业的技术路线之争。 到底要画布,还是要一个包揽一切的Agent,是目前最大的技术分歧之一。 “无限画布”的UI交互方式改变了传统的线性时间轴,允许创作者像在Figma或Miro中一样,通过节点连接素材和工作流。坚持这一路线的明星产品有LibTV、SkyReels、TapNow等。 在这些产品上,用户有了一个可以无限缩放、拖拽的画布空间。你可以将一个“图片节点”连向“视频节点”,再连向“音频节点”,形成一个自动化的 Pipeline。 LibTV画布界面 画布的好处,在于人的意志的“强控制” ——用户可以在任意环节手动介入调整,确保AI生成内容的画风、角色、镜头细节等等都在自己的规划之内。 有创作者将LibTV的无限画布比喻为“乐高积木 ” ,因为它能自由搭建分镜,彻底改变了线性剪辑逻辑。 但也有旗帜鲜明地反对画布形态的产品,比如ZeroCut和一周收到了全球4万多用户使用申请的Ribbi。 这两款产品的特征,是没有醒目的画布,所有的创作、编辑交互,都集中在一个小小的对话框中。用户用自然语言与Agent对话,然后由agent去指导模型生成内容。 张云剑致力于推动从“人为主导”向“Agent为主导”的范式转移。他对智能涌现表示,ZeroCut认为传统的画布或工作流模式只是过渡形态,这些模式本质上是“重人工”的,是将AI能力作为节点,让用户去手动串联,属于自动化工业方案。 ZeroCut网页端产品界面 “ 当你在创作时,大部分的活是人在干,还是AI在干? ”张云剑说,“这个是我们判断的一个标准”。ZeroCut致力于让人退居幕后,进行决策和提供灵感,而让AI去承担长流程的视频制作。 Ribbi在这一点上也有这样的共识——不做“画布类”的产品,而是用Chat作为UI,给Agent更多的自由度。 Ribbi界面 “画布类的产品,把模型的可能性锁死了。”Robin说,“我们没有把Ribbi做成画布类的产品。画布类的AI产品看起来交互很酷炫,能让投资人眼前一亮,专业用户使用起来也很顺手。但它们有一个致命伤:把模型的可能性提前锁死了。因为画布的本质,是将工作流拆成一个个节点,模型只能沿着这条路径走。” Robin认为,AI时代的UI应该是容器化的,而不是功能化的。产品应该给AI创造一个容器,让它可以自由决定调用什么样的工具、怎么组合工具,甚至按照什么样的顺序执行任务。 在这种初衷之下,这类产品的界面就浓缩为了一个Chatbot。Robin表示,他认为 Chat是一个“足够简单,并且灵活兼容一切的容器。” 他举了豆包作为例子——豆包的移动端App设计得很轻量,用户不需要打开新的对话框,只要在一个session中Chat,就能生图、生视频。它将用户的交互和AI的行为,统一在一个非常简单的框架中。 两类技术路线之争其实归根结底是在争一个问题—— 工具到底应该提供idea(为没那么专业的用户提供思路),还是提供editing(为相对专业一些的用户提供编辑工具)? 在路线之争尚未定胜负之时,也出现了“融合态”的产品。 由腾讯杰出科学家创业打造的AI视频工具产品Anijam,融合了画布和Agent两种形态—— 用户既可以用自然语言在Chat中指导Agent干活,也可以在画布上自己上手调整。 既有Agent又有画布的Anijam界面 Anijam CEO方晨向智能涌现展示,在创作过程中,系统会自动识别故事中的关键元素,包括角色、场景、道具及风格,并基于此生成完整的分镜镜头。每一个镜头都会包含场景描述、角色状态、镜头语言等信息。 对于画面中的问题,创作者可以通过自然语言指导Agent进行修改,也可以亲自使用工具,在画布上“局部编辑”,例如只修改角色表情,而不影响动作或背景。这也是Anijam的关键能力之一,即从抽卡式生成视频走向“可控编辑”。 在大模型厂商做出真正好用的应用层产品之前,两类产品都已经积累了可观的用户基础。现在的问题是,大厂给大家留了多少时间窗口?窗口关闭之后呢? “应用层不应该去做模型层的事,因为模型一定会变得足够好。”张诗莹说。她是“感知阶跃”创始人兼CEO,该公司的产品之一,是AI视频创作平台Creati。 “当下有很多‘套壳’视频模型能力的产品,无论是画布,还是工作流,解决的都是模型能力不够强的问题,比如抽卡、视频生成长度有限。但未来,模型层一定会解决生成质量和长度的问题。应用层的机会,就在于解决生成环节之外的问题。”张诗莹说。
文|周鑫雨 编辑|杨轩 规模化落地,今年的具身公司都在谈这个。 数字竞速,不约而同出现在具身公司的产线、招股书、出货量上——2026年4月以来,智元机器人宣布第1万台机器人量产下线,5000到10000,只用了三个多月;宇树科技的IPO招股书也摊开了激进商业化的一角:2025年营收17.07亿元,出货量超过5500台。 激进的数字背后,是“低价、高性能”的中国机器人在全球的扩张。宇树科技创始人王兴兴曾在2025年世界机器人大会上提到,过去几年,宇树的海外营收一直占总营收的50%以上。 在这些具身玩家中,魔法原子MagicLab近期提出了一个相当激进的营收目标: 2036年,要实现140亿美元的营收规模。 在全球范围内打响品牌,也让这家公司,将发布会开进了硅谷。美西时间2026年4月28日,在云集Adobe、TikTok、IBM等公司的圣何塞,魔法原子发起了全球具身智能创新大会(GEIS)。 魔法原子机器人MagicBot Z1现场给张艺兴表演。作者拍摄 在会上,魔法原子发布了从底层模型本体的一系列新产品: 世界模型Magic-Mix :魔法原子自研的“自主进化模型”。Magix-Mix由两个引擎构成:让机器人学会理解真实世界的Magic-WAM,以及可以离线生成大批量许年数据的Magic-Creator——这意味着,Mix可以在“数据生成-模型训练-真实世界反馈-数据在生成”的闭环中持续自主迭代。 Magic-Mix架构。图源:魔法原子 灵巧手MagicHand H01 :搭载了20 DOF(自由度,人手约24-27 DOF)和44个高分辨率三维触觉传感器,主打工业制造、服务护理等场景的精细操作。 MagicHand H01。图源:魔法原子 人形机器人MagicBot X1 :一款身高180cm、体重70kg、全身搭载31个主动DOF、极限关节扭矩达450N·m的机器人。基于无限续航双电系统,X1可以7*24连续作业。产品分为标准版和科研版,前者商业部署效率高、开箱即用,后者则面向高校、实验室、开发者和产业伙伴,支持底层二次开发和外形定制。 MagicBot X1。图源:魔法原子 在会上,Openmind、PrismaX、Chestnut Roborics等来自硅谷的具身大脑和本体公司,也出现在现场。有关大脑、本体、数据的解决方案,这些公司给出了不同的解决思路。 以下是《智能涌现》关于现场讨论的整理: 用机器合成数据训练,效果会比真实世界数据更好吗? 高质量数据的稀缺,一直是掣肘具身模型训练的瓶颈。当前真机数据采集一直存在成本高、周期长、场景覆盖等问题。 机器合成数据,就是解决方案之一。然而,合成数据的局限性在于真实信息的缺失,比如摩擦系数、延迟、触觉反馈等。这也造成业界对“sim-to-real-gap”的担忧。 混合数据训练,是当下中美具身智能企业提出的主流解决方案。比如,魔法原子总裁顾诗韬介绍,魔法原子日均采集约16000条数据,再通过数据合成实现1万倍的体量扩展。她提到,由于产品迭代快、60%-70%的工序依赖人工, 新能源汽车制造业,是数据采集的富矿 。 判断使用真实数据,还是机器合成数据,行业的共识是:基于具体训练目的和应用场景。 亚马逊前沿AI与机器人研究院科学家Haozhi Qi提到,合成数据适用于让机器学习单一的反应基本技能,但 难以让机器获得类似于做早餐之类的长程技能 。此时,引入真实数据训练是有必要的,因为构建一个足够丰富的模拟环境,成本很高。 英伟达GEAR Lab高级研究科学家Zhengyi Luo则透露,团队目前采用50%的模拟数据,用于基础训练;15%的动捕数据、25%的互联网视频数据,用于理解人类的动作;同时,训练还会添加10%的高质量真实世界数据。他还提到,有些公司甚至会使用社交媒体上的数据,来指导机器人的本体设计。 VLA(视觉-语言-行动)是具身“大脑”最好的解决方案吗? 由于强大的任务泛化能力,当下VLA已经成为具身模型最主流的架构范式。 但事实上,当人类用手指旋转一个篮球时,只用依靠触觉和本体感知,并不需要视觉——这意味着,VLA在这两个感知系统上,存在短板。 在GEIS大会上,亚马逊前沿AI与机器人研究院科学家Haozhi Qi认为, VLA的流行,与硬件传感器的发展程度有关 :当下,视觉传感器趋于成熟,但触觉传感器还在初级开发阶段。 因此,在他看来,具身系统需要通过其他感觉的输入,来补足不太成熟的传感系统,从而维持本体的操作。因此, 通过视觉和语言补足触觉缺陷的VLA,成了当下最好的解决方案之一 。不过,未来随着传感器和硬件层面的发展,算法也会随之迭代。 灵巧手的三大路线之争:连杆、腱绳与直驱 当下,有关灵巧手设计的核心迷思是:要不要像人手?围绕这一命题,诞生了连杆、腱绳、直驱三种设计方案。 其中,“连杆”最不像人手,但胜在成本低、易于控制;“腱绳”最像人手,可以做精细化操作,但成本高、控制难。“直驱”则是一种折中方案,将驱动单元直接集成在每个关节上,但成本不低,同时力传导效率和热管理上仍然面临工程层面的挑战。 混合架构路线,则是近期兴起的灵巧手技术解决方案。 Chestnut Robotics创始人、前Tesla Optimus灵巧手核心成员Evan Tao介绍,当下团队已经选择了混合架构路线,以可以完成精细化操作的腱绳结构为主,辅以AI控制和自主学习系统。未来的方案,“都会在灵活度和工程可靠性之间寻求平衡。”他提到。 机器人如何真正规模化落地? 在数据层,引入真实世界数据,依然被认为是让机器人真正理解应用场景、学习复杂任务操作的关键。 比如,XGSynBot CEO Zizheng Li提到,他们采取的混合数据策略,依然引入了少量高质真实世界数据,控制成本的同时,也能提升模型能力和泛化水平。 在系统层,XGSynBot CEO Zizheng Li认为,机器人需要从“单一功能设备”向“多任务通用平台”演进,比如XGSynBot的机械臂,带有6个Quick-chage的模块化系统,这样做的好处是,一台机器人可以在不同工序间灵活切换,提高落地场景的广泛性。 最后,OpenMind创始人、斯坦福大学生物工程副教授Jan Liphardt总结: 机器人进入真实世界,越早越好 。 他发现,实验室环境无法模拟所有复杂的现实场景,比如过亮的光线、泥泞潮湿的地面、生锈的门铰链、多个系统同时运行的负载——这些复杂的真实场景,往往导致机器人在离开实验室后,出现系统故障。 因此,机器人落地前,不应该仅仅待在实验室��。Jan Liphardt建议,尽早让机器人在家庭、学校、机场、幼儿园和其他公共场景的实际部署中,收集交互数据,持续迭代。
文|周鑫雨 王毓婵 编辑|杨轩 解读DeepSeek V4的技术报告,是这几天AI行业最狂热的集体活动。 V4很强吗?在工程优化的维度中,答案是毋庸置疑的。过去,大家信奉“Scaling Law的暴力美学”——也就是靠堆更多优质算力、更大参数规模来提升模型性能。而V4走的是一条完全不同的路,它定义了一种“模型训练的克制美学”: 它不靠疯狂堆算力和参数,而是通过一系列组合优化和重构: 注意力机制 (让模型学会“抓重点”,像人读长文章时会自动关注关键句子一样) MoE架构(混合专家模型,可以理解为“让不同的专家负责不同类型的问题,每次只激活少数专家,省时又省力”) 后训练 (模型初步练成后再针对性地补课强化) 推理系统工程 (优化实际运行时各个环节的效率) 这样做的成果是把V4-Pro在处理百万Token(大约几十万字)长上下文时需要的算力,压低到了上一代V3.2的27%,同时用来临时存储对话上下文的 KV缓存 (可以理解为模型在跟你聊天时“记笔记”的草稿纸)被压缩到了原来的10%。 不过,工程只是工程,榜单只是榜单。 评价一个模型,我们不希望只停留在纸面参数上,而是放到部署、开发、投资的真实场景中去讨论V4的价值。为此,我们邀请了近10名开发者、应用创业者和投资人,进行了三天左右的体验和测试。 先说一个反直觉的结论:DeepSeek对应用层带来的影响,或许比模型层更大。 在惊叹极致的工程优化之余,正如DeepSeek自己在V4技术报告中坦言的那样:发展轨迹大约滞后前沿闭源模型3至6个月——V4如今的成果,就好比 与魔鬼做交易: 拉长了推理和Agent(智能体)能力的长板,代价是牺牲了部分准确性。 闭源模型厂商们,暂时可以松一口气。对于注重稳定、精确的商业世界而言,V4显然不是一款能够直接落地的模型。 Pine AI首席科学家李博杰,以及某头部Coding Agent创业者Chillin都对我们直言,工具调用稳定性+幻觉率,这两点必须在harness(给智能体套上的“缰绳”和“安全带”,用来规范它的行为、降低出错风险)层面补足,V4落地离不开“脚手架”。 但智力大脑的迭代方向,往往牵动着下游应用的生态。AI应用创业,将会面对技术和资本更严厉的双重考验。 “基模的性能还在快速迭代”——这句业内的共识,也意味着应用随时可能成为被模型颠覆的沙砾。一名双币基金的投资人举了不少“昨日黄花”的案例:“Workflow、Coding……” AI应用公司“涌跃智能”创始人兼CEO陈炜鹏总结:未来,AI应用的壁垒,是把模型、Agent、产品场景和数据反馈组织成一个可靠、低成本、可规模化的生产系统。 亮点:不只有长文本和编程能力,而是高能力还成本低 写在前面:核心优势——代码与智能体能力 在几个关键的代码和软件工程评测中,V4-Pro展现出了当前开源模型的最高水平,与顶尖闭源模型几乎不相上下。我们把核心数据整理如下: AI制图 🧑🏫PingCAP联合创始人兼CTO 黄东旭 我正在把自己的Hermes工作流迁移到DeepSeek V4上。原来我用得比较浪费,是用Claude Opus和GPT5.4来做Agent,但后来我发现,大多数日常工作其实并不需要特别高的coding能力。 日常办公任务,主要包括:(a)日常邮件整理;(b)文章撰写;(c)日历管理;(d)内容总结;(e)网络浏览。 现在我已经完全切换到DeepSeek V4了。它的效果比我想象中要好,可能是针对中文做了一些优化,整体语言能力比Opus和GPT更符合中文母语者的使用习惯。 所以我第一个结论是:如果你现在正在用一些更贵的模型来作为日常工作助理的Agent,其实可以比较放心地切换到DeepSeek V4 Pro上。 它的能力大概在Claude Sonnet 4.5到4.6的水平,但价格只有头部模型的四分之一还不到。现在我基本上已经不用再关注Agent的成本开销了。 DeepSeek V4的论文里一直在强调1M的上下文,但这点我其实感觉不是太强,因为现在主流的SOTA模型基本上至少也都是1M的上下文了,这只是追赶上了。 它真正的点在于: 1.成本真的非常低; 2.它是一个开放开源的模型。 我不用太担心Anthropic或者OpenAI如果断供,我之前的一些工作流就不能用了,这种事情之前其实发生过。在这一点上,切到DeepSeek V4,安全感是更高的。 其次,看编程能力。因为测试时间还比较短,我还没有用它来开发非常复杂的大型系统应用。 但在大概几千行代码的规模,或者做一些小型应用,以及处理充满各种外部第三方系统调用的场景(比如去Supabase或者TiDB Cloud上,通过阅读文档去接入一个它不太熟悉的工具),目前我的体感是基本上没有出现太大的问题。 在几千到一万行的规模里,V4 one-shot(一次性给足例子和指令,不额外调试)的成功率还是比较高的。 所以如果你只是做一些简单的小网站或者小型应用,我觉得DeepSeek的编程能力肯定比前一代要强非常多。 因为现在我的Harness框架其实并没有太复杂的人为编排,更多是依靠模型自身的协同能力(使用Slock.ai)。 简单来说,有以下两点: 1.它能够跟使用其他模型的Agent进行协同; 2.它完成一些简单的/具体的任务。 所以,如果前面有一些比较强的模型(例如像GPT5.5这种级别的)去给DeepSeek V4 Pro指方向,然后让它负责执行,这种模式我觉得能让整个Harness Engineering的成本大幅下降。 🧑🏫零一万物技术与产品中心副总裁 赵斌强 DeepSeek V4不是“最全能的”,但它是“最值得信赖的”——坚定的开源承诺、完整的技术报告、极低的推理成本、全技术栈国产化,让它成为ToB(面向企业)场景下性价比最优的基础模型选择。 DeepSeek V4最让我惊艳的是两件事。 第一,模型架构的底层创新。在100万Token上下文窗口下依然保持高质量推理能力,背后是 混合注意力机制 的底层创新。这种机制可以通俗地理解成:“粗读”着眼大局整体含义,“精读”精确理解细节。 尤其是在Context压缩方面的探索非常先进,而且DeepSeek在技术报告中毫无保留地公开了细节。这种坦诚和开源精神,在竞争激烈的大模型行业中极为宝贵。 第二,国产算力全栈适配。DeepSeek完成了华为昇腾910B/950的适配,在量化、稀疏化机制、领域expert优化等方面的工作做得非常细致。 这意味着从芯片到底层软件到模型训练、推理,国产全栈解决方案已在正确的方向上迈出了实质性一步。虽不能说完全摆脱对英伟达生态的依赖,但已经找到了正确的发展方向。这件事的难度和意义,怎么强调都不为过。 🧑🏫 Pine AI首席科学家 李博杰 最惊艳的是DeepSeek把MoE、CSA+HCA混合注意力、mHC、Muon、FP4QAT这一长串架构创新真正在1.6T(1.6万亿参数)这个目前最大开源规模上跑通了。 这就像把一堆理论上很先进、但在小规模实验里经常失效的技术,成功组合到一台巨型引擎上并稳定运转起来。我们自己试过20多种架构创新,结论几乎都是“在70亿参数规模上可行,一上规模就掉链子甚至反作用”。 其他家的模型架构创新大多也卡在这一步。能在最大规模上让多项创新协同工作,说明DeepSeek底层训练的技术积累极深,仅其中一项“mHC”技术,就把原来在27B实验里近3000倍的信号放大,压到了约1.6倍,让训练变得稳定可控。 🧑🏫联想集团副总裁,联想创投首席投资官、高级合伙人 宋春雨 DeepSeek证明了“AI性价比”可以成为一种主动设计出的结构性优势。 27%、显存占用仅10%。同时,其1.6T总参数量大,但每次仅激活49B参数,效率极高。 这种结构性降本,再加上V4-Flash版本API 1元/百万Token的低价策略,使得“平民化超长上下文”成为了AI应用的新基准。 🧑🏫 涌跃智能创始人兼CEO 陈炜鹏 DeepSeek V4最让我振奋的,不只是某个单点能力的提升,而是它说明国内大模型已经从“追赶基座能力”,进入到“参与Agent时代系统竞争”的阶段。 过去大家更关心模型会不会回答、推理、写代码;但到了今天,真正重要的是模型能不能在复杂任务中稳定完成目标,能不能以足够低的成本、足够高的效率接入真实产品系统。 遗憾:真正落地,V4还缺一些“脚手架” 写在前面:相对劣势——事实性知识与极端复杂推理 DeepSeek官方和各评估平台指出了V4-Pro的几个明显弱点。为了更直观,我们将关键弱项数据整理成下表: AI制图。 🧑🏫Pine AI首席科学家 李博杰 我主要使用的是代码类和Agentic任务。这一类工作里: V4-Pro的工具调用能力和通用世界知识,基本追平了前沿模型的次一档版本(大致相当于Claude 4.6 Sonnet水平); 但工具调用稳定性+幻觉率仍然是硬伤——这两点必须在Agent Harness层面补足(比如加强校验、失败后自动重试、用外部知识库让模型“接地气”、把工具使用规范定得严格清晰),否则在长链条任务里,任务链路一拉长,错误就会被不断放大; 一旦Harness层补好了这两个缺陷,整体推理成本能比前沿模型低好几倍。这才是真正的杠杆。 另一条线是:V4-Flash作为垂直微调的“甜点”是非常好的。什么叫垂直微调?就是在通用模型基础上,用特定领域的专业数据再“补课”,让它成为某个行业的专家。 1.6万亿参数的超大模型做后训练(SFT/RL)成本太高,一般公司根本负担不起,而2000亿到3000亿参数的模型才是市场做后训练的主力尺寸。我们之前在千问235B(2350亿参数)上做后训练,效果明显弱于同尺寸的V4-Flash。 Flash的性能已经追上前一代万亿级开源模型,超过600B多的DeepSeek V3.2和老版Kimi。Flash会成为做业务微调的首选基座。 🧑🏫Coding Agent创业者 Chillin 我们内部测评后得出的结论是:在Coding Agent场景下,DeepSeek V4是Claude一年多前的水平。 问题可能出现在两方面,一是参数规模,二是数据。DeepSeek和Anthropic还有比较显著的差距。 如果要真正落地,DeepSeek V4还需要一些特殊的脚手架,比如SWE-Agent(软件工程智能体)、OpenHands(一个开源Coding智能体)、Claude Code、OpenClaw。这都需要开发者额外配置。 🧑🏫涌跃智能创始人兼CEO 陈炜鹏 以Loopit(涌跃智能旗下的AI互动内容产品)的实际使用(主要是Coding场景)来看,要客观看到,DeepSeek V4在执行复杂长程任务的稳定性和任务完成率上,距离海外最强闭源模型仍有差距。 国内头部模型之间的能力差异在变小。这说明模型竞争正在进入一个新阶段:在Agent时代,模型能否理解长上下文、适应复杂框架、稳定完成长程任务,并以可接受的成本和速度运行,会变得同样重要。 真正拉开差距的,不只是模型本身,而是模型、后训练、Agent框架、评估体系和工程效率形成的整体系统。 🧑🏫联想集团副总裁,联想创投首席投资官、高级合伙人 宋春雨 V4的发布没有包含原生多模态版本(即同时能处理文字、图像、声音等的模型),这在当前市场环境下稍显遗憾。 但结合其全面拥抱国产算力的战略,这很可能是为了集中资源攻克最核心的算力底座问题而做出的阶段性取舍。 🧑🏫零一万物技术与产品中心副总裁 赵斌强 说“不及预期”有点鸡蛋里挑骨头。 但如果从ToC(面向个人用户)角度来看,产品化打磨还不够——Flash版本涉及创作、编程等复杂任务,能力略显不足;Pro版本虽然接近顶级闭源模型水准,但起步算力要求较高,存在入门门槛。 影响:AI并不是简单地越来越便宜 🧑🏫涌跃智能创始人兼CEO 陈炜鹏 一个重要趋势是,AI并不是简单地越来越便宜。 全球最旗舰模型的调用成本其实在上升,因为它们承载的是更高复杂度、更长上下文、更高价值的任务。真正快速变便宜的,是中层模型、开源模型和可自部署模型。 所以未来应用公司不会只问“哪个模型最强”,而是要建立一套模型调度系统:哪些任务必须用最强模型,哪些任务可以用高性价比模型,哪些能力可以通过Agent框架和工程系统补足。 DeepSeek V4的意义在于,它进一步丰富了模型供给层。 对企业来说,它不是简单替代某一个海外模型,而是让应用可以更灵活地做多模型编排、自部署和成本优化。 未来AI应用的壁垒,也不会是简单调用一个模型,而是把模型、Agent、产品场景和数据反馈组织成一个可靠、低成本、可规模化的生产系统。 对Loopit来说,这个趋势非常关键。我们做的是AI互动内容,模型能力决定创作上限,成本和速度决定创作能否规模化。 只有当不同层级的模型都足够可用,并且能够被有效编排,普通用户的大量创意才有可能被实时生成、互动和传播。DeepSeek V4的进展,会加速这个过程。 🧑🏫Pine AI首席科学家 李博杰 在垂直微调市场,千问、Llama等200-300B档基座被V4-Flash系统性替换。 所有做该尺寸后训练的团队都会重新评测;Flash同尺寸效果反超、推理框架Day-0适配齐全(SGLang/vLLM/TileLang),6个月内会成为国内开源垂直模型的默认起点。 华为昇腾950 SuperNode推理生态正式起步,并冲击英伟达芯片溢价。 这是第一个完整跑通的“国产芯+国产顶级开源模型”方案(NVIDIA/AMD都没拿到V4的早期适配),下半年950大规模出货后,Agent长上下文场景里会出现一波纯本土推理替换; 这间接影响是英伟达在中国市场的估值与溢价被重新定价——不是销量崩,是议价能力被压。 能完成复杂长程任务的Agent整体使用成本大幅下降。 V4-Pro输入(缓存未命中)1.74美元/输出3.48美元+1M上下文高效KV+MegaMoE已经把单Token成本压到前沿模型的1/6-1/7; 只要业界在Agent Harness层把V4的工具调用稳定性和幻觉率补齐(验证器、外部接地、严格Schema、自一致性投票),那些过去因为成本无法实用化的多步研究、长程代码Agent、深度搜索类应用会在今年下半年走出demo进入真实业务,Agent经济性的拐点就在这一波。 以及,闭源前沿厂商不会因此降价——它们的产品仍然显著领先,V4不构成定价压力。 🧑🏫零一万物技术与产品中心副总裁 赵斌强 ToB AI应用的核心命题是:在保证效果的前提下实现全周期的成本控制。DeepSeek V4的出现为这一命题提供了极具竞争力的解法。 Flash覆盖简单任务,Pro覆盖高复杂度场景,整体成本相比主流闭源方案会大幅降低,让零一万物在交付时能够显著提升方案性价比。 更重要的是,DeepSeek的开源是坚定的、不摇摆的,不会突然宣布闭源让应用的投入打水漂。这种坚定的开源姿态为企业级技术选型提供了宝贵的确定性。 零一万物内部已经全面启动基于DeepSeek V4的产品评测与能力验证,重点评估其在生产调度、智能办公、投资管理等企业核心场景中的表现,验证达标后会考虑替换原有模型,让更多行业客户用上顶级国产大模型。 V4发布后,我认为行业会主要产生三个变化: 1.国产全技术栈解决方案进入发展轨道,国产化替代从“梦想”变“现实” DeepSeek成功适配华为昇腾,意味着国内AI产业在“芯片+框架+模型+应用”全技术栈国产化的方向上迈出了实质性一步。 对于有合规要求的政企客户,这是刚需。ToB市场的国产化替代进程将明显加速。 2.开源大模型倒逼闭源降价,AI应用业务减少被闭源模型吸血 DeepSeek用远远低于顶级闭源模型的价格实现了接近顶级闭源模型的效果,它的示范效应会进一步拉高开源模型的整体性能。 这也会迫使Anthropic、OpenAI等闭源模型厂商的高价策略面对压力。行业利润中心将从基座模型向深度行业应用迁移,对AI长期的发展极有益处。 3.开源模型≠企业应用,Harness能力成为新分水岭 开源降低了基座门槛,Harness决定了落地高度。从优质开源模型到稳定可靠的企业级产品,中间还隔着Harness这一层,包括幻觉消除、指令遵循、错误校验、专业性注入等工程能力。 每个行业的需求不同,没有一套Harness是通用的。这恰恰是零一万物的核心优势所在:基于自动评测、自动反馈、自动改进、专业性注入,为不同行业快速构建专属的Harness体系,让大模型真正在业务中用起来。 🧑🏫联想集团副总裁,联想创投首席投资官、高级合伙人 宋春雨 第一,百万级上下文成为应用层的“标配”,催生Agent爆发:V4将超长上下文能力下沉为普惠基础设施。 第二,行业竞争从“卷模型”转向“卷应用与数据”:当顶级开源模型性能逼近闭源、成本大幅下降后,模型本身将不再是稀缺壁垒。未来的投资与竞争焦点,将更明确地转向谁能利用这些基础模型,在医疗、金融、法律等高价值垂直场景中建立数据与应用闭环,形成商业护城河。 第三,国产算力产业链迎来巨大投资机遇:V4的成功,向业界证明了大模型在国产算力上也能摘取“皇冠上的明珠”。这必然催生对国产算力的确定性需求,带动从芯片设计、服务器到云服务的全产业链投资热潮。 我们判断,“今年的国产算力,就是去年的海外算力”,其产业趋势和资本市场的映射效应将尤为强劲。 我们会把资源向“能快速商业化、能落地行业、能形成产品壁垒”的项目集中,同时保持对底层架构与算力基础设施的长期投资。 🧑🏫某双币基金投资人 我今年的愿望是:基模Portfio(被投资方)顺利上市。 DeepSeek启动融资后,一定会吸收一级市场(尤其是国资)的大量资金。对剩下几家还没IPO的基模公司来说,继续滚动融资是不可持续的。 我还有个比较悲观的观点:今年应用层融资会比较困难。 基模能力还在快速迭代,意味着一大批应用会被颠覆。就像去年非常火热的Coding、Workflow,今年一级市场已经没什么人提了。 🧑🏫Coding Agent创业者 Chillin 开源是一个好事,DeepSeek V4能进一步推动交流和优化。但是这个时间距离拉的很大,让人感觉比较难受; DeepSeek V4会迫使模型厂更加正面地面对规模和数据的��题,然而这两个问题极难解决,这是资本量的问题; 它也进一步地证明了Scaling Law的极限。工程化带来的性能跃升是有限的,这迫使所有人去找更底层的解。路漫漫其修远兮。 Bonus:一份DeepSeek V4实用指南 适合干什么? 编程与代码学习: 如果你是编程初学者或需要编写个人脚本,DeepSeek V4是目前最顶级的选择之一。它能非常可靠地理解上下文、生成高质量代码,并且极擅长代码调试。 中文及中日韩(CJK)内容创作: 无论是写文章、润色文案还是进行翻译,V4在中文、日文和韩文环境下的表现极其优异。 超长文本阅读与分析: V4原生支持高达100万Token的上下文窗口。你可以一次性将整本书、数万字的长篇报告或完整的代码库直接喂给它,让它帮你总结或提取关键信息。 不适合干什么? 搜索与查证客观事实: V4是一款“推理模型”而非“百科全书”,它在事实性知识(如历史细节、特定实体信息)的回忆测试中表现较弱,且极容易产生幻觉。特别是V4-Flash版本,在事实问答测试中得分仅有34.1%。建议:不要用它来当搜索引擎,查证事实请使用带搜索功能的其他AI或自己核实。 处理图片或文档排版: DeepSeek V4是一个纯文本模型,不支持任何图像输入或输出(No Vision)。如果你需要分析图表或图片,请使用其他多模态模型(如GPT-5.4 Mini)。 纯英文的高级创意写作: 虽然它能写英文,但它的英文输出有时会显得行文生硬(stilted phrasing),如果你需要创作高度自然、地道或富有创意的纯英文内容,建议使用其他西方主流模型。 其他须知: 给予充分的思考空间: 如果你使用的是具备显式 思维链 (CoT,即模型在给出答案前会先一步步推理,类似于“先打草稿再誊写”)的Pro版本,遇到难题时,不妨在提示词中鼓励它“多想几步”或开启“Think Max”模式,它推导得越深入,给出的答案往往越准确。 容忍偶尔的啰嗦: 评估显示V4是一款相对“啰嗦”的模型,输出速度也偏慢。如果你只想要简短的答案,可以在提示词中明确要求“请用一句话回答”或“请尽量简短”。 欢迎交流! 欢迎交流!
文|周鑫雨 资料整理|钟楚笛 编辑|苏建勋 杨轩 靴子终于落地。 被调侃“Next Week”近3个月的DeepSeek V4,终于显露真身。 1.6T的最大参数量、1M的上下文窗口、针对Agent的性能优化,以及基于MoE(混合专家模型)和稀疏注意力机制DSA,降低计算和显存需求——这些曾被外界纷纷猜测的参数和性能,随着V4的官宣,一锤定音。 DeepSeek V4性能测评结果。 姗姗来迟的原由,与V4将训练框架从英伟达迁移到华为昇腾上有关,也与DeepSeek内部的决策变动有关。我们得知,2025年年中,DeepSeek曾面临一次较为严重的训练失败。 “当时,DeepSeek面临重新适配芯片的问题。”一名知情者提到,“内部有关训练方向的意见也不完全统一。梁文锋提出了一些自己的要求,但在执行层面很难折中。” 不过,与外界关于“新模型支持多模态生成和理解”的猜测不同,V4依然是个语言模型。暂缓多模态生成的训练策略,主要源于算力和现金的掣肘。 多名知情者告诉《智能涌现》,DeepSeek的对外融资窗口,是2026年4月中旬打开的。内部的导火索,是DeepSeek需要更多资金支持,训练参数规模更大的模型,同时,留住和招纳更多的顶级人才。 “1.6T的参数量与OpenAI、Anthropic等顶级厂商的模型相比,并不具有绝对的竞争力。”一名从业者对我们提到,很快,国内也有模型厂商,将发布 3T 参数规模的模型。 在人才侧,随着郭达雅(DeepSeek R1核心作者)、王炳宣(DeepSeek LLM核心作者)等人才被字节、腾讯等大厂挖走,DeepSeek需要一笔大额融资稳定军心、招兵买马。 而转向开放融资的外部导火索,几名业内人士猜测,与腾讯的投资态度有关。在开发融资前,梁文锋和马化腾曾有关注独家注资有过几次商谈。但两名相关人士透露,给腾讯20%股份的条件,没有得到梁文锋的同意。 R1发布以来,一个明显的转变是: DeepSeek从一个偏非营利的、理想主义的技术乌托邦,被迫快速转向一家重视产品、商业化的务实公司。 2026年4月8日,DeepSeek App改版,上线支持复杂推理的“ 专家模式 ”,和处理简单任务的“ 快速模式 ”——随着V4的发布,我们也从而得知,负责“专家模式”的,是1.6T参数量的V4-pro,支持“快速模式”的,则是284B的V4-flash。 DeepSeek App的两种模式。 曾有知情人士表示,2025年下半年以来,梁文锋开始重视产品的打磨。有多名大厂AI产品经理向《智能涌现》提到,2025年年末,DeepSeek对产品策略/经理进行了“开闸式招聘”,他们也多次收到DeepSeek HR的联络。 一名业内人士也对《智能涌现》透露, DeepSeek内部已经搭建了数个创新产品团队,对Agent和其他C端产品形态进行探索。 从更新后的版本看,DeepSeek的文本能力提升明显。在过去一年,我们也听到多位AI行业HR、猎头提起过, 不止一次在北大中文系的宿舍,遇见加学生微信的DeepSeek HR 。 招中文系学生的目的,是做人文领域的数据标注和测评标准搭建。这被视为DeepSeek重视模型的人文性的信号。 虽然“普惠”“开放”,产品简单到只有一个Chat界面,是DeepSeek对外呈现出的形象。但我们了解到,2025年,DeepSeek对产品和商业化的探索一直没有停过—— 目前,内部已经组建了一支数十人的产品团队,对Agent等产品形态进行探索 。 甚至更早前,在2024年,爆火前的DeepSeek,也考虑过投流推广,但很快被梁文锋否决。 DeepSeek终于放出年度更新,有如终于掉落的达摩克利斯之剑,让中国乃至全球模型厂商悬着的心稍稍放下。 迈入2026年后,DeepSeek的年度迭代,已成为AI世界“狼来了”的故事。避开DeepSeek,成了近几个月模型厂商的标准动作。 两家刚刚上市的大模型厂商,智谱和MiniMax,在春节前,就错峰发布了新的模型GLM 5和M 2.5。 一名智谱员工告诉《智能涌现》,“DeepSeek将在春节发模型”的传言一放出,算法团队立马拉了会,要求“尽早”发布GLM 5。 MiniMax的一名员工也表示,1月中旬,港股IPO庆功酒的宿醉还没褪去,算法团队就自觉早早回到了工位上。 “错峰”,对这两家已经IPO的模型创业公司尤为重要。 “如果比DeepSeek晚发,性能不如它们,会影响股价;但不发,也会影响股价。”上述员工表示,“影响最小的办法,是早发。” 模型公司的融资动作,也要抢在DeepSeek更新前面。 1月末宣布了B+轮融资的阶跃星辰,也迫切地想在春节前Close这轮融资。一名知情人士告诉我们,一旦DeepSeek再次掀桌,和投资人的沟通成本将会非常高。 在从业者眼中,牌桌上一直有“两个DeepSeek”——一个带来被倾轧的恐惧,另一个则作为范式的引领。在模型厂商们温吞缠绵的两年里,行业需要这样一个“不确定性因素”,让厂商们反思、继而冲刺起来。 MiniMax一名员工记得,在年后的内部信和全员会上,创始人兼CEO闫俊杰提到: “DeepSeek帮我们走出了一条我想走的路。” 即使中国AI从业者对DeepSeek情绪复杂,但人们依然承认,DeepSeek改变了中国AI行业的诸多规则。 改变,往往意味着推倒和重建,这必不会是个舒适的体验,但正如一名六小虎投资人对我们评价的那样:DeepSeek奠定了近一年来中国大模型的组织文化、冲研发重点,而在这以后,“ 它是中国AI跻身全球一流的起点,但不会是终点 ”。 DeepSeek让中国AI行业的竞争格局,进入相对稳定的中场。但在模型技术的早期,DeepSeek为行业留下的不尽是共识。随着商业化和竞争压力加剧,围绕开源、商业化、增长等命题,各个厂商正在走向不同的分叉口。 在DeepSeek V4发布前,我们与十余位AI行业人士,围绕“DeepSeek改变了中国AI行业什么?”展开对话。 以下,是我们从中总结出的5条“后DeepSeek时代”的新命题。 命题一:重新审视开源的性价比 一年前,DeepSeek R1公开技术报告后,一名AI投资人的判断是:回归基模研究、靠开源开放打响技术品牌,对模型厂商而言是最重要的事。 但如今,他告诉我们,当时的判断有待商榷。 跟随DeepSeek一年后,厂商们大力托举开源和研究生态的时代是否要终结?这一关键问题,随着近期阿里千问大模型技术负责人林俊旸的离职,被摆到了明面上。 某种意义上,林俊旸领导的Qwen,代表着开源生态的利益。但如今,这与阿里作为商业公司的营利性,产生了尖锐的矛盾。 “ 非盈利的黄金时代结束了。 ”针对这一事件,一名Qwen员工对我们这样评价。 让厂商们动摇的事实是, 如今营收最高的2家模型厂商,走的是闭源路线 ——OpenAI,年化收入超过250亿美元;Anthropic,年化收入超过190亿美元(据The Information报道,数据截至2026年2月底)。 至于国内厂商的模型收入,近期披露的2025年财报显示,MiniMax全年总收入为7903.8万美元,智谱为7.24亿元(约1.05亿美元),与OpenAI和Anthropic相比,还有多个数量级的差距。 △2023年以来,OpenAI和Anthropic的年化收入情况。图源:The Information 2026年1月的AGI Next大会上,智谱创始人唐杰也发出警告,“我们可能只是在‘开源游乐场’里玩得开心,而美国的闭源模型早已进入下一个纪元”。 毫无疑问,DeepSeek带动的开源开放生态,让中国模型在2025年内,快速在全球建立知名度和技术口碑。 但一个残酷的事实是,靠开源快速“冷启动”、建立技术口碑的阶段已经过去了。在基模研发仍然“吞金”的当下,如何将口碑转化成真金白银,是更重要的存活命题。 开源的价值,到了被重新审视的时间点。 命题二:投流大战暂停,精细化投放开打 如何解读DeepSeek “0投流,App上线7天用户破亿”的成绩? 放置一年前,行业的目光会不由自主地聚焦在“0投流”之上——这套破圈叙事,推翻了不少厂商深信不疑的增长路径,也戳破了彼时模型产品烧出的虚假繁荣。 警醒,应激。2025年初,不少公司都做出了和大举投流同样激进的反思。 其中的典型,是拉开投流大战序幕的月之暗面。 《智能涌现》曾报道 ,2025年2月一场持续了五六个小时的战略会上,月之暗面联合创始人张予彤宣布,立刻暂停Kimi在安卓渠道的投流,同时将iOS渠道上的投流预算,从原来的千万元/天,削减到数万元/天。 一名六小虎中层曾对我们假设:以Kimi和豆包为主角, AI应用激进的投流大战,大概率会持续到2025年Q2 ,按照平均每个季度2亿美金的投流支出,月暗会因资金压力率先败下阵。 当应激的情绪逐渐回归理性,多数厂商的增长成员都告诉我们:投流,仍要继续,但要做聪明的、有的放矢的增长。 事实上,激进的投流、补贴大战,没有因DeepSeek的非典型成功而停止。只是, 参战的主要对象,剩下了财力雄厚、手握流量入口的几家大厂 。 增长大战最白热化的一幕,发生在刚过去不久的2026年春节。阿里千问豪掷30亿元请用户喝奶茶,腾讯元宝狂撒10亿元红包,字节则用同样的10亿元,将豆包送上春晚的舞台。 六小虎的一名增长团队成员,将如今的投流,称作“巧妇要为无米之炊”:“ 流量入口被大厂们把握,意味着剩余的模型厂商,要用更精细化的增长方式,放弃建立大盘认知,聚焦目标用户。 ” 他举了个例子,如果AI产品的主要场景是金融、法律办公,那就将产品推到一些金融App上,流量还更便宜。 命题三:回归基模,选实用,还是选研究? R1出圈后,聚焦基模研发,一夕之间成为AI模型厂商的共识。 “我们对自己的研究方向,都更坚定了。”一名亲历R1发布的前月之暗面研究员对我们表示,“R1并不是石破天惊的创新,但它证明, 只要大方向判断不出错,厂商坚持自己的路线,就能获得性能上的正反馈 ,就像DeepSeek一直坚持纯语言和推理。” 此前,为了打榜或是追逐热点,不少厂商会将聚焦在推理、对话等不同性能的模型,分开单独训练。 “这样做可以针对某项能力调优,但模型的实用性会打折扣,客户也不一定买单。”一名智谱员工告诉我们。他提到,一个令智谱警铃大作的现象是,R1发布后,不少行业头部客户,转向了部署DeepSeek。 彼时的智谱在冲击中,做出了一个在上述员工看来“难而正确”的决定:训练一个同时聚集推理、Coding和Agentic能力的模型,GLM 4.5。 “ 这是智谱第一个‘反榜单’的模型,性能调优方向都从真实的客户需求中来, ”他表示,“某种意义上,这也是智谱的背水一战。” 同样的反思,也席卷了大厂。2025年1月,前谷歌DeepMind研究副总裁吴永辉,挂帅字节模型团队Seed后,“不刷榜单,聚焦模型能力本身”的方针就被多次提起。 类似的,多名知情人告诉《智能涌现》,前OpenAI研究员姚顺雨加盟腾讯后,花了大力气把模型和AI产品的测评体系重新搭一遍,直接对接人员具体到每个场景的负责人,甚至他们的-1、-2。 “原来混元(腾讯大模型团队)的风格是‘刷榜’,让模型性能有些虚假繁荣。”一名混元成员告诉我们,“顺雨很Sharp,他希望团队认识到模型的真实水平,回归到研发本身。” 但共识之下必有裂隙。技术研发,向来有“实用派”和“研究派”之分,前者注重赢得竞争、商业落地,后者注重学术价值——具体到一家商业公司的体系中,在手头宽裕的时代,承担AI“研究派”角色的,往往是AI Lab、研究院。 然而,随着AI投入的压力逐步加大, 基础模型研究该倾向“研究”还是“实用”,业界并没有统一的答案。 可见的是,在商业化目标的趋势下,目前“实用派”占了大多数。一个显著的信号是,AI Lab正在后退和消亡,研发资源被聚集至“实用派”。 2025年以来,字节AI Lab被并入Seed团队,阿里达摩院多个研发团队被重组至通义实验室;2026年3月20日,腾讯也撤销了成立近10年的AI Lab,团队成员并入混元大模型团队。 但DeepSeek在某种意义上依旧验证了, 伟大是无法被计划的 ,不少突破性的技术,源自非功利性的研究。 依然有厂商,选择给“研究派”自由探索的空间——比如,字节Seed内部,还设置了注重研究的虚拟组织“Seed Edge”,鼓励骨干突破更基础、更长期的AGI课题,考核周期延长至3年。 命题四:大模型组织,顶层扁平高效,基层人海战术 命运的齿轮在梁文锋决定脱离幻方量化,单独成立DeepSeek那一天起就开始转动了。 一名接触过DeepSeek早期成员的知情人士告诉《智能涌现》,2023年初,DeepSeek早期团队到位后,梁文锋就坚持将DeepSeek脱离于幻方,理由是“ 幻方不是AI时代的组织形式,想要实现AGI,必须脱离原有的组织惯性做事。 ” R1的成功,让不少模型厂商开始重新审视适配AI时代的人才组织形式。 “ 本质每一代(巨头)企业,都是那个阶段最先进的组织,去适配那个时候的技术和商业 ,自然而然脱颖而出。”在近期一次播客访谈中,阶跃星辰董事长印奇也提到,如今每一家企业的AI顶尖人才都不少,关键在于组织形态。 《智能涌现》曾报道 , DeepSeek采取的是相当扁平和“学院派”的管理方式 :成员根据具体的目标,分成不同的研究小组;组内没有固定分工和上下级关系——这一组织形式的好处在于,可以充分发挥人的想象力,适配创新业务。 对于规模尚且不大的创业公司而言,寻找适配AI时代的组织形式,尚且有较高的试错空间。不少六小虎的员工都对我们表示,2025年以来,扩张规模成为一件“很谨慎”的事。不少企业甚至选择自行断尾,目的是“更高效、更聚焦”。 但对于动辄万人规模的互联网大厂而言,打破原有组织惯性并非易事。正如印奇所言: 创新者的窘境,往往是组织问题;领域内越是优秀的公司,越是将组织模式固化的更好,但往往也更难改变 。 只是,对于大厂而言,在AI时代延续辉煌辉煌,是必须要做的事。 2025年以来, 大厂玩家都试图将模型研发和AI创新业务,规整为一个相对独立于互联网业务的组织,用更为扁平的方式管理 。 比如虽晚但到的腾讯。《智能涌现》曾独家报道,原来分散在各个BG中的模型核心研发资源,在数次调整中,被集中在姚顺雨管理的AI Infra部,以及大语言模型部。 在近期的答疑会上,姚顺雨针对AI Lab与混元的整并,也做出了回应:要打破部门墙,让AI基础模型的开发和研究架构 更年轻、更直接 。 但精简研发团队的另一面,是数据、评测等支持团队的激进扩张。 “模型底层算法的迭代,到了一个平台期。在算法架构没有突破的情况下,训练数据的质量在模型性能迭代中起到了关键作用。”一名大语言模型研究员告诉我们,“尤其是视频、3D等涉及主观审美的多模态数据,各个厂商之间的质量差距就会显现出来。” 用高薪、高职级组建数据、评测,在不少厂商中已经屡见不鲜。 一名知情者告诉我们,, 近期字节Seed总规模相较于年初,已经翻了约2倍 。 豆包某一个尺寸的模型,光负责智商评测的就有5人,负责策略产品的有五六十人 ,“豆包、Seedance目前的性能优势,都是靠人力堆出来的。” 在数据供应的上游,盘踞在成都、武汉等城市的数据标注公司,已经跑出了不少年营收过亿的“隐形巨头”,招聘的普遍门槛,从中专、大专,抬高到了211硕士。 “ 金字塔结构 ”,一名Seed研究员如此形容目前模型组织的标准范式:研发顶端,是少数顶尖大脑,而为顶层输送燃料的数据、评测,依然需要人海战术。 命题五:年轻人和“一把手工程” 组织最重要的毛细血管,则是人。很难说, 是DeepSeek统一了行业“重视年轻天才”的人才审美 ,但各个厂商对AI年轻人才的渴求,被拉到了一个史无前例的高度。 △腾讯“CEO/总裁办公室”首席AI科学家 姚顺雨,1998年生。图源:姚顺雨个人博客 “很多大厂的HR团队,前几年招人的姿态都比较‘甲方’。”一名在AI行业从事了7、8年高端人才招聘的猎头告诉我们,“他们只负责给钱,但与人才在业务上的沟通都比较浅。” 明显的转变发生在R1发布之后—— 抢人,成了各大公司的“一把手工程”。 比如,2025年以来,隐退近4年的张一鸣的身影,频繁出现在新加坡,目的是引进全球各地的AI人才。也有不少人看到,腾讯总裁刘炽平亲自带HR团队,现身多个国内外计算机顶会现场,给参会者发名片、加微信。 一名混元成员也告诉我们, 姚顺雨进入腾讯后的一个重要任务,是招人 。自2025年9月,他加入腾讯以来,已经替混元面试了近百人,“每个校招生他都会亲自面,也常找突出的实习生吃饭”。 “DeepSeek终于让厂商们 自上而下 对齐了一件事: AI就是top mission 。”一名AI投资人总结。 结语:一直仰望,就无法超越 DeepSeek不能一直待在神坛上。正如一名混元研究员所言: 一直仰望,就无法超越 。 2025年下半年以来,模型玩家们对DeepSeek的态度,不再只有景仰,而是暗自卯足了超越的野心。 这一点,在去年借助DeepSeek流量,快速托举元宝的腾讯身上,尤为明显。一名元宝员工告诉我们, 截至2025年底,仍有约7成用户将DeepSeek选为元宝的默认模型 ,而非腾讯自己的模型混元。 “2026年,元宝的一个重要目标就是摆脱DeepSeek依赖,让腾讯自己的搜索品牌形成一定的用户心智。”她告诉我们。 当然,这也势必伴随更激进的模型研发目标。一名混元研究员告诉我们,2026年4月23日发布的新模型Hy3 preview,腾讯设定的目标是跟上第一梯队。 第一梯队的名单,则是DeepSeek和阿里。 对于牌桌上更早进场的其他玩家而言,经过一年的调整、加速,几乎所有厂商都在模型赛道,找到了差异化的身位: 字节和阶跃星辰聚焦全模态;月之暗面和智谱打磨Coding和Agentic能力;MiniMax保持语言模型不掉队的同时,突出视频生成模型的优势。 “每个厂商都沿自己的路线走。”Jason告诉我们,“这条路的终点可以是AGI、是泼天财富,但绝对不会是包括DeepSeek在内的任何一家公司。” 2016年,埃隆·马斯克和OpenAI CEO山姆·奥特曼有过一段公开对话。他提到:“人们有时会认为技术每年都会自动进步,但其实并非如此。 只有聪明的人们拼命努力去改进它,技术才会进步。 ” △埃隆·马斯克(右)与山姆·阿尔特曼(左)的对谈。图源:YouTube@Y Combinator 2025年初,DeepSeek恰好成了那个吹哨的聪明人。2026年,努力的聪明人会更多。 (文中受访者均为化名) 欢迎交流!
文|周鑫雨 编辑|杨轩 一句话介绍 Buzzy(https://www.buzzy.now/)是AI内容创作公司“感知阶跃”旗下的视频编辑Agent平台,主要面向C端内容创作者和中小型商家。 好比“视频版的PhotoShop”,用户只需下达自然语言指令,就能驱动Agent对视频进行背景去除、光线修正、产品替换、背景/视角更改等编辑操作。 团队介绍 “感知阶跃”创始人兼CEO Ella Zhang(张诗莹),曾在苹果、Oculus VR、Google负责核心产品。 在苹果期间,她曾为AirPods产品线创始团队核心成员,负责产品的系统集成和全周期设计落地,包括音频产品的架构设计、元器件选型、原理图绘制、版图设计、验证以及大规模生产。 此后,张诗莹又在Google担任AR产品的系统架构师,负责Glass、Reflector等产品的算法和架构研发。 “感知阶跃”其余核心成员,来自Adobe、小米、商汤等公司。 融资进展 近期,“感知阶跃”完成了新一轮融资, 金额超过2000万美元,领投方为Redpoint(红点创投)。 深渡资本担任本轮独家财务顾问。 产品及业务 在张诗莹看来,随着视频生成模型性能的发展,生成类的工具赛道,已经逐渐“红海”。她将市面上的视频创作工具,大致分成了两类: 一类是“画布型”产品,优点在于可以通过手动控制,保证生成结果的质量,但缺点是对大多数用户而言,使用门槛高;另一类则是向用户提供预制的workflow和模板,劣势在于不够灵活,同时,idea不够创新。 “用户更倾向于一次性生成整段视频,并通过不断迭代修改的方法来修到完美方案。所以一个指哪打哪的视频编辑器就变成了刚需。” 当下,由于视频的连贯性以及模型理解能力的局限性,用户很难通过Chat的方式,对视频进行换背景、换人物、消除某元素的“局部精修”。大多AI编辑器会改变整个画面,接近于重新生成。 近期, “感知阶跃”上线的新产品Buzzy, 就是一款AI视频编辑器,让用户可以 像P图一样便捷地“P视频”。 只需要通过Chat,Buzzy就可以对视频完成去除背景路人、修正光线、替换产品、合拍、更改背景与视角等操作,真正实现局部精修。 △背景路人去除。左:去除后;右:去除前。图源:受访者供图 △改变光线。上:改变前;下:改变后。图源:受访者供图 △拍摄角度改变。左:改变后;右:改变前。图源:受访者供图 做到对视频的局部编辑、维持其余部分,技术门槛并不低。张诗莹告诉我们,局部编辑要求视频模型有更高的视频和语言理解能力,“首先它要识别修改的部分到底是什么、在哪里出现,其次它还要准确理解用户的意图,比如prompt中的梗。” 为此,“感知阶跃”基于RLHF(人类反馈强化学习),训练了一个小模型,来增强Buzzy对视频编辑的理解。 与此同时,Buzzy也被设计为一个能够 自主学习用户审美和品味 的Agent。 Buzzy上线了一个“类OpenClaw”的Bot。用户可以通过扫码,直接将Bot接入Telegram和WhatsApp中。 通过向Bot分享TikTok、YouTube上的视频链接,Bot会自动分析用户的视频偏好和品味,基于该视频风格24*7自动全网搜索灵感素材,并将该风格沉淀为Skill。 风格沉淀。图源:受访者供图 此前,自2021年成立以来,“感知阶跃”经历了两次内容创作产品迭代: 在Midjourney、Stable Diffusion等文生图产品爆发之前,“感知阶跃”就基于GAN(生成对抗网络),开发出了第一款面向国内B端电商客户的AI模特图生成平台ZMO.ai,并在后续将落地场景扩展到商品图设计、编辑等场景。 ZMO.图源:受访者供图 占据先发优势的ZMO.ai,MAU一度达到了700万。 2024年起,视频生成赛道随着Sora的发布,迎来了一个小爆发。在风口中,“感知阶跃”叫停了ZMO.ai,并在2024年4月上线了涵盖图片、视频的内容创作平台Creati。 相较于聚焦电商、广告图片生成和编辑的ZMO.ai,Creati将内容创作扩展到了视频领域,包括文生视频、基于视频模板二创等功能。 与此同时,它为用户提供了移动端产品。不少非专业内容生产者,就可以直接用手机拍摄素材后,直接在App端完成内容的创作、编辑和发布,而非辗转导入电脑。 “用户对AI生视频的需求,比图片更刚一些。”张诗莹提到,“在传播效果上,无论在社媒端,还是广告端, 视频都比图片更能吸引注意力。 与此同时,用户拍视频的难度,比做图片高很多。” Creati。图源:受访者供图 同样转变的还有目标用户。ZMO.ai的主要客户,是国内B端的电商、广告商。但很快,张诗莹发现,即便ZMO.ai用户增长很快,但流量并没有转化为实际的付费。 核心原因在于,其一,“大B”客户的结款周期过长;其二,图片的创作成本比视频更低,因此 用户对图片的付费意愿不够高。 Creati则是一款面向“大C小B”的产品:C端内容创作者,以及中小商户。张诗莹告诉《智能涌现》, “大C小B”是付费意愿最高的人群, “更大的B端企业倾向于自研工作流”。 上线一年,Creati的全球用户量就突破了千万级别。 产品ARR(年度经常性收入),一度达到了2000万美金。 商业模式 靠用户订阅,覆盖Token消耗成本,是目前AI软件的主流商业模式。但张诗莹认为,订阅是SaaS时代的商业模式, Agent时代的商业模式应该为效果付费,而不应该为成本付费。 她告诉《智能涌现》,现阶段,用户依然将Agent视作工具,而非创造价值的人。 当Agent可以覆盖内容生成、发布、投放、A/B Test、效果分析、二创等创作全流程,Agent的商业模式,应该与人类Agency越来越相似,“收费模式不会是订阅,而更多会采用分佣的形式。” Founder思考 大多数非专业用户的内容创作场景,主要在Mobile端,而非PC端。 不少商家、非专业内容创作者,习惯用手机拍摄获取商品图、短视频等素材。但矛盾的是,创作工具往往集中在PC端。这就会导致内容创作链路的断裂。 因此,无论Creati,还是Buzzy,我们都向用户提供了MobileApp产品,让素材的获取、内容创作和编辑、发布,都可以在手机上完成。 当AI生成视频技术足够成熟,应用层能做的事只有两块:内容生成之前,以及内容生成之后。 内容生成之前,应用层解决的是产生创意的问题;内容生成之后,需要解决的是“怎么改”的问题。 应用层不应该去做模型层的事,因为模型一定会变得足够好。 当下有很多“套壳”视频模型能力的产品,无论是“画布”,还是workflow,解决的都是模型能力不够强的问题,比如“抽卡”、视频生成长度有限。 但未来,模型层一定会解决生成质量和长度的问题。应用层的机会,就在于解决生成环节之外的问题。 未来,Skill会成为可以交易的资产。 Skill本质上是用户沉淀下的品味、认知,以及工作流。就创作领域而言,人的审美和品味,以及掌握找素材的技能,都是有价值的。 因此未来,卖Skill可能会成为一种商业模式。 新的时代,应该独立开发新的产品,而不是在旧产品上加上一个新入口。 Buzzy和Creati是两代完全不同的产品。Creati聚焦生成,Buzzy聚焦生成后的编辑。不同代的产品,会形成不同的用户心智。 所有的Go Viral(走红)都很偶然,产品不应该过分追求Go Viral。 很多用户刚需,其实不具备在社媒上Go Viral的潜质,比如PDF Editor,但它们的用户量非常大。 根据我们的经验,能够Go Viral的产品有几个特点:第一,产品形态、设计比较创新;第二,实用,只有解决了用户的痛点,他们才愿意自发传播;第三,降低用户生产有趣内容的门槛。 欢迎交流!
访谈|邓咏仪 周鑫雨 文|周鑫雨 编辑|杨轩 乍一使用,你很难给Ribbi一个准确的定义。 若说这是一个多模态内容创作工具,Ribbi能做得不止于此。比起一个“死”的工具,Ribbi更像一个可以自动管理创作全链路的“人”。 它能将用户的创作流程,自动沉淀为Skill;也能监测社交媒体的数据表现,总结复盘,并 自动对后续的创作进行优化。 Ribbi官网首页。 对绝大多数创作者而言,这又是一个使用体验极度“陌生”的产品。区别于Figma、Lovart等设计产品,Ribbi没有醒目的画布,所有的创作、编辑交互,都集中在一个小小的对话框中。 而与你对话的Ribbi,被设定为一只个性十足的“青蛙”:爱吐槽,偶尔还能爆点粗口。 与Ribbi的对话。 这款有些“怪”的产品,却在 上线封测一周内,收到了全球4万多用户的使用申请。 用户群从上线第一天的20人,快速扩张成了20个几乎满员的大群。闲鱼上,Ribbi的内测码,一度被炒到了200元。 “我们上线Ribbi,本来是为了找100多个种子用户做封闭测试,验证PMF(产品-市场适配率),都没正式开始做营销和投放。”Ribbi创始人兼CEO Robin告诉我们,用户通过口碑传播的裂变速度,远超他的预期。 在4月初和《智能涌现》的交流中,Robin的嗓子已经哑了。半个月内,他见了多家投资机构,官方Linkedin的私信箱,也堆满了合作邀约。 毕业于工业设计专业,Robin做过4A和品牌企划,后续还在几家头部大厂,主导多款明星AI产品的创作功能设计、创意Agent落地等工作。 创业前,Robin就一直在探索:如何让创意实现的过程更简单。他发现, 市面上的创作工具,都彼此独立,用户创作的上下文互不相通。 这就导致,当用户要创作内容,每涉及一个环节,就要切换一款工具,还需要重新和工具对齐创作的需求。 “市面上不少AI设计工具,仍然把内容创作视作单点环节的拼接。但事实上, 创作应该是涵盖创意生成、内容生成、发布、数据监测、复盘、优化的完整链路 。”Robin告诉《智能涌现》。 基于这一认知,2025年末决定创业时,Robin做了不少“非共识”的决定: 不做Multi-Agent(多Agent架构)的产品 ,因为不同专家Agent在传递过程中,会造成Context的损耗; 不做单点的内容生成, 而是用一个Agent,打通创作、发布、效果监测、复盘优化等创作中所有的链路; 不做“画布类”的产品, 而是用Chat作为UI,给Agent更多的自由度; 自训VLM(视觉-语言模型)、自研名为Contxt Layer的Agent架构, 沉淀创作经验和反馈,让AI自主进化。 这一切设计的最终目标,Robin告诉我们,是让Ribbi不仅仅局限于一个“工具”,而是成为理解完整创作闭环的“人”。 以下,是Ribbi创始人兼CEO Robin关于Agent创业的20条“暴论”: 🐸 大厂中,业务、模型和顶层之间的对齐是最困难的事,除非已经有业内共识。 比如,当Coding成为业内共识,不管是大厂,还是“AI六小虎”,都不约而同朝这个方向冲。 但在看到Taste的确切价值之前,为审美、品味构建模型,是大厂不愿意做的。只有当视觉创意生成从非共识,变成共识,才能激发更多大厂和顶尖人才参与进来。 🐸 一旦团队变大,对Context的折损就会增加。 大厂的基模能力很强,但模型团队对业务的认知有偏差。一旦团队变大,每个团队之间信息传递的过程,会折损大量的Context。 这也是Ribbi团队只有6个人的原因。我们只有3个程序员,他们现在是全栈设计师、全栈工程师,什么都能开发,并且可以做得很好。 这就是Claude Code带来的代码生产力的进化。 我相信,Ribbi会带来内容生产力的进化。 🐸 很多AI产品都在虚假宣传。 我们在宣发的过程中搞了很多“抽象”,比如“72小时ARR破亿”“一夜百万用户”,本质上是为了讽刺很多AI产品的虚假宣传。 只是我们讽刺做得不够好,很多用户信以为真了(无奈笑)。 我们在X上的CEO账号也是虚假的,根本没有“Robin Bisset”这个人。账号上的很多内容,包括Robin的外国人形象,都是Ribbi生成的。 △Ribbi的虚拟老外CEO。图源:X 🐸 AI行业正在逐渐“币圈化”。 我花了很长时间才研究明白Harness。圈内很喜欢造概念,又是“马鞍”,又是“驾驭”,搞得很玄乎。 其实Harness很简单,就是一个脚本,或者一个workflow,让模型不偏离目标,更好地发挥价值。 在Harness这个概念出现之前,依靠框架或者Agent去优化AI执行任务的上下文,本身就是一个共识。如今行业只是把这件事抽象了出来,给了一个核心定义。 🐸 画布类的产品,把模型的可能性“锁死”了。 我们没有把Ribbi做成画布类的产品。画布类的AI产品看起来交互很酷炫,能让投资人眼前一亮,专业用户使用起来也很顺手。 但它们有一个“致命伤”:把模型的可能性提前“锁死”了。因为画布的本质,是将工作流拆成一个个节点,模型只能沿着这条路径走。 我们一直以来的判断是, AI时代的UI应该是容器化的,而不是功能化的。 产品应该给AI创造一个容器,让它可以自由决定调用什么样的工具、怎么组合工具,甚至按照什么样的顺序执行任务。 🐸 具身智能成熟之前,Chat是AI最好的UI。 在互联网时代,我们就习惯通过Chat完成信息的传递,比如微信上可以拍图片、拍视频,也可以发链接、小程序。 在我看来, Chat是一个足够简单,并且灵活兼容一切的容器。 比如豆包DAU跑得很快,其中一个原因在于,它的移动端App设计得很轻量。用户不需要打开新的对话框,只要在一个session中疯狂Chat就能生图、生视频。 它将用户的交互和AI的行为,统一在一个非常简单的框架中。 用户认为Ribbi好用的点,就在于他们可以随时把X、Instagram、Pinterest等平台上的素材,采集、保存在Ribbi中,底层的AI再自主学习其中的审美。这其实就是人与AI Chat的过程。 作为AI产品经理,我非常讨厌用复杂的交互去操作AI。AI应该很聪明,不用我时时刻刻盯着,就把活干了。当你产品的交互门槛、使用门槛足够低的时候,自然而然就能吸引更多人。 🐸 真实的创作需求从来不是单一维度的。 很多人会疑惑:为什么要往Ribbi里塞这么多功能(图片/视频/音乐创作、社交媒体监测、编辑器)?这样会不会导致定位模糊,或者每个功能都做不深? 我们一直认为,真正的创作需求从来不只有单一维度。比如一条抖音视频的制作,就涵盖了想选题、写文案、写脚本、生成分镜、配音、剪辑、编辑封面、发布、数据监测、复盘等流程。 这是一个完整的链路。没有All in one的工具意味着,用户需要切换不同的工具,重新对齐创作的上下文。 人一定是懒的动物。 没有用户希望做一个产品、完成一个环节,就换一个模型、换一套工具。比如做一个视频,要先用ChatGPT生成文案,再用Gemini生成分镜,最后还要用剪映拼接视频,是很麻烦的。 我们设计Ribbi功能的出发点,不是为了把功能做全面,而是为了 让创作链路的Context完整连通。 🐸 Ribbi构建Agent的核心在于自主进化。 互联网平台的核心是UGC, Ribbi的核心是AGC,Agent Generated Content。 创业前,我就在寻找可以让“Agent自主进化”落地的场景,创作就是一个很好的答案。 首先,Taste会自主进化,这就是我们设计Pond和训练VLM的原因。 其次,Skills也会随着用户的使用自主进化。用户在使用Skill地过程中,会产生新的场景、需求和Context,这些Context就会凝练成专属用户个人的Skill。 这些个人Skill,都会经过Context Layer中的Skill Agent的评估、去重、去隐私化,再贡献给平台全端。因此,平台的Skill也会循环进化,用户使用越多,Skill就越多,能力也越强。 最后,用户的创作也会自主进化。我们建立完整创作工具的原因,就在于用户的创作是连续的过程,涵盖搜索、发现素材、生成内容、编辑优化、发布到社媒、数据监测等流程。 社交媒体,是Agent在线进化落地的核心训练场, 将作品发布到社交媒体,是Agent与真实世界的一种交互。监测数据表现后,Ribbi能够自主迭代和优化创作路径,交付更好的结果。最终,平台就能够形成一个自主进化的创作闭环。 🐸 Multi-Agent本质上是对模型能力的低估,产品要让Agent更自由。 Multi-Agent架构中,大部分专家Agent的底层能力,都来源于Claude。既然底层模型一样,为什么还要通过提示词工程,把模型拆分成不同的Agent? 提示词工程,本质上是对模型能力的约束。 与此同时, 任务在多层Agent架构中的传递,都会造成Context的损耗。 我们做Ribbi的时候,核心观点是:让Agent足够自由。 Agent要在一个非常丰满、质量足够高的Context中,发挥自己的能力。因此, 我们的核心架构其实是一条Single-Agent链路。 除此之外,我们构建了一个中间层, Context Layer。 它由Memory、Taste 、Skills等不同层级构成,每一层都有对应的Agent。它们的作用不是执行任务,而是辅助Single-Agent收集Context。 这样做的好处是 Single-Agent对上下文的感知不会折损,Token的损耗也会降低,这是我们的核心优势。 与此同时,其他Agent又能补足一些上下文信息。 🐸 Ribbi不是OpenClaw的“套壳”,大家只是对Agent有相同的想象。 2025年11月,那时还没有OpenClaw,我就在公众号上写了一篇文章,构想了Agent发展的路径:第一,Agent会从被动,发展为更主动;第二,Agent的Context会不断自我进化。 这两点在OpenClaw上得到了具体的体现。但我们的产品定义和OpenClaw非常不一样: 首先我们提出了Context Layer,为Agent提供了很干净的Context;其次我们不希望为用户提供一个部署门槛很高的产品;最后我们整体的功能链路都是为内容创作服务,所以Ribbi提供了100多个可以自由组合、循环进化的Skills。 我相信世界上很多人对Agent的想象是一致的。OpenClaw很多的底层思考来源于Claude Code,我们的核心想象也出自Claude Code。 Claude Code为Agent创造了一个非常简洁的系统: Coding是Agent的环境,Function Call是Agent的手。 Claude Code的出现让任何人可以成为全栈工程师,Ribbi的出现是让任何人能成为全栈的创作者。 🐸 我们不把Ribbi定义为“工具”,而是理解完整创作闭环的“人”。 首先,Ribbi是一个可以自我进化的内容引擎。其中,“Pond”是它的审美输入端,Skills是流程的沉淀,主动发布和数据监控是内容创作的最后一公里。 其次,我们希望Ribbi有活人感。如果你和Ribbi对话,就会发现ta是一只嘴上嘟囔、但会认真干活的青蛙。 🐸 Taste is all you need。 创作过程中最难用语言表达的,就是审美和品味。 为了解决审美建立的问题,我们为Ribbi设计了一个叫做“Pond”的板块。 用户在浏览Behance、Pinterest等设计平台时,可以通过Ribbi插件,将喜欢的设计采集并保存到Pond中。通过对Pond中资产的学习,Ribbi可以建立对用户审美的认知,未来创作的设计也会更符合用户的偏好。 除了学习用户个体的审美,Ribbi也会凝练平台所有用户的审美,成为平台共识。这么做的意义在于,让用户在不输入Prompt的情况下,也能获得高质量的设计。 支撑Ribbi学习、积累、迭代用户审美的核心,是我们基于开源的千问8B小模型训练的VLM(视觉-语言模型)模型。 它可以将图片、视频转化为文本Context,并将Context压缩进用于构建审美的Taste层,再基于Taste层生成新的设计。 对审美的不断沉淀,也是Ribbi产生用户粘性的核心。平台上,用户不断贡献新的审美Context,这些Context都会沉淀为Ribbi对你审美的认知。 在Pond中可以上传个人资产。 🐸 不能让模型,不知道你的操作。 目前,我对Ribbi主要有两个不满意的地方,一方面,稳定性还不够,包括性能和服务器、API负载; 另一方面,创作流程还不够灵活。因为没有编辑器,所以诸如“把字幕往上挪一点点”等简单调整,都需要用户去Chat。因此我们需要上线一些后编辑的功能。 但迭代的卡点在于,我们必须让底层模型知道用户的所有操作,对齐用户所有的上下文。只有这样,在后续创作过程中,Agent才能记住用户的偏好。 让模型感知到用户的后编辑,目前来看还有很高的开发门槛。 🐸 Ribbi的壁垒在于对技术的想象。 我们自主训练的VLM模型,目前多多少少算壁垒。当然,技术壁垒很容易被超越,Claude发布一个新模型可能就可以做到。 Ribbi的核心价值在于,我们不仅希望只做一家应用层的公司,而是在未做模型层的探索。训练VLM是现阶段探索的开始,包括中间层Context Layer的设计,都是基于我们对行业的Know-How和共识去完成的, 这些事说出来其实不难,难的是把它想象出来。所有的事最重要的就是想象,而 我们是第一个把技术领域的AI自主进化想象、并且落地的团队。 而且我们对Agent的认知一直在往前走,这是我们的想象保持领先性、建立壁垒的前提。 🐸 把Token消耗转化为扣积分的商业模式,不够诚实清晰。 我们的商业化会做得比较诚实。虽然模式还没完全确定,但一定不会是积分制。 △Ribbi会显示每个环节消耗的Token量。图源:作者试用 不少AI产品会采用积分发放的方式。个人觉得挺绕,用户还得把积分转化为Token消耗量,不够清晰。 也有平台会告诉你,“充值一次,无限Token”,但实际上用户天天在排队。这样的商业模式不诚实,而且平台还会亏本。 🐸 好的内容平台应该有广告。 我最近也在研究一些好的内容平台的商业模式。YouTube几乎是免费的,因为有足够多的广告商在视频中分发贴片广告。 广告的好处在于,让平台把用户的成本转嫁给广告商,同时也让创作者通过广告,有直接的收入,从而激励他们在平台上的创作。 🐸 Ribbi的北极星指标,是Skill的增长。 目前,网站上有20多个Skill,其实我们内部已经有100多个Skill,比如一键消除、做PPT等技能。没有放出来的核心原因在于,我们的设计师对审美的要求很高。 所以我们的北极星指标是不断裂变出更多高质量、高审美的Skill。 并且我们不希望Ribbi成为一个工具集。 工具聚合网站,更像是一个个的小程序,它们之间是相互独立、互不连通的状态。 但我们的Skill会在同一个Single-Agent中连通。这样的好处是Agent可以在接管创作全流程中,灵活串联不同的Skill。 另一点,我也希望Ribbi上的工具数量能不断增长。目前我们的100多个Skill,靠的是100多个工具的不同组合。一旦我们的工具数量扩大到1000多个,Skill会进化产生我们想象不到的价值。 △Ribbi上沉淀的Skills。图源:Ribbi官网 🐸 应用公司探索模型层是有必要的。 只有自己亲身训练和使用,才能知道当下模型的限制,以及实现AI自主进化的逻辑路径。我们现在实现AI自主进化的路径,是基于Context实现的。 但未来, 自主进化一定会在模型层上实现 ,并且会有非常多的人探索。自己训练模型,是为了提前积累经验。 🐸 我们不把自己定义为创业团队,而是独立开发者的组织。 我们不会像某些友商那样,不断花钱买量、烧各种补贴。我们不想做一家为估值而奋不顾身的公司。 融资当然也很重要。你要确保账上有足够的资金,去支撑研发-获得用户反馈-迭代的循环。 我们现在正在推进下一轮融资,并非是有意的,而是如今Ribbi获得的用户声量,远超我们的预期。现在的状态,有点像时代推着你往前走。 我们收到了很多投资意向书,但我希望愿意投资我们的机构,是真正对AI有价值判断的、长期看好AI的自主进化,而不是出于FOMO(错失恐慌)。 🐸 我立志成为硅基生命的垫脚石。 我们一直在找一个符号表达“自主进化”的理念。Ribbi LOGO是一只青蛙的原因,是因为蝌蚪进化为青蛙是一种非线性的变态发育,“Ribbi”就是呱呱叫(ribbit)的拟声词。 我相信AGI一定会到来。无论是训练模型,还是做Context Layer,这些看起来“很重”的事,目的都是为了加快AGI到来的进程,哪怕只留下一点点痕迹。 假设某一天,某家模型厂商实现了AI的自主进化,即便功不在我,我愿意贡献我们对Context Layer自主进化的Know-How、开源我们的技术架构,帮助模型厂商训练更好的自主进化模型。 欢迎交流!
文|周鑫雨 编辑|杨轩 一句话介绍 成立于2025年6月的“涌跃智能”,是《智能涌现》曾报道过的AI创业公司 。 其旗下产品Loopit,好比“可以玩的抖音”,是一个面向C端的AI互动内容平台,覆盖可交互内容的创作、分发和消费。 基于自研的“AI Coding+多模态生成”的互动引擎,用户既可以与社区中的内容互动,也可以创作、发表支持图像、语音、视频、3D等全模态可交互互动内容。 团队介绍 “涌跃智能”创始团队,主要出身于“AI六小虎”百川智能的核心团队。 “涌跃智能”联合创始人兼CEO陈炜鹏,前百川智能的联合创始人兼大模型负责人,主导了BaiChuan 1-4等大模型的训练。 此前,他的职业路径横跨搜索、推荐与社区产品——从搜狗的搜索与信息流,到Soul的内容社区,一直围绕分发与内容形态演进展开。 融资进展 近期,“涌跃智能”完成了新一轮融资,金额为5000万美元。 该轮融资由全球头部游戏厂商Garena领投。 本轮投资阵容还包括 经纬创投、蓝驰创投、渶策资本、柏睿资本等 机构,高鹄资本担任独家财务顾问。其中天使股东经纬创投为第4次加码。 2026年以来,“涌跃智能”已经连续完成了3轮融资,累计金额近1亿美元。此前,投资方还包括天使股东耀途资本、钟鼎资本等机构。 产品及业务 2026年才过了1/3,“涌跃智能”就连续完成了三轮融资。资本市场火热,背后是Loopit所代表的AI应用赛道的兴起: AI互动式内容平台 。 在Loopit创作端,用户可以通过文字输入创意,生成可互动的mini-App,也可以基于其余用户创作的内容进行remix(魔改); △Loopit支持复杂互动内容的创作。图源:受访者供图 在消费端,产品采用单列Feed流进行分发,将互动体验封装进统一内容卡片中,降低用户参与体验的门槛。 △左:Loopit创作后台;中:Loopit首页Feed流;右:Loopit内容分区。图源:产品界面 在众多互动内容产品中,Loopit是增长最为迅猛的产品之一:正式上线(2026年2月10日)不到24小时,用户制作互动内容就在X上被马斯克评论转发; 《智能涌现》独家获悉,上线两个月以来, Loopit的全球注册用户规模达到了近200万 ,其中北美用户超过半数; 产品次日留存从早期的30%,上升到超过50% ,用户创作率达到30%。 实现用户新增、留存和消费时长的同时增长,陈炜鹏告诉《智能涌现》, Loopit核心做对了两件事 : 一方面,不断拓展互动内容的体验边界;另一方面,持续降低互动内容创作的门槛。 围绕增强“体验”,近期Loopit拓展了 “联机内容”的创作 ,支持多人互动内容的生成和发布。 陈炜鹏观察到,近几年来,用户对“体验”有个更深的需求:“人与内容的关系,从人观看内容,发展为人与内容互动,现在又扩展到人和人之间通过内容产生联系。” 比如,在Loopit平台上,有用户生成了一个全网聊天室,支持多人视频连线;也有网友制作了多人可以参与的闯关游戏。 △用户生成的联机闯关游戏。图源:作者体验 增强内容体验的同时,在陈炜鹏看来, 底层技术足够通用、内容生成的门槛足够低 ,是激发用户创作欲、���足用户探索欲的前提。 陈炜鹏认为,支持 “许愿式创作”,是驱动用户创作的核心之一 。即便用户尚未形成成熟的创意、没有创作目的,也能通过描述大致的创作需求,生成互动内容。 比如,用户只需要输入“90年代TV”,Loopit的创作引擎也能在几分钟内完善创意,生成一个可以调频道的互动内容。 △许愿式创作。图源:作者体验 Loopit背后的互动内容创作引擎,是团队自研的Coding驱动多模态生成架构,支持涵盖语言、图片、语音、视频、3D等全模态的互动内容生成。平均经过3轮对话,用户就能创作出模态、交互形式较为复杂的内容。 据陈炜鹏介绍,这一套架构,本质上是一个通用的Coding Agent与一个通用的多模态Agent的组合,“这套技术实现的门槛非常高,Coding和多模态的生成都在互相约束”。 可以看见,互动内容平台,已经成为当下最火热的AI赛道之一。陈炜鹏认为, Loopit的差异化在于,产品更为通用。 “不少产品或聚焦在小游戏、社交等具体场景,吸引的也是某一圈层的用户。”他不希望在早期就将Loopit的定位限定“死”,“我们把底层能力做得足够通用、创作的门槛降到足够低,是为了让每个普通人的创意涌现出来。” 商业模式 陈炜鹏对我们坦言,现阶段对Loopit而言,谈商业化还为时尚早:“ 过早讨论一个社区型产品的商业化,是不专业的、不懂社区的行为。 ” 在陈炜鹏看来,产品仍在快速演进阶段,未来的商业模式很大程度上会与用户结构深度绑定,而当下的任何设计,都未必能完全匹配未来。 团队更关注的是另一件事:用户是否愿意在Loopit上持续停留,以及是否在这里产生足够深的体验。“只要用户的时间和体验深度成立,商业化的答案是可以被自然推导出来的。” Founder思考 过去分发的是信息,未来分发的是体验。 过去用户和内容的关系是观看,今天的关系变成了体验和参与。用户参与内容的形式又可以分成两种:一种是人参与内容,另一种是人与人通过内容产生连接。 AI时代,做70分但通用的产品,别做90分但垂直的产品。 做90分的产品是有代价的,你会过早收敛产品的形态。在技术不完全ready的情况下,做一个90分的垂类产品会错失未来智能增长红利。 大部分Agent看起来相似,真正拉开差距的是底层抽象能力。 底层抽象能力不仅决定了系统当前能完成多复杂的任务,也决定了未来是否具备持续扩展和演化的空间。 过早把产品边界定义得过于狭窄,往往会与未来技术的发展脱节。 在互动内容赛道中,如何定义边界、从哪些人群切入,本身仍然没有共识。 不少产品选择聚焦单一场景,例如小游戏或小发明。这种路径对技术能力的要求更集中,但也意味着对内容深度和完成度的预期更高,边界更容易被锁死。 Loopit则选择另一条路径——以“Make everything playable”为核心,构建一个通用的UGC表达平台。我们更看重底层能力的通用性,以及尽可能放大创作的可能性。 对于内容平台而言,真正重要的不是某一个具体场景,而是能否持续激发创意的涌现,从而不断产生让用户产生“Aha Moment”的内容。 产品内容越复杂,内容入口就要越简单。 很多早期用户规模不小的产品最终做不大,除了市场空间限制,一个重要原因是入口过于复杂。 好的内容平台往往遵循同一原则:把复杂性封装在内容里,而不是暴露在入口上。 每一代优秀的产品设计,本质上都是技术驱动下的抽象升级。例如Feed流的出现,让用户始终在同一个认知框架内完成消费与切换,从而降低使用成本、提升分发效率,并放大平台的整体规模。 在大模型时代,这一逻辑进一步成立:产品不再由功能定义,而是成为承接能力涌现的载体。 欢迎交流!