文|王欣逸 李嘉星 编辑|周鑫雨 一家Day 1就在做多模态大模型的公司,无法拒绝参与到具身智能和世界模型热潮之中。 2026年,随着Seedance 2.0、GPT Image 2.0等模型的爆火,多模态能力越来越成为行业内绕不开的关键词。5月19日,智象未来首届开放日上,智象未来给出了他们的判断和回答:“原生多模态是实现AGI的必经之路。” 本场开放日活动主题为“Imaging the World”,不过,对于智象未来而言,「World」的重要性,几乎要放在「Video」和「Image」之前了。 “我们的终极目标是打造世界模型。”智象未来CEO梅涛在活动中反复提及这一观点,在他的定义中,智象未来要做一家原生多模态大模型公司。 在梅涛看来,一个真正的世界模型需要同时满足多个条件:掌握物理规律、解决长时间跨度的因果推理、实现全模态交互以及绝对的安全性。 当下业界主流的世界模型训练路线可以分为李飞飞的“生成3D世界”一派,以及Yann LeCun的“自监督预测世界”一派。 智象未来则做出了不同的选择——做算法和架构层的创新,从世界模型训练中最稀缺、成本最高的多模态数据入手,率先聚焦在视频、图像、3D交互等数据的生成上,用低成本的合成数据对抗行业数据稀缺瓶颈,并从中积累一些在世界模型上可复用的视觉模型能力。 具体而言,他们要让多模态模型从构建之初就拥有理解真实世界规则的能力。原生全模态Unified Transformer(UiT)架构能做到“Any to Any”(任何形式输入支持任何形式输出),这也正是世界模型所需要的能力:在统一架构中理解、生成并预测现实世界的不同状态。 过去一段时间,他们做出了从“模型即产品”到“做Agent平台”的转变。 作为一家主要面向To B的公司,他们概括自己的打法是做一个“1+1+3”MaaS(软件即服务)平台,分别为底层的HiDream系列大模型、中间层的HiHarness企业服务平台,以及上层三大场景的应用:商业营销、影视创作、社媒创作。 概念火热的同时,资本也在不断押注。继上个月拿到安徽省产投、东方富海等机构参投的5亿人民币B轮融资之后,智象未来又火速官宣了下一轮融资,两周内再次完成亿元级新一轮融资。 一系列竞争也随之而来,当下的模型能力越来越强,在和海内外基模厂商争夺模型市场的同时,智象未来还要攥紧他们手中的新牌——MaaS平台,并瞄准视频生成领域的垂类赛道,开展和大公司的争夺战。 在智象未来开放日结束后,《智能涌现》等媒体和智象未来CEO梅涛,以及其投资人东方富海合伙人王兵聊了聊,以下为对话实录(略经摘编)。 很多具身智能公司低估了视频模型的重要性 问:在大家的认知当中,智象未来之前做图像和视频比较多,从二维的图像、视频,到三维的物理世界,你们的战略转型是怎么发生的? 梅涛: 目前大家将市面上一些模型称之为世界模型还太早了。世界模型有不同的路径,未来可能也会有多种可能性。 到今天为止, 我们不会去对外声明我们目前是一家世界模型公司 ,我们更倾向于将智象未来定义为 原生多模态大模型公司 。 智向未来更关注原生的全模态大模型及其应用领域,不过,原生多模态大模型公司在将来肯定会通往世界模型。 问:现在很多公司都自称在做“世界模型”,但外界对这个概念的定义很模糊。您如何界定智象未来所追求的“世界模型”? 梅涛: 我们会非常严谨地认为智象未来做的是原生多模态的模型,在迈向世界模型的过程中,会比较聚焦在视频、图像、3D交互这些数据的生成上。 问:智象未来从拼接式多模态升级为原生多模态,这在技术上出现了什么拐点?目前技术是否成熟? 梅涛: 多模态生成领域的技术尚未收敛,这正是创业公司的机会。如果技术完全收敛、统一采用DIT框架,我们也就没有空间了。 正因为技术没有快速收敛,我们才能通过算法创新,以少量资源实现与大厂同等的效果,而非单纯去拼数据与算力。 问:从全模态大模型到世界模型,需要还需要达成哪些成熟的技术条件? 梅涛: 第一是掌握物理规律,包括流体力学、固体力学、分子动力学和牛顿定律等,目前行业还难以全面枚举和掌控; 第二是解决长上下文的因果关系问题; 第三是实现与物理世界的全模态交互,比如机器人怎么拿起杯子、拧开盖子、倒水并判断用户需求,这离我们还有相当长的距离; 第四是安全性,机器人如果进入家庭,必须保障百分之百的安全,避免对人身或贵重物品造成损害。 我们现阶段更务实的选择是关注原生多模态问题,既能实现商业化落地,也能为未来迈向世界模型做好技术积淀。 问:很多视频生成模型公司都在卷长视频、真实性,在迈向世界模型的过程中,这些指标会发生改变吗? 梅涛: 世界模型强调的是生成世界的能力,包括逻辑关系、视觉效果等。 我们对自己的视频模型有三个维度的要求: 第一是 模型能力 ,即视觉内容的合理性、质量,与物理规律的符合度,在模型能力上我们必须瞄准天花板来做; 第二是 视频时长 ,我们目前能做到分钟级的生成,甚至在技术上可以做到3分钟、5分钟甚至无限长; 第三是 实时性与交互能力, 当模型花1分钟就能生成出1分钟时长的视频,那基本就可以实现交互了。我希望我们的产品可以朝这个方向努力,比如通过算法提供低质量的预览,用户确认后再输出高精度的2K或4K视频。 问:在训世界模型的过程中,数据是比较稀缺的资源。您认为世界模型的数据获取、清洗和标注策略,和之前训图像、视频模型相比有什么不同? 梅涛: 模型训练过程包含三个要素:算法、数据和算力。 倘若算法框架固定下来,剩下的就是在比拼数据和算力了。举个例子,如果大家都在用DiT(Diffusion Transformer)架构做视频模型的话,数据的质量、分布以及数据标注的质量,对模型能力相当重要。 不过,一旦算法和架构发生了变化,或者出现了新的架构和新的算法,数据的重要性就会弱一点。这也是创业公司的机会所在——我们不完全拼算力和数据,而是关注算法本身的创新。 回到数据层面来看,为了获取高质量真实的数据和反馈,我们做了一套工具链条,用以收集、清洗和标注这些数据。 我们拥有20万小时有影视版权的视频数据,和不少厂商保持着合作关系,同时也正寻求和头部拥有版权数据的影视公司的合作。 世界模型的数据情况与视频模型有所不同,世界模型数采需要全方位多模态的数据,成本更高,且更为稀缺。因此,智象未来在做的是,将其他厂商采集到的毫米级真人实操数据,用视频模型生成万份级不同场景、肤色的真人数据,并用这些真实数据及机器合成数据训练VLA(Vision-Language-Action,视觉-语言-动作模型)和WAM(World Action Model,世界动作模型)。 问:用纯真实数据训模型,和用机器合成数据训模型,效果会有所不同吗? 梅涛: 我们会进行小规模的验证,形成从数据到模型训练的闭环。具体来说,就是看用机器生成的数据对市面上普通的乃至最好的VLA和WAM模型有没有好处,反推去验证数据的有效性。 问:您曾提到,很多具身智能公司低估了视频模型的重要性。您为什么认为没有视频模型,具身智能很难走远? 梅涛: 现在具身智能公司的模型规模普遍很小(不到100B)。如果真要承担类似世界模型的复杂任务,靠小模型和有限的数据采集,不太可能实现广泛的泛化。 我们做的是全球唯三、能够达到千亿规模的多模态模型。如果没有一个坚实、厚重的底座模型,做具身智能很难实现很好的泛化,即便在特定场景里因为有数据采集能做一点,也很难扩展到其他场景。 多模态模型Token的毛利率,远远高于大语言模型 问:今年初,Sora的关停下架对国内视频领域的创业者产生了一定影响,这会影响投资人的投资决策吗? 王兵: 不会, 因为这是OpenAI的战略。目前在Coding领域,OpenAI被Anthropic压得很厉害。在有限的资源和竞争之下,OpenAI可能自然把短期内难以赚钱的图像、视频模型的优先级放低了。 但从去年到今年,整个图像和视频模型行业的商业化进展非常快,比如可灵、Seedance 2.0等,在收入上表现是不错的。 不过,视频生成赛道真实存在的可能是版权问题,这也是我们选择投智象未来的重要原因,智象的所有的数据都是合法、有版权的。 在大模型特别烧钱的背景下,我们特别看中企业如何用最有效的方式和大公司进行差异化竞争。具体来说,一方面,企业怎样用较低的成本做出能力比肩头部大厂的基模,并做好研发效率和资金效率;另一方面,企业能利用先进技术,快速落地到不同的商业场景中,差异化做好B端场景服务。 问:视频模型真的能赚钱吗? 王兵: 它一定会赚钱。 第一是算力成本一定会指数级下降,英伟达每年推出的芯片算力都是上一代的5-10倍,但价格几乎没有涨太多,因此算力的平均价格每年都在下降。 你今天看到不赚钱的项目,可能过两年就开始赚钱了,因为算力成本在不断下降。 第二是,过去几年,图像和视频的生成效果无法达到商业化的水准,但今年,我们可以看见包括AI短剧、短视频、电商视频的质量几乎都能实现商业化。在影视、广告等几乎所有视频领域应用场景中,AI一定会取代绝大部分的人工。 问:在视频生成行业做To B服务,毛利率能实现为正吗? 梅涛: To B的毛利率挺高的,同时,多模态模型Token的毛利率也远远高于大语言模型Token的毛利率。 问:衡量视频赛道企业是否到达商业化的节点,有什么样的标准吗? 王兵: 我们观察了这个赛道很长时间,一直没有下手的原因是,我们还不清楚什么时间点品质和成本能够达到商业化水平。 从去年开始,我就感觉那个“点”就快到了,同时我们也在等那个最合适商业化的转折点。这个“点”一定会来,而且就目前来看,它到来的时间比我们想象的要快。 从具体对企业的衡量标准来看:第一个是团队技术背景,团队是该领域的开拓者且经历了很长时间的积累;第二个是稳定性,团队的人才密度很高,能持续保持稳定;第三个是资金效率、研发效率以及团队长期的专注力。 问:您对视频生成赛道创业公司的商业化路径选择是怎么看的? 王兵: 在算力成本大幅下降之前,尽量不要在To C上和巨头公司打起来。 以智象为代表的创业公司,先做To B肯定是对的,通过做To B,企业能提升产品的逻辑能力、场景落地的能力,在没有烧很多钱的同时还能实现一定的收入。 问:平台与各大模型平台的合作模式与分成机制是什么?分佣比例方便透露吗?在电商、短剧上又存在什么样的合作模式? 梅涛: 行业共识是,没有一家厂商的模型能满足客户所有要求。所以我们打造了MaaS平台,既沉淀自研的多模态能力,也接入Deepseek等第三方大语言模型,满足客户端到端的需求。平台上沉淀了大量API与Skills,用户贡献行业技能,我们会与之分佣。 在电商短视频广告上,我们有三种收费模式:一是按Token售卖工具;二是RaaS素材服务;三是按GMV分佣,比例在15%至 30%。 短剧方面,我们现阶段主要是给承制方提供AI制作工具,目前不分佣。如果遇到一些精品短剧制作方,比如我们和安徽电视台、华策的合作,我们会联合承制和发行,这种模式下就会有分佣了。 问:您之前提到,AI时代不卷是不行的。今年你们调整了公司的战略,要做“1+1+3”MaaS平台,是什么时间点或者市场体感推动您做出这样的决定? 梅涛: 我们是科学家创业背景,习惯脚踏实地做事。但真正对我们触动比较大的是Minimax、智谱等企业港股上市表现优异。在二级市场上,大家对中国AI公司的估值和信心很强,这让我们意识到需要提升品牌叙事能力。 在一级市场的体感上,2023年大家更看重模型效果,但2024年底至2025年更看重商业化成绩,今年大家开始向海外对标模型能力。 今年,一级市场和二级市场的投资人都开始转向模型能力本身,都意识到 模型就是产品,产品就是商业化。 我们一直都是同时做模型和商业化。很难说某一家公司的模型排名始终全球第一,如果没有及早建立商业化壁垒、没有用户心智和行业属性,模型能力上去了,商业化很难跟上。我认为模型和商业化需要两手抓。 问:从卖通用工具转到开始卖端到端Agent,你们团队内部有没有battle过? 梅涛:这个争论一直有。 最开始我们觉得模型能力就是产品,因此我们把模型做成了一个简单的C端应用,结果发现并不是这样。除了开发者,普通B端用户不会自己写代码去调用模型,而是要有一个Agent作为中间层。 所以从创业第一天起,我们就坚定要 做B端的企业服务 。关于商业化的大方向我们没有任何摇摆,To B、To C我们都做,但中间我们摇摆过到底是做SaaS还是做RaaS(内容即服务),包括为什么选择做内容电商,而不是传统的货架电商。 我们踩过很多坑才发现,做货架电商其中的视频或图片可能很长时间不会更换,你很难证明其中的价值。但内容电商的客户每个月要消耗大几千条短视频,超级客户一年要几十、上千万条,这不可能都用人工来拍,这就是端到端Agent的价值所在。 问:你们想做企业服务的模式是指什么? 梅涛: 首先,我们不做定制化。我们团队规模才两三百人,但已经服务4万家的中小型企业客户、4000万个人用户以及100多家头部客户。 我们的企业服务主要包括三方面,一是直接做To 大B、To 小B或者To C模式的服务,二是和平台型企业合作,三是通过自己的平台,服务中小型客户。 在AI行业,企业服务不同于传统的B端客户,我们提供标准化的产品和服务,这些客户更像是小B或大C,可能是一个团队,也可能是一个人。 行业还没出现能一统天下的模型 问:目前国内外大厂都在布局世界模型和视频模型,智象未来准备如何面对这些愈发激烈的竞争? 梅涛: 这个问题可以拆解为两个方面: 第一,智象如何实现和大厂的共存? 我们可以把整个行业分成三层,第一层是做C端流量入口的平台,如字节、阿里、Google等有流量分发能力的公司;第二层是做底层基座大模型的公司,如Anthropic、OpenAI、也包括字节、阿里;第三层的公司在市面上多如牛毛,包括很多做Agent的公司以及做应用的公司。 我们位于第二层和第三层,既做模型,又做应用。 我们不会和大的模型厂商直面竞争底座模型,但我们会做出一些差异化的竞争。比如,我们的图像开源模型能做到全球排名第一,闭源模型也正在冲榜的过程中,目标是全球前三。在视频领域,我们正在做营销、短剧等垂类应用场景的视频模型。 第二,客户为什么和我们合作?我们是一个严肃认真做企业服务的公司,这也是客户选择我们的原因。很多人说我们公司有点像视频版的Anthropic,团队一直比较稳定,企业服务的基因也很强。 我们想靠模型能力、产品能力和生态能力,在整个商业化环境里走的更远一些。 问:在和大厂争夺获客的过程中,你们是怎么做的? 梅涛: 大公司平台不太会去做很深的应用和服务,但对于我们这类企业而言,首先要做是产品、服务,并形成闭环。例如,在商业短视频营销上,我们提供了HiBurst(智象未来的AI营销视频生产平台)服务加SaaS化(软件及服务)的工具。 我们和大厂相比的优势和差异化在于以下几个方面: 在图片领域,我们要成为客户的必选项; 在视频领域,我们则倾向于深耕部分垂类场景:一是无限长视频的生成、长思考和长时长;二是营销场景,做好“人货场”(用户、商品、渠道)的交互;三是短剧领域,我们的MaaS(模型即服务)平台,能优化、编排自研和第三方模型。 总体来看,在To B上,我们既做自己的产品,也做整个行业的生态。我们的策略是,在接入自家产品的同时,也接入第三方模型公司的产品,为用户提供一个端到端的产品和服务。 问:您提到做平台是为了补齐短板,但相比于其他打出“降本”口号的平台,你们如何说服用户付费,并选择你们平台上的生态伙伴? 梅涛: 我们跟大厂在平台上竞争意义不大。首先,我们构建了完整的产品能力,能支撑业务快速迭代;其次,我们提供的是差异化模型能力,比如智象的图片模型在性价比上具备国际竞争力,在视频领域,无论是直播场景、漫剧还是特定内容创作,我们都有大厂覆盖不到的细分优势。目前行业还没出现能一统天下的模型,这给了我们差异化生存的空间。 更关键的是,我们沉淀了大量Skills和行业Knowhow,这也是我们与客户共创的核心。特别是在短视频营销和AI短剧领域,我们通过分析特定区域、国家及类目的爆款逻辑,提供爆款创意裂变方案。这种对爆款规律的把控能力的价值,或许远远大于单纯的内容生产。
文|王欣逸 编辑|邓咏仪 36氪获悉,未来式智能(AutoAgents.ai)近日完成Pre-A轮融资,新进投资方包括凡创资本、中关村资本、探元资本,老股东东证创新、麟阁创投跟投,本轮融资主要用于算力投入、团队扩张以及新产品的生态建设运营。 未来式智能成立于2023年6月,专注于以智能体技术赋能知识工作者。核心团队来自达摩院、腾讯、字节跳动和谷歌。创始人兼CEO杨劲松曾在达摩院担任产品/商业化总监,曾任字节飞书AI负责人、亚马逊AWS aPaaS平台负责人,主导推出阿里灵杰、通义-Alicemind,在AI产品和商业化方面有着多年经验。 作为核心产品之一的企业级智能体搭建平台“灵搭”,旨在解决企业部署和应用大模型时的核心诉求:数据安全隐私、权限分级管理、复杂系统集成,以及智能体在真实业务场景中的交付稳定性。 “灵搭”从诞生之初便一直把重点放在企业客户,尤其是电力、金融、制造等对稳定性和合规要求极高的行业。 时间回到2023年,当“百模大战”正酣、大多数创业者和投资人涌向大模型赛道时,杨劲松做出了一个与众不同的决定——不做大模型,做Agent。 在阿里达摩院亲手训练大模型的经历让他看到:大模型会成为基础设施,但并非最终消费形态,企业需要的是一套能交付结果的系统,这正是Agent所能解决的问题。 灵搭定位为面向业务人员的低代码AI智能体开发平台。区别于Coze、Dify等画布类产品,灵搭更看中非技术背景用户的需求,目标是降低业务人员构建和使用Agent的门槛。 在产品能力上,灵搭提供20+标准模块节点,涵盖用户提问、AI对话、信息分类提取、知识库搜索、文档审查、图片识别、数据库查询等,并支持Text2Agent自然语言生成工作流与Skills技能引擎,将原本需要IT团队或外部实施团队完成的繁琐工作,转到更接近业务现场的人手里。 在架构层面,灵搭采用了“云+端”的设计:云侧积累、沉淀组织内的核心知识资产——包括Agent、专属Skill和工作上下文等;端侧让员工通过本地客户端直接安全调用企业的全量知识库,并在日常高频的业务摩擦中沉淀出新的Skill,最终回流至云端知识库。 在B端战场,未来式智能已在多个垂直行业实现标杆场景的规模化落地。从种子客户华东电网的合同审核项目开始,灵搭已覆盖超过20家电网客户,续约率100%,市场占有率位居Agent产品前列。 2024年未来式智能实现数百万元营收,2025年增长达4倍,全盘收入已来自电力、金融、制造等多个行业,今年(2026年)的目标是冲击亿元。 在B端大客户上积累了深厚的行业经验与典型模板后,未来式智能于近日正式推出了另一款重量级战略新品——AI数字专家市场“袋袋”。 如果说“灵搭”是AI数字劳动力的生产工厂,为企业提供搭建、管理Agent的底层平台;那么“袋袋”就是Agent用工平台,将人类专家的深度认知数字化,封装为可以直接交付结果的数字员工,用户可以直接在平台上“领一个数字专家回去干活”,按需雇佣并按结果付费。 今年以来,OpenClaw等Agent工具一度火热又很快降温。杨劲松认为,未来绝大多数用户应该是“用”Agent而非“养”Agent,袋袋正是这一理念的产物。 袋袋平台目前提供两种模式:应用模式用于处理报关单、报税等特定场景的高效任务;专家模式则深度承接AI视频生产、电商营销素材生成、自媒体运营、投资尽职调查等复杂岗位职能。 据悉,袋袋团队目前已和近百位人类专家达成合作,帮助专家将能力数字化以实现知识变现。在早期种子客户的验证下,袋袋已跑出超千万元的ARR势能。 “灵搭”与“袋袋”的并行,构成了未来式智能独有的“约束工程(Harness Engineering)”协同飞轮。 这一概念的内涵是:用真实场景产生的海量任务数据,反向打磨Agent的每一步决策。 两条产品线将形成协同闭环——袋袋产生的用户数据与任务轨迹,实时回流以迭代灵搭的底层模型与Agent能力;而灵搭上进化出的更强智能体组件,则重新上架至袋袋供用户使用。在这种双轮驱动下,平台生产的数字员工任务成功率已从最初的72%大幅跨越至91%。 从客户画像来看,“灵搭”的客户主要集中在能源、金融和制造业等行业,如国家电网、大型银行和券商等头部机构;“袋袋”则把早期客户优先框在小B端和C端客户。今年,灵搭希望推动产品进入行业规模化复制的阶段,将已有的方法论和工具向券商、银行等机构快速推广。 杨劲松表示,Agent生意的本质是“算力兑换人力”。以华东某企业客户为例,在使用AutoAgents的方案后,某项业务的人力成本降至原来的十分之一。 “目前的基模能力已经远可以胜任客户需求,问题在于是否足够深入场景和稳定交付。”杨劲松告诉《智能涌现》。随着Token成本下行,Agent的ROI将展现出极高且不可逆的趋势。 当AI承担了越来越多的基础工作,组织的人才画像也在随之改变。未来式智能将基于长期积累的场景和数据,在具体垂直任务上实现行业内的最优交付水平。 杨劲松判断,随着Agent能力持续提升,组织内的初级任务或将由AI完成,企业会更看重员工的高阶能力——对业务的深层理解、指挥AI、检查AI结果、审美判断,以及如何利用Agent优化既有业务流程。
文|王欣逸 编辑|苏建勋 龙虾热还在继续。 4月16日,荣耀进行了一场史上最短的发布会,正式发布此前预热的“养虾本”——荣耀MagicBook系列轻薄本。 即便OpenClaw已经刷屏了两个多月,但对于普通用户而言,要养一只原装龙虾,并没有想象中的容易。 不少软件和云服务厂商赶上热度,推出一键部署的龙虾。但对终端厂商而言,下场做龙虾和“养虾本”,荣耀是第一家。 据悉,荣耀MagicBook数字系列是荣耀首款“养虾本”,出厂即配置荣耀自研龙虾YOYO CLAW,荣耀MagicBook 14 | 16 2026款售价5949.15元起。 作为一家终端厂商,荣耀一直在AI PC有所布局。 2026年初,OpenClaw横空出世。3月10日,荣耀紧随小米Claw、华为鸿蒙小艺Claw其后,宣布要推出“龙虾宇宙”,支持PC一键养虾、平板养虾、手机养虾等功能。3月27日,荣耀Agent助手YOYO Claw开启封测。 4月13日,在荣耀PC技术交流分享会上,荣耀再次提及了龙虾宇宙的构想,首次提出“龙虾PC”的硬件品类,并展示了PC端YOYO Claw的功能。 “养虾本”里的龙虾,并非是此前推出的YOYO Claw在电脑端的复用,而是完全重写的、针对PC端的一个AI助手。 开箱即用,意味着用户拿到“养虾本”后无需任何操作,就拥有了自己的龙虾助手。 扫描二维码登陆后,用户就可以用微信、飞书等工具直接调用Agent工具。YOYO Claw内预设了5大主虾、23个子虾,并具备自主进化能力,能通过理解用户的记忆,实现“越用越顺手”。 除了“上手难”的问题,烧Token,是另一个让用户们对龙虾望而却步的原因。 值得一提的是,YOYO Claw采用了端云协同方案,能智能判断任务该在哪里执行,实现Token的高质量消耗。根据荣耀公布的信息,在执行任务的过程中,相比OpenClaw,YOYO Claw能节省平均50%的Token消耗。 此外,为了实现安全养虾,荣耀还做了一个“独立安全虾”,专门在用户设备上做安全防护,能全程盯着Agent的操作,阻挡格式化硬盘、重装系统等高危动作。 在分享会上,荣耀PC产品总经理朱臣才提到,在Agent时代,PC,不仅是Personal Computer(个人电脑),也是Partner Creator(创作伙伴)。 △荣耀PC技术交流分享会现场,图源:智能涌现拍摄 看见Claw在普通人中应用的最后一公里 “龙虾热”的背后,是普通人养虾难的现实。 未来的大模型能力一定会越来越强,但是模型操控电脑、执行展示等一些基本的工作仍然存在。普通用户不需要一个所有功能配置拉满的应用,而是更看重高效、经济、稳定性几个指标。 荣耀的核心用户群体是基础办公人群和大学生,办公场景和论文相关需求是高频应用。因此,在YOYO CLAW的预设Skill上,荣耀瞄准了教��、办公、学术、内容创作、智能辅助五大场景,并延伸出23个Skills。 落到具体的功能上,YOYO Claw可以化身为办公虾、教育虾、学习虾、健康关怀虾,可以是大学生论文助手,也可以是金融炒股高手。 以大学生写毕业论文这个具体的场景为例,用户只需要输入提示词,龙虾就可以完成从文献下载、解析,到论文撰写、图表生成,最后到论文排版、PPT生成上,实现一站式应用。 从垂直虾做起,是为了打通基础工具链。 除了五大垂直场景的Skills预设,YOYO Claw也支持用户安装OpenClaw生态里的其他Skills,以补充其他没有覆盖到的场景。 回到YOYO Claw的开发策略来看,它既有OpenClaw的开放Skills兼容,又有Hermes Agent的安全严格和自研系统机制。 其采用了“端云模型协同,端侧优先”的方案,在使用过程中,本地端侧模型可处理语义搜索,减少云端推理轮次。 简单、高频且涉及本地操作的任务,YOYO Claw会主动选择100%在端侧完成,只有在需要用到云端算力的情况下才会调用云端模型。它还会通过对上下文的优化、记忆匹配等方式,来放大云端调用的效率。 相比OpenClaw,平均情况下,YOYO Claw可以实现Token消耗节省50%,在极致情况下可省90%以上。 △荣耀YOYO Claw和OpenClaw对比,图源:官方 此外,安全养虾,也是荣耀龙虾宇宙里一个重要的部分。 YOYO Claw设置了独立的三层记忆系统, 能支持对本地数据的理解,不会主动抓取第三方应用的数据。这些记忆和理解能力都需要用户授权,且都保留在端侧。 不仅如此,YOYO Claw还内设了一个无法被篡改的“安全虾”,在用户自行安装Skills时,系统会扫描Skill包里是否含恶意代码,在运行时,“安全虾”也会拦截异常的脚本操作。 易用性、省Token、安全性,支撑起用户长期、高频使用YOYO Claw的需求。 终端厂商做Claw的价值:没有注定被AI淘汰的人 在2026年GTC大会上,黄仁勋将OpenClaw比作Agent计算机的操作系统。 不过,AI的普及,关联到用户、设备、Skills/生态、模型四个维度。要实现黄仁勋这一判断,单靠一家互联网厂商、模型厂商或者终端厂商远远不够。 例如,垂直场景的应用需要依赖专业的数据源,这关联到的是垂直应用厂商,并且数据的质量可以直接影响到效果的好坏。 对于荣耀这样的终端厂商而言,他们擅长的是打通用户链路、降低成本并提升设备的耐用性。 荣耀中国区CMO雷铮斯提到,“未来的3至5年,PC、手机和平板仍然是人和数字世界进行交互的核心媒介。”荣耀要做的是,看见Claw落地的最后一公里:基于数亿用户的数据,把大模型的能力落地到真实生活场景,实现AI工具的易用性。 这也正是终端厂商的价值。假设把OpenClaw安装到一个算力不高的设备上,在执行任务时,它会疯狂地烧本地的算力,电脑界面甚至会完全卡住。 从硬件来看,终端厂商做“养虾本”有天然的优势——可以对系统进行资源的调度。因此,在响应速度上,PC端的YOYO Claw比搭载OpenClaw的笔记本响应速度更快。 不仅如此,荣耀近日推出的Magic视界桌面界面也让AI助手的调用更加便捷,用户在桌面和菜单栏上可以随时调用出AI工具,实现“服务找人”。 跨设备生态,是另一件荣耀正在做的事。 在过去一段很长时间,荣耀在全场景终端设备上一直在做数据上的互联互通。Agent时代,这一能力正在更进一步,并升级为记忆和Skill的互联互通。 例如,用PC后台跑项目的同时,用户可以通过手机端的YOYO Claw,基于云端记忆下发指令。 这种生态不只存在于个人多端的设备上,荣耀要做的是一个服务全家的AI助手。 据介绍,在家庭联动的模式下,全家多人可以共有一台PC,所有家庭成员都可以通过手机、平板等设备与PC端的龙虾互动,同时做到一人一虾的专属独立。家庭相关的记忆数据都存储在这台PC中。 △“养虾本”能实现多端共享Skills、记忆等功能,图源:智能涌现拍摄 目前,PC端的YOYO Claw已经率先在新品笔记本上推出,在功能稳定之后,旧机型随后也会进行功能的更新适配。 现有MagicBook Pro 16/14可运行约30B参数模型,能解决的场景还比较少。未来,PC端侧可能会逐渐发展到100B以上模型,并在端云模型中不断做平衡,逐步减少云端的依赖。
文|王欣逸 编辑|邓咏仪 36氪获悉,近日,攀峰智能已完成数千万元天使轮融资,本轮融资由华控资本领投、云时资本跟投,将用于模型研发、团队增长以及市场扩张。 攀峰智能(K2 Lab)成立于2025年10月,成立仅一个月,便拿到了来自云时资本的数千万元融资。其三位联合创始人均来自阿里钉钉团队。CEO王铭曾是钉钉最年轻的副总裁,在钉钉近五年间负责AI创新产品、SaaS生态、大模型与AI生态、产业生态和战略终端等业务;联合创始人兼CSO汤明磊,此前深耕产业数字化和产业AI的投资与研究十年,在钉钉期间负责战略生态和投资;联合创始人兼CTO赵先烈,曾任钉钉AI PaaS及AI运营负责人。 攀峰智能面向To C市场,打造了一个内容电商场景的Agent OS——Moras。Moras为TikTok上的达人和商家服务——用户只需通过和Moras互动,它便能实现自动化学习,完成选品推荐、脚本生成、内容创作、智能剪辑、视频预检和发布、数据分析等环节,实现出单。 目前,Moras的用户画像主要为粉丝体量在五千至五万的达人和商家群体,带货品类涵盖服装、生活用品、家居、节日用品等。 过去三个月,Moras已完成了首批达人用户的共创测试。邀测用户数据显示,活跃达人通过使用Moras平均月度成交GMV接近1万美元,有达人实现了月度GMV突破10万美金的成绩。 从具体数据来看,有达人实现了注册首周GMV破万美元,使用Moras的首周出单率已经达到了70%以上,而这一时间还在继续变快。 Moras采用的是Multi-Agent架构,能实现自主进化。随着达人互动频次的增加,这一工具的选品、脚本、分析等能力会逐渐增强,出单能力也随之提高。 而受OpenClaw和Claude Code的Agent能力启发,攀峰智能如今也在快速革新,已着手建立起A2A原生电商操作系统,来服务更广泛的客群。 “人类不想in the loop” 在邀测阶段,攀峰智能发现海外用户对操作流程的容忍度远比预期更低——哪怕只是多一步确认,用户也倾向于放弃。 “人类不想in the loop。”王铭说。在王铭看来,目前阶段,AI还没有替代人的能力,但AI能把人的短板补齐,把人的长板超级放大。 Moras产品最初的测试版本设计的比较简单,尽管如此,海外的用户依然觉得很复杂,这也让他们意识到另一种商业模式的可能:AI“雇佣”人类。 成立之初,Moras设计了两种提供服务的方式,原意也是想测试哪一种更适合市场: 第一种是用户为Moras付底薪,让Moras起协助作用,如调整选品、制作视频等,即 人类雇佣AI ,这种方式平台会抽成50%。 第二种则是Moras完全托管,包括账号资产、形象等,AI完全帮助用户做内容、带货,即 AI“雇佣”人类 。在这种模式下,用户只能拿到极低比例的分成收益。 在邀测阶段,攀峰智能将两种模式同步测试,有意思的是,选择第二种商业模式的用户越来越多。 这意味着,在这一场景下,Agent能力越来越强,Human反而不想in the loop(人类不想参与决策)。 “但人类不想in the loop,并不意味着AI可以完全脱离人类。”王铭说,在实际使用过程中,达人和商家授权登录Moras后,平台会通过多模态理解分析粉丝画像、过往视频的用户画像和视频调性,来推送个性化的选品。其中,达人和商家仍然拥有对选品、文案、视频的倾向性,可以对内容进行审核、修改调整。 王铭告诉《智能涌现》,Moras正在灰度测试另一个版本,达人和商家可以直接和平台对话,告诉Moras个性化的风格、审美和表达方式等。未来可能还会上线更复杂的PC端操作系统,支持用户上传专业知识和Skills等。 坦白来讲,Moras目前有60分的带货能力,这或许能让它帮达人实现几千到一两万美元的月度营收,但离稳定输出大几万美元的能力还有一段距离。 对于Agent而言,“活人感”“网感”等独特的表达方式和销售能力很重要,要实现这些能力,还需要大量和人类的连接——这也是攀峰智能正在自研电商场景多模态理解模型的原因。 而在内容电商场景中,理解什么是爆款、理解用户的风格和审美,远比生成本身更关键。 王铭认为,AI雇佣人类的结果会是,人类发现AI真的能赚钱,随即被带入行业之中来,对Moras提出更多诉求,同时也参与到创收的更多环节中来。 为了让产品离钱更近,王铭还透露,Moras正在 训练一个自研的电商场景的多模态理解模型 。 在他看来,通用模型更多的是优化生成能力,忽略了理解世界的能力,本质上还是在批发Token。如果产品只是在帮助用户更低门槛消耗Token,而不是帮助用户提高效果,最后作为批发商,Token的ROI大概率很低。 这也反映了攀峰智能路线的本质不同:选择了做离商业化更近的事情——自研爆款理解模型、爆款商品和爆款脚本,从最开始就专注于效果的打磨,让模型理解爆款的逻辑。 王铭表示,当前攀峰的团队中,有来自字节的多位内容电商专家,将专家的最佳实践让AI学会后,由AI来做选品模型;人类专家则变成AI的数据标注员,判断AI选出来的商品,哪些是真正的爆款。与此同时,所有发出去的内容的数据结果会回流到分析Agent,再反馈给前面的选品模型,形成自进化闭环。 用户愿意付费,产品能带来盈利,Token本身价值随之提高 ,这就形成一套“ROI Token 经济学”。 而对于大厂的竞争,王铭表示,目前,大厂的第一优先级仍是抢夺AI入口,AI+电商的垂直场景尚未进入其核心视野,这也正是中小企业切入垂直场景的窗口期。 自建Personal AI系统 今年初,OpenClaw横空出世,其架构由Channel层(通道层)、Agent层(智能体层)和Tools层(工具层)组成,实现了一个完整的AI操作系统,迅速引发了行业对Agent OS的广泛讨论。 这给攀峰智能的产品带来了新的启发。王铭表示,团队也尝试过基于OpenClaw进行开发,但发现其现阶段还无法达到稳定的企业级使用标准,基于OpenClaw做简单二开的产品,短期内仍难以真正落地。 攀峰智能并没有走把所有产品基于OpenClaw架构重构的路线,而是借鉴了类似OpenClaw、Claude Code、Hermes Agent等架构的设计思想——包括多层记忆架构、做梦机制等——自己开发完整的Agent OS。具体来说,他们想 把内容平台生态的超级个体和商家的Context信息Agent化,整合接入,形成达人和商家的“Agent OS” ,用一个扎实的OS系统来服务好客户群体。 在王铭的构想中,Personal AI的Memory做好了,A2A(Agent to Agent)的世界才会出现。目前,用户使用ChatGPT、Gemini、豆包等中心化AI助手时,不仅需要多平台切换,不同平台给出的答案可能还会出现冲突,且记忆无法跨平台沉淀。 倘若一个系统中不同模型能被自动调用,生成结果可以被自动做对比和整合,并持续积累历史上下文,用户的体验将会发生质变。 “未来,每个人可能都会拥有这样一个消费级的通用Personal AI(个人AI)助手,也会拥有一批垂直场景的Agent OS。”王铭解释,Personal AI的系统能支持用户自由调度模型、用自然语言添加Skills、拥有长期的个人记忆等功能。用户能够更好地使用产品,也才能更好地被留在平台上。 基于这样的判断,攀峰智能对其产品作出了方向调整——要帮达人和商家建立属于自己的Agent OS,进而自建Personal AI系统。 未来,攀峰智能计划将产品作为Skill接入到OpenClaw、Hermes Agent等去中心化的Personal AI生态中,相当于把一批商家和达人的数字分身直接带到下一个时代的流量入口里去。 王铭认为,Personal AI系统的不断完善,正是实现 A2A 的重要基础。从更近的目标而言,Personal AI的下一步,是实现真正的A2A(Agent to Agent)的商业系统。 用Agent开发Agent 除了产品方向的变化之外,攀峰智能的开发范式也在经历剧烈的重构。 尽管公司才成立数月,但他们已经经历了3个阶段的开发范式演进:第一阶段是AI Coding几乎没有约束,什么都交给AI去做,结果各种bug的速度让人改不过来;第二阶段是引入rules和结构化约束,借鉴了Harness的思想以及Claude Code泄露出的架构,用更多的条条框框去驾驭Agent;第三阶段则是通过通过自研的开发Agent调用Coding来开发Agent,最后交给人类做验收。 王铭表示,目前公司99%以上的代码都是由AI编写,甚至很多开发工作不是由程序员完成的——产品经理、人力资源、财务、运营同学都在开发系统。而在最新的阶段,他们开发了专门的Coding Agent,能够在某个垂直场景里持续地帮助开发和迭代,周末团队休息时,Agent还在工作。 随之而来的,生产力正在指数级提升。一个原来需要两周实现的复杂需求,开发时长能缩短至1天。 毫无疑问,大模型的发展速度,仍然是跳脱于人类想象的。对接下来的Agent技术曲线演进,王铭分享了他对于今年Agent发展的三个判断:其一,Agent的Memory会有巨大突破;其二,Multi-Agent自主进化能力会日趋成熟;其三,Agent自己Coding出各种工具,来解决响应问题。千人千面个性化产品的时代快速到来。 对于未来发展计划,团队透露,下半年攀峰智能将持续扩张团队至50人以上,并加速打造Agent OS系统。随着产品全量上线,公司也将进入快速市场扩张期,同时着手搭建Agent化的供应链体系,抢跑A2A原生电商。