云知声发布新一代AI大模型U2,称性能对标国内顶尖模型

云知声发布新一代AI大模型U2,称性能对标国内顶尖模型
云知声发布新一代AI大模型U2,称性能对标国内顶尖模型

云知声正式发布新一代通用大语言模型——U2。
作为面向个人、开发者与组织打造的原生智能体大模型,U2的技术主张极为纯粹:高智能密度 × 高Token价值。它不再盲目堆叠参数,而是追求高智能密度,用更少激活资源承载更强能力;不再简单比拼输出长度,而是追求高Token 价值,让每一次调用都更接近交付结果。

与传统大模型更偏向单轮问答或短链路生成不同,U2 更强调面向真实任务的连续执行能力。在复杂办公、软件工程、深度研究与多工具协同场景中,U2 能够自主拆解并推进 100+ 步复杂工作流,将需求理解、任务规划、环境交互、工具调用、过程纠错与结果验收串联为完整闭环,从“给出答案”进一步走向“完成任务”。

在最新发布的一系列国内外权威能力评测中, U2已经在多个关键能力方向进入主流大模型第一梯队:

17809210806122741940562533947153
在衡量知识与复杂推理能力的 GPQA Diamond 上,U2 取得 87.9 分,超过 GLM-5.1、Hy3 preview、DeepSeek-V4-Flash(High)和 MiniMax M2.7,展现出对高难度知识问题的稳定理解、推理与求解能力。

在衡量真实软件工程能力的 SWE-Bench Verified 上,U2 取得 75 分,进入主流模型第一梯队。

而在面向自主 Agent 端到端执行能力的 Claw-Eval(pass@3) 上,U2 取得 76.9 分,超过 Hy3 preview、DeepSeek-V4-Flash(High)和 MiniMax M2.7,进一步验证了其在工具调用、流程编排与任务交付中的稳定表现。

在面向真实办公与知识工作交付能力的 GDPval 上,U2 取得 72.9 分,展现出扎实的专业办公能力。相比传统问答式评测,GDPval 更关注模型能否完成真实工作场景中的高价值交付,包括资料分析、报告撰写、表格处理、图表生成、幻灯片制作等典型办公任务。

要让模型真正完成任务,仅靠更大的参数并不够。真实工作流往往复杂、动态且长链路:模型既要能够快速理解目标、拆解任务、搜索路径,也要能在关键节点进行逻辑校准、约束检查和结果验证。传统显式思维链虽然具备较强可解释性,但往往需要生成大量中间推理文本,带来更高 Token 消耗与推理延迟;而完全依赖隐空间推理,虽然效率更高,却可能在复杂任务中出现逻辑漂移,缺乏足够的可控性与验证能力。

为了解决这一矛盾,U2 创新引入混合思考机制。它并不是在显式 CoT 与隐式推理之间二选一,而是在同一推理过程中,根据任务阶段、复杂度和不确定性动态切换思考形态。

在任务早期,U2 优先在隐空间中进行高效探索,完成路径搜索、任务拆解、候选方案生成与执行规划,避免把每一步中间思考都解码为可见 Token;当任务进入关键判断、复杂约束处理或结果收敛阶段,模型则切换到显式推理,通过可读、可校验的推理过程完成逻辑校准、过程验证与最终决策。

进一步地,U2引入可控隐空间展开(Bounded Latent Rollout)与熵感知切换(Entropy-aware Switching)机制,使模型能够根据推理过程中的不确定性动态调整思考方式:当隐式探索稳定时,模型保持高效推理;当不确定性升高、推理路径可能发散时,则及时回到显式思维链,通过确定性 Token 完成精准推导与结果收敛。

目前,U2 已经正式上线云知声Token Hub,全面面向个人、开发者及组织开放。

云知声 Token Hub

云知声 Token Hub - AI 大模型 MaaS 平台 | 多模态模型 API 服务

云知声 Token Hub 提供文本、语音、视觉等多模态 AI 大模型 API 服务,支持语音识别、语音合成与声音克隆能力。开发者可快速接入生成式 AI 能力,构建智能应用、AI Agent 与企业级 AI 产品。

Screenshot_20260608-202924

10 个帖子 - 7 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文