WWW.YOUINFO.SITE
标签聚合 对标

/tag/对标

LinuxDo 最新话题 · 2026-06-08 20:27:01+08:00 · tech

云知声正式发布新一代通用大语言模型——U2。 作为面向个人、开发者与组织打造的原生智能体大模型,U2的技术主张极为纯粹:高智能密度 × 高Token价值。它不再盲目堆叠参数,而是追求高智能密度,用更少激活资源承载更强能力;不再简单比拼输出长度,而是追求高Token 价值,让每一次调用都更接近交付结果。 与传统大模型更偏向单轮问答或短链路生成不同,U2 更强调面向真实任务的连续执行能力。在复杂办公、软件工程、深度研究与多工具协同场景中,U2 能够自主拆解并推进 100+ 步复杂工作流,将需求理解、任务规划、环境交互、工具调用、过程纠错与结果验收串联为完整闭环,从“给出答案”进一步走向“完成任务”。 在最新发布的一系列国内外权威能力评测中, U2已经在多个关键能力方向进入主流大模型第一梯队: 在衡量知识与复杂推理能力的 GPQA Diamond 上,U2 取得 87.9 分,超过 GLM-5.1、Hy3 preview、DeepSeek-V4-Flash(High)和 MiniMax M2.7,展现出对高难度知识问题的稳定理解、推理与求解能力。 在衡量真实软件工程能力的 SWE-Bench Verified 上,U2 取得 75 分,进入主流模型第一梯队。 而在面向自主 Agent 端到端执行能力的 Claw-Eval(pass@3) 上,U2 取得 76.9 分,超过 Hy3 preview、DeepSeek-V4-Flash(High)和 MiniMax M2.7,进一步验证了其在工具调用、流程编排与任务交付中的稳定表现。 在面向真实办公与知识工作交付能力的 GDPval 上,U2 取得 72.9 分,展现出扎实的专业办公能力。相比传统问答式评测,GDPval 更关注模型能否完成真实工作场景中的高价值交付,包括资料分析、报告撰写、表格处理、图表生成、幻灯片制作等典型办公任务。 要让模型真正完成任务,仅靠更大的参数并不够。真实工作流往往复杂、动态且长链路:模型既要能够快速理解目标、拆解任务、搜索路径,也要能在关键节点进行逻辑校准、约束检查和结果验证。传统显式思维链虽然具备较强可解释性,但往往需要生成大量中间推理文本,带来更高 Token 消耗与推理延迟;而完全依赖隐空间推理,虽然效率更高,却可能在复杂任务中出现逻辑漂移,缺乏足够的可控性与验证能力。 为了解决这一矛盾,U2 创新引入混合思考机制。它并不是在显式 CoT 与隐式推理之间二选一,而是在同一推理过程中,根据任务阶段、复杂度和不确定性动态切换思考形态。 在任务早期,U2 优先在隐空间中进行高效探索,完成路径搜索、任务拆解、候选方案生成与执行规划,避免把每一步中间思考都解码为可见 Token;当任务进入关键判断、复杂约束处理或结果收敛阶段,模型则切换到显式推理,通过可读、可校验的推理过程完成逻辑校准、过程验证与最终决策。 进一步地,U2引入可控隐空间展开(Bounded Latent Rollout)与熵感知切换(Entropy-aware Switching)机制,使模型能够根据推理过程中的不确定性动态调整思考方式:当隐式探索稳定时,模型保持高效推理;当不确定性升高、推理路径可能发散时,则及时回到显式思维链,通过确定性 Token 完成精准推导与结果收敛。 目前,U2 已经正式上线云知声Token Hub,全面面向个人、开发者及组织开放。 云知声 Token Hub 云知声 Token Hub - AI 大模型 MaaS 平台 | 多模态模型 API 服务 云知声 Token Hub 提供文本、语音、视觉等多模态 AI 大模型 API 服务,支持语音识别、语音合成与声音克隆能力。开发者可快速接入生成式 AI 能力,构建智能应用、AI Agent 与企业级 AI 产品。 10 个帖子 - 7 位参与者 阅读完整话题

IT之家 · 2026-06-04 00:16:18+08:00 · tech

IT之家 6 月 4 日消息,苹果、谷歌、NBC 环球联合 SMPTE(电影电视工程师协会)共同开发了一项名为 Eclipsa Video 的新 HDR 视频标准,正式规范名称为 SMPTE ST 2094-50。 值得一提的是,谷歌、三星此前还联合推出了空间音频标准 Eclipsa Audio,被视为杜比全景声(Dolby Atmos)的开源替代方案。而 Eclipsa Video 则被外界认为可能成为杜比视界(Dolby Vision)的开源替代方案之一。 Eclipsa Video 将由 HDR10+ 联盟负责管理。从标准体系来看,SMPTE ST 2094-50 是 SMPTE 动态 HDR 标准家族的最新成员。该系列此前已包含 ST 2094-10(杜比视界)、ST 2094-20 和 ST 2094-30(Advanced HDR),以及 ST 2094-40(HDR10+)等规范。 关于 ST 2094-50 的首次提及始于去年。今年 5 月,谷歌首次公开确认与苹果和 NBCUniversal 共同参与这一标准开发工作。谷歌产品经理 Roshan Baliga 当时表示,该标准旨在确保用户无论使用何种设备、处于何种环境光条件下,都能够看到符合创作者原始意图的视频画面。 据谷歌介绍,该标准引入了两类新的动态元数据,相当于为显示器提供使用说明。 第一项技术被称为“Reference White Anchor(参考白锚点)”。该机制为显示设备建立统一亮度基准,将标准动态范围(SDR)内容中的高亮部分映射到固定参考点,从而为 HDR 内容预留额外亮度空间。谷歌表示,这使得 SDR 与 HDR 内容能够在同一屏幕上共存,而不会相互影响显示效果。 第二项技术被称为“Headroom-Adaptive Gain Curves(动态亮度余量增益曲线)”。内容创作者可以在视频文件中嵌入适配不同显示设备的指令。当设备亮度能力有限时,视频能够指导显示器动态调整阴影和中间亮度区域,从而保留高光细节,减少过曝和细节丢失。 谷歌指出,目前 HDR 内容在不同设备上的显示效果差异较大。由于手机、平板、笔记本电脑、显示器和电视拥有不同的峰值亮度能力,HDR 视频经常出现画面发灰、高光区域细节缺失等问题。此外,设备环境光传感器动态调整屏幕亮度时,也可能影响 HDR 显示效果。ST 2094-50 正是为解决这些问题而设计。 与杜比视界和 HDR10+ 主要聚焦电视领域不同,Eclipsa Video 初期部署重点将放在移动设备和计算平台。 HDR10+ 联盟表示,Eclipsa Video 项目将首先覆盖智能手机,随后逐步扩展至其他设备类别。首批获得 Eclipsa Video 认证的产品预计将在今年晚些时候发布,所以有人猜测 iPhone 18 Pro 将率先支持。 谷歌 Roshan Baliga 称:“我们很高兴将这一升级后的 HDR 体验带到网页端。对最终版 SMPTE ST 2094-50 标准的支持将在后续发布的 Chrome 版本中提供。” 此次合作也进一步体现出苹果与谷歌近年来在开放媒体标准领域的协作趋势。双方此前已通过 Alliance for Open Media 推动 AV1 视频编码标准和 Eclipsa Audio 等项目的发展。 值得关注的是,作为 Eclipsa Video 项目的联合推动方之一,NBCUniversal 旗下流媒体平台 Peacock 今年 1 月刚刚宣布成为首批支持 Dolby Vision 2 的流媒体服务之一。因此,Eclipsa Video 的推出也让未来 HDR 生态格局增添新的变数。目前尚不清楚该标准与即将到来的 Dolby Vision 2、HDR10+ Advanced 等技术之间将形成怎样的竞争或共存关系。

v2ex · 2026-05-29 14:15:43+08:00 · tech

1.业务背景 我们在自研一套对标 Klaviyo / Braze 的 CDP 与营销自动化平台,招一位前端工程师 Owner 整个前端架构。 从 0 搭建 CDP 平台前端,基于 React 沉淀内部组件库 主导核心模块:邮件模板编辑器、用户分群构造器、Journey 编排画布、营销效果仪表盘 与运营团队协作,把复杂业务逻辑转成易用的界面 建立前端工程规范 2. 通用能力 我们希望你: 3 年+ React / TypeScript / Vite 经验 有组件库搭建或深度二次封装经验( Ant Design / MUI 均可) 做过复杂交互模块(可视化编辑器 / 流程画布 / 低代码 / 富文本编辑器) 能独立 owner 中型前端项目 3.加分项 B 端 SaaS / 营销技术 / CRM / CDP / 数据可视化背景 熟悉 React Flow / X6 / D3 / ECharts 了解 MJML 、Liquid 等邮件模板技术 有 Klaviyo / Braze / Mailchimp 使用经验 我们的技术栈 React + TypeScript + Vite + Zustand + TailwindCSS 为什么来? 0 到 1 的真实产品、小团队大影响力、业务高速增长、海外市场。 如何联系到我? 发送简历到我邮箱 [email protected] 备注 v2ex

v2ex · 2026-05-29 12:26:08+08:00 · tech

1.业务背景 我们在自研一套对标 Klaviyo / Braze 的 CDP 与营销自动化平台,招一位前端工程师 Owner 整个前端架构。 从 0 搭建 CDP 平台前端,基于 React 沉淀内部组件库 主导核心模块:邮件模板编辑器、用户分群构造器、Journey 编排画布、营销效果仪表盘 与运营团队协作,把复杂业务逻辑转成易用的界面 建立前端工程规范 2. 通用能力 我们希望你: 3 年+ React / TypeScript / Vite 经验 有组件库搭建或深度二次封装经验( Ant Design / MUI 均可) 做过复杂交互模块(可视化编辑器 / 流程画布 / 低代码 / 富文本编辑器) 能独立 owner 中型前端项目 3.加分项 B 端 SaaS / 营销技术 / CRM / CDP / 数据可视化背景 熟悉 React Flow / X6 / D3 / ECharts 了解 MJML 、Liquid 等邮件模板技术 有 Klaviyo / Braze / Mailchimp 使用经验 我们的技术栈 React + TypeScript + Vite + Zustand + TailwindCSS 为什么来? 0 到 1 的真实产品、小团队大影响力、业务高速增长、海外市场。 如何联系到我? 发送简历到我邮箱 [email protected] 备注 v2ex

v2ex · 2026-05-29 12:06:12+08:00 · tech

1.业务背景 我们在自研一套对标 Klaviyo / Braze 的 CDP 与营销自动化平台,招一位前端工程师 Owner 整个前端架构。 从 0 搭建 CDP 平台前端,基于 React 沉淀内部组件库 主导核心模块:邮件模板编辑器、用户分群构造器、Journey 编排画布、营销效果仪表盘 与运营团队协作,把复杂业务逻辑转成易用的界面 建立前端工程规范 2. 通用能力 我们希望你: 3 年+ React / TypeScript / Vite 经验 有组件库搭建或深度二次封装经验( Ant Design / MUI 均可) 做过复杂交互模块(可视化编辑器 / 流程画布 / 低代码 / 富文本编辑器) 能独立 owner 中型前端项目 3.加分项 B 端 SaaS / 营销技术 / CRM / CDP / 数据可视化背景 熟悉 React Flow / X6 / D3 / ECharts 了解 MJML 、Liquid 等邮件模板技术 有 Klaviyo / Braze / Mailchimp 使用经验 我们的技术栈 React + TypeScript + Vite + Zustand + TailwindCSS 为什么来? 0 到 1 的真实产品、小团队大影响力、业务高速增长、海外市场。 如何联系到我? 发送简历到我邮箱 [email protected] 备注 v2ex

v2ex · 2026-05-29 10:50:29+08:00 · tech

1.业务背景 我们在自研一套对标 Klaviyo / Braze 的 CDP 与营销自动化平台,招一位前端工程师 Owner 整个前端架构。 从 0 搭建 CDP 平台前端,基于 React 沉淀内部组件库 主导核心模块:邮件模板编辑器、用户分群构造器、Journey 编排画布、营销效果仪表盘 与运营团队协作,把复杂业务逻辑转成易用的界面 建立前端工程规范 2. 通用能力 我们希望你: 3 年+ React / TypeScript / Vite 经验 有组件库搭建或深度二次封装经验( Ant Design / MUI 均可) 做过复杂交互模块(可视化编辑器 / 流程画布 / 低代码 / 富文本编辑器) 能独立 owner 中型前端项目 3.加分项 B 端 SaaS / 营销技术 / CRM / CDP / 数据可视化背景 熟悉 React Flow / X6 / D3 / ECharts 了解 MJML 、Liquid 等邮件模板技术 有 Klaviyo / Braze / Mailchimp 使用经验 我们的技术栈 React + TypeScript + Vite + Zustand + TailwindCSS 为什么来? 0 到 1 的真实产品、小团队大影响力、业务高速增长、海外市场。 如何联系到我? 发送简历到我邮箱 [email protected] 备注 v2ex

v2ex · 2026-05-29 10:50:29+08:00 · tech

1.业务背景 我们在自研一套对标 Klaviyo / Braze 的 CDP 与营销自动化平台,招一位前端工程师 Owner 整个前端架构。 从 0 搭建 CDP 平台前端,基于 React 沉淀内部组件库 主导核心模块:邮件模板编辑器、用户分群构造器、Journey 编排画布、营销效果仪表盘 与运营团队协作,把复杂业务逻辑转成易用的界面 建立前端工程规范 2. 通用能力 我们希望你: 3 年+ React / TypeScript / Vite 经验 有组件库搭建或深度二次封装经验( Ant Design / MUI 均可) 做过复杂交互模块(可视化编辑器 / 流程画布 / 低代码 / 富文本编辑器) 能独立 owner 中型前端项目 3.加分项 B 端 SaaS / 营销技术 / CRM / CDP / 数据可视化背景 熟悉 React Flow / X6 / D3 / ECharts 了解 MJML 、Liquid 等邮件模板技术 有 Klaviyo / Braze / Mailchimp 使用经验 我们的技术栈 React + TypeScript + Vite + Zustand + TailwindCSS 为什么来? 0 到 1 的真实产品、小团队大影响力、业务高速增长、海外市场。 如何联系到我? 发送简历到我邮箱 [email protected] 备注 v2ex

IT之家 · 2026-05-29 10:37:36+08:00 · tech

IT之家 5 月 29 日消息,在今日的 2026 粤港澳大湾区车展上,全新猛士 M817 开启预售, 37 万元起 。 全新猛士 M817 可选六款配色,官方主推一款“ 乌兰橙 ”,色彩取自内蒙古乌兰哈达火山群。 动力方面,全新猛士 M817 搭载 2.0T 极猛动力 ,迎来 43 项技术升级,实现 9 项同级第一。 全新猛士 M817 系统综合功率可达 715kW,轮边扭矩 13685N·m,宣称高速 161km/h 不掉电。 续航方面,全新猛士 M817 配备 62.5kWh 电池 ,纯电续航最长 301km,综合续航最长 1450km,馈电油耗最低 6.99L/100km,行业首搭宁德时代骁遥电池 · 越野旗舰版。 智能化方面,全新猛士 M817 搭载华为乾崑新一代双光路图像级激光雷达, 配备乾崑智驾 ADS 5、鸿蒙座舱 6.0 ;还有女王副驾零重力座椅、智能冷暖冰箱等配置。 全新猛士 M817 搭载磐石底盘 2.0, 全面对标百万级路虎卫士 ;同级唯一双腔空气悬架 + CDC 连续阻尼可变减震器。 IT之家附各版本配置区别如下:

LinuxDo 最新话题 · 2026-05-28 01:38:22+08:00 · tech

加入的时间应该就在这两天 昨天晚上还没有明确感受到 发个话题下一秒AI就自动编辑话题,加上了标签 以我自己的例子以及其他的一些发现: 自动识别三平台 以system的身份添加 绝对不会有人类加入大语言模型交互这种东西… 没有见过专门有人加入特定模型的 还记得我们过去有一段时间,连3级用户都不能新建标签,只能管理员添加 大概持续了一年吧 相当长的一段时间 那段时间我也一直在吐槽 不知道为什么那时候标签也想做到精华一些,不要搞泛滥了,各种乱七八糟的标签 开放了3级还好,很多人不知道自己能加标签 有些人发现自己想加的标签还没有任何人创建过,可能也有所顾虑就没加 新增的标签大部分都是精品的,有代表性的 比如 豆包 就是我第一个创建的(bushi) 但如今加入了AI,你看看他加的标签很多是没必要的 做些基础的补足,比如加个 人工智能 标签什么的是很可以的 我平常也会帮大家加这些 但开始自由创建各种新标签,我觉得没有必要 而且现在最主要要解决的一个问题(深刻阻碍了我水帖!) 闲聊区却非要添加标签 标签并没有涵盖很多场合,有时候真的是没有任何匹配的标签…话题就发不出去,就挺离谱 刚才他又想动手 因为我也立即又进行了新的编辑,所以他的被覆盖了 8 个帖子 - 6 位参与者 阅读完整话题

LinuxDo 最新话题 · 2026-05-27 10:51:28+08:00 · tech

经过价格调整,xiaomi mimo 的价格已经全面对标 deepseek,降价幅度之大是显而易见的,对于我们消费者来说,这是好事,这是值得鼓励和赞扬的。 而本文只讨论 token plan 的 Mimo-V2.5-Pro 到底比之前多出来多少额度 1,调整后的 token plan,每 token 背后对应多少 credit 1 token ≈ 56.215 (按照缓存占85%,输入占12%,输出占3%) 0.03 * 600 = 18 0.12 * 300 = 36 0.85 * 2.5 = 2.125 1 token ≈ 38.25 (按照缓存占90%,输入占8%,输出占2%) 0.02 * 600 = 12 0.08 * 300 = 24 0.9 * 2.5 = 2.25 2,调整前的 token plan,每 token 背后对应多少 credit 1 token = 2 0.03 * 2 = 0.06 0.12 * 2 = 0.24 0.85 * 2 = 1.7 3,总结: 按照85%的缓存命中计算,调整后套餐的Credit消耗是之前的28倍;如果是 90%的缓存命中,那么是之前消耗的 19倍。 调整后的 credit 是之前的 (39元档Lite 41​ 0.6=68.3) (99元档Standard 110​ 2=55) (309元档Pro 380​ 7=54.3) (659元档Max 820​ 16=51.25) 按照 Pro档计算的话,调整后的Pro是之前真实额度的 2 倍 (如果缓存命中大于 85%,则会更高;反之,则更低) 官方给的示例是 95%的缓存命中 2 个帖子 - 2 位参与者 阅读完整话题

LinuxDo 最新话题 · 2026-05-27 02:03:29+08:00 · tech

小米的一亿Credit相当于Deepseek定价的1元吧。 模型 输入(命中缓存)Token 输入(未命中缓存)Token 输出 Token MiMo-V2.5-Pro 2.5 Credits 300 Credits 600 Credits MiMo-V2.5 2 Credits 100 Credits 200 Credits 计费项目(每百万 Tokens) DeepSeek-V4-Flash DeepSeek-V4-Pro (2.5折) 输入(缓存命中) 0.02元 0.025元( 0.1元 ) 输入(缓存未命中) 1元 3元( 12元 ) 输出 2元 6元( 24元 ) Xiaomi MiMo 开放平台 模型 & 价格 | DeepSeek API Docs 2 个帖子 - 2 位参与者 阅读完整话题

IT之家 · 2026-05-25 11:18:31+08:00 · tech

IT之家 5 月 25 日消息,在今天的 2026 国际电路与系统研讨会,华为公司董事、半导体业务部总裁何庭波在题为《半导体新路径探索与实践》的主旨演讲中,正式发表“韬(τ)定律”, 这是中国在全球半导体领域首次提出指导产业发展的新原则 。 ▲ 图源:华为麒麟官方公众号 | ISCAS 2026 现场 根据规划,华为 2026 到 2035 年,随着大量探索性的技术逐步产品化,晶体管的密度将持续提升,工作频率将持续增长,将持续推出性能卓越的手机芯片。 何庭波直言:“我们的解决方案走得通,走得远。 我们新芯片的性能完全可以持续对标另外一条路径 。” IT之家注:何庭波女士出生于 1969 年,毕业于北京邮电大学,半导体物理和通信工程专业双学士、硕士。1996 年加入华为,历任芯片业务岗位(开发、研究、架构、供应链)、研发部长、海思总裁、2012 实验室总裁, 现任科学家委员会主任、ITMT 主任、半导体业务部总裁 。

IT之家 · 2026-05-24 15:07:20+08:00 · tech

IT之家 5 月 24 日消息,Meta 公司悄然推出一款名为“Forum(论坛)”的独立群组应用。该产品定位对标 Reddit,官方将其描述为“专为深度交流、真实答疑和兴趣社群打造的专属空间”。 用户登录 Facebook 账号后,应用会同步个人群组、资料与动态,也可以使用昵称发布帖子,操作方式和标准 Facebook 应用一致。官方表示,原有群组仍保留在 Facebook 平台,在论坛发布的内容也会同步展示在对应的 Facebook 群组中。 Meta 称,该应用信息流以群组对话为核心,用户能看到普通用户的真实发言,而非仅热门推送,也可便捷接续此前未完成的浏览互动。 应用内置人工智能问答板块,用户可发起提问,系统整合各大群组讨论内容生成回复。同时配备管理员智能助手,协助群主管理群组、审核内容。 这并非 Meta 首次推出群组独立应用。2014 年公司就上线过专属群组软件,方便用户跨群组分享内容,该应用已于 2017 年下架停运。 IT之家注意到,近几周 Meta 接连发布两款新应用。上月上线的 Instants 应用,支持用户向 Instagram 好友发送阅后即焚图片。 接连推出新应用,是 Meta 拓展产品线整体战略的一环。据《华尔街日报》报道,首席执行官马克 · 扎克伯格向员工表示,人工智能大幅提升研发效率,公司计划推出远超以往数量的应用软件。 据悉,扎克伯格谈及首席产品官克里斯 · 考克斯时称:“我和克里斯探讨过,我们能否开发 50 款全新应用?理论上可行。不过不会一蹴而就,会先小规模试水几款产品,再逐步加码研发。” Meta 主观认为用户需要更多应用软件,但市场需求未必如此。旗下多款新应用均模仿市面热门产品:Instants 借鉴了 BeReal 和 Snapchat 的核心玩法,去年推出的 Meta Edits 则与字节跳动的 CapCut 高度相似。

IT之家 · 2026-05-24 12:00:44+08:00 · tech

IT之家 5 月 24 日消息,荣耀终端股份有限公司产品线总裁方飞宣布:荣耀影像再次迈出重要一步,荣耀影像实验室对标阿莱 ARRI 技术实验室标准, 正式升级为电影工业影像实验室 。 据方飞介绍,阿莱向荣耀新交付的 ALEXA 系列电影机设备,将用于未来新品的研发使用。她表示,用户后续可以在 Robot Phone 和下一代旗舰上率先体验荣耀与阿莱的合作成果。 参考IT之家此前报道,今年 3 月,荣耀在 MWC 2026 现场举行了全球发布会,宣布与顶级电影摄影机厂商 ARRI 阿莱达成战略技术合作。 本次合作将率先在全球首款机器人手机 Robot Phone 落地 ,旨在融合荣耀的移动影像以及 ARRI 百年底蕴的电影摄影技术。 目前,这款“手机机器人”Robot Phone 仍处于待发阶段,不过荣耀终端股份有限公司 CEO 李健已在 5 月 15 日官宣, Robot Phone 将在三季度上市 。此次 ARRI 阿莱工作人员的到来,或将与荣耀影像实验室工作人员联合调校 Robot Phone 的影像能力。

cnBeta全文版 · 2026-05-20 15:05:49+08:00 · tech

DeepSeek内部正在组织一个新的Harness团队,方向是代码智能体产品,内部对标Anthropic旗下的Claude Code。 DeepSeek资深研究员陈德里近日也在社交媒体发布信息证实了此事,他称“DeepSeek正在组织一个新的Harness团队做Harness方向的产品和研究”,并直言“简单来说就是对标Claude Code,做DeepSeek Code Harness”。 这不是一次普通招聘。招聘信息显示,DeepSeek此次开放了两个关键岗位: Harness产品经理和Harness研发工程师 ,工作地点目前限北京。DeepSeek在北京的办公室就位于海淀区融科资讯中心,距离北大、清华都很近。在官方口径里,这里位于“百年京张AI创新带”,而在民间口径里,这里也位于最近很热的“王慧文区域”。 图片来源:DeepSeek官方招聘页面 岗位描述中,一个核心公式被放在最显眼的位置: Model + Harness = Agent。 这句话几乎可以视为DeepSeek对下一阶段产品化路径的内部定义:模型本身只是Agent的底座,模型之外的上下文管理、工具调用、任务规划、文件读写、代码修改、终端执行、反馈回收、评测闭环,才是Agent真正能进入工作流的关键部分。 招聘信息进一步写道:“我们正在把DeepSeek的前沿模型能力,转化为领先的Agent产品。这其中除模型本身以外的所有工作,都属于Harness的范畴。”此外,该岗位将参与“DeepSeek桌面端Agent产品”的全过程,并“定义DeepSeek对Harness的理解”。 “甲子光年”分析,DeepSeek不是简单要做一个代码助手插件,而是在补齐模型通向真实工作流的中间层。 过去一年,行业已经证明:代码能力强,不等于开发者会真正用起来;模型能写代码,也不等于它能持续完成一个工程任务。 真正改变开发者工作方式的,不是单独的Claude模型,而是Claude Code;不是单独的GPT模型,而是Codex;不是一个聊天框里的代码回答,而是一个能够进入终端、理解项目、读写文件、运行命令、修复错误、管理Git、调用工具的工程智能体。 DeepSeek过去最强的是模型。现在,它开始补上模型之上的那层“手”。 1.DeepSeek为什么强调Harness 在传统AI产品语境里,“代码助手”通常意味着两类产品:一种是IDE里的补全插件,另一种是聊天框里的代码问答。 但DeepSeek这次招聘中反复出现的词不是Code Assistant,而是Harness。 Harness原本在工程语境里指“测试线束”或“运行框架”,放在Agent语境里,它更接近一套让模型真正行动起来的外部系统。模型负责理解、推理和生成,Harness负责把这些能力接入真实环境。 岗位描述中提到,这个角色需要规划DeepSeek Harness产品路线图,串联研究员、工程师、开源社区与终端用户,并与模型训练团队的研究员深度沟通,实现模型与Harness的共同进化。 这句话很关键。 它说明DeepSeek想做的 ,不只是把现有模型包一层壳,而是把Agent产品本身变成模型进化的一部分。 过去,大模型公司常见的产品逻辑是:研究团队先训练一个模型,产品团队再基于模型能力做应用。但Agent时代,这个顺序正在被打破。产品不再只是模型能力的出口,而是模型能力的训练场。 一个代码Agent在真实项目里失败,可能不是产品交互的问题,而是模型对长上下文的压缩方式不对;可能不是工具调用链路的问题,而是模型对任务拆解的策略不稳定;也可能不是代码能力不够,而是它缺少对工程约束、测试反馈和用户意图的持续理解。 因此,Harness团队的价值不只是“做产品”,而是把真实开发任务变成模型持续进化的反馈源。 2.DeepSeek为什么必须补上Code Harness? DeepSeek很早就押注代码能力。从DeepSeek-Coder到DeepSeek-Coder-V2,DeepSeek在代码模型上的投入持续加码,支持语言、上下文长度和复杂任务能力不断提升。它的问题不在于有没有代码能力,而在于过去这部分能力更多停留在模型层,尚未变成开发者日常工作流里的高频产品。 DeepSeek近两年27篇论文时间线,横轴表示每篇论文或技术报告的去重作者数,颜色表示技术方向,“甲子光年”制图 Claude Code的火爆证明了一件事:AI Coding的竞争,正在从模型能力竞争,转向开发者工作流入口的竞争。 这也是DeepSeek现在必须补的一课。 更微妙的是,在DeepSeek官方出手之前,开发者社区已经替它做了一版“DeepSeek版Claude Code”。 一个名为DeepSeek-TUI的开源项目此前在开发者社区走红。 它是一个运行在终端里的coding agent,可以读写文件、执行Shell命令、搜索网页、管理Git,并通过TUI界面协调子Agent。 DeepSeek-TUI官网,图片来源:DeepSeek-TUI DeepSeek-TUI的走红说明了两个问题。 第一,DeepSeek模型在开发者心智里已经具备做代码Agent的基础。否则社区不会自然围绕它长出Claude Code式产品。 第二,DeepSeek缺的不是模型关注度,而是官方Harness。 在开发者眼里,DeepSeek-TUI的吸引力很直接:成本低、国内可用、上下文长、部署门槛相对低。国内很多开发者不是不想用Claude Code,而是受限于价格、访问稳定性、账号体系和企业合规。 但社区项目也有天然边界。 一个第三方开源项目再活跃,也很难真正掌握模型内部能力的演化节奏;它可以围绕API做适配,但不能反向决定模型如何训练;它可以做prompt、工具链和交互优化,但很难把海量真实任务反馈系统性注入模型改进。 官方Harness的意义恰恰在这里。 DeepSeek自己做Code Harness,它拥有几个社区项目不具备的优势:模型团队协作、接口设计权、训练数据闭环、内部真实任务场景,以及对开发者生态的长期运营能力。 开源社区已经先把路踩出来了: 开发者确实需要一个DeepSeek版本的Claude Code。现在,DeepSeek要把这条路收回来,做成自己的主干产品。 而DeepSeek官方开始招人,则意味着它终于准备亲自下场。 陈德里去年11月在2025年世界互联网大会乌镇峰会上就提到: “我们公司的一个核心优势就是长期主义,坚持做前沿智能突破这条主线。 而在这个过程中,我们也舍弃了很多支线上的事情,不做那些短平快的支线事情。” 模型战争之后,真正的Agent战争开始了。DeepSeek这一次要补的是从模型到行动之间最关键的一层——Harness。 DeepSeek正在给自己的模型,装上一双手。 查看评论

LinuxDo 最新话题 · 2026-05-20 10:32:53+08:00 · tech

看到io大会谷歌发布了新的antigravity,全面对标codex,早上起来立马更新看看,结果发现这个谷歌连抄都抄不明白,就算是coding出来的前端至少也修一下细节吧,,一股浓浓的劣质vibecoding味,界面搭配看的人就发晕,多跟你GPT叔叔学一下怎么做产品不行吗,,憋半年拉一坨大的恶心谁呢,连根毛都比不上codex。。 mcp在有问题的时候会挤占消息栏的布局,主聊天界面竟然会出现两个滑动条,一个粗的一个细的,粗的是整个界面滑动,细的对话滑动,不知道是怎么做的容器嵌套,直接固定住不行吗,,其他的滚动条也是,项目界面滚动条做的那么大,本身容器就窄搞的还这么粗,agent处理消息的时候运行命令和流式传输实时动态也没做大小区分,一整面一整面的字,没有一点呼吸空间,该做对比色的板块不做,完全没有区分度,用了五分钟就找了这么多问题,,完全不打磨产品,这几个月干什么去了,真是让人失望至极。。 6 个帖子 - 4 位参与者 阅读完整话题

cnBeta全文版 · 2026-05-20 02:35:52+08:00 · tech

在今年的Google I/O 开发者大会上,Google宣布加大进军网络安全领域的力度,正式向部分外部专家开放其代码安全人工智能工具 CodeMender 的 API。 这款工具最早于去年 10 月首次亮相,如今Google开始将其更广泛地提供给外部合作伙伴,并由Google DeepMind 首席技术官 Koray Kavukcuoglu 定位为一款可以“帮助保护全球代码库安全”的 AI 代理,既能发现漏洞,也能给出修复方案。 近期,Anthropic 公司意外发布的 Claude Mythos Preview 在 AI 业界乃至更广泛领域引发震动,包括多家大型银行和美国联邦储备主席在内的机构和高层都高度关注这一产品。 Mythos Preview 的核心卖点,是通过强大的模型能力在高风险系统中发现此前未知的安全薄弱环节。 由于被认为过于强大而难以全面向公众开放,该预览版本一度成为舆论焦点,同时也帮助 Anthropic 在经历供应链风险认定及相关诉讼后,逐步修复与美国政府之间的关系。 在商业层面,如果与早期企业用户及政府机构的试点合作顺利推进,Mythos 有望为 Anthropic 带来可观的收入,这也让“安全类 AI 模型”被视为未来重要的盈利支柱之一。 在 IPO 压力逐步加大的背景下,如 OpenAI 等公司希望尽快证明自身商业价值,而Google则希望在愈发激烈的 AI 竞赛中保持领先,各大实验室普遍将网络安全视为新的营收增长点。 在 Anthropic 抢先发布 Mythos Preview 之后,OpenAI 很快推出了自家的类似产品,如今Google也以 CodeMender 正式加入这一赛道。 Google此次强调,CodeMender 作为“代码安全 AI 代理”,将以 API 形式供受邀的安全专家和合作伙伴测试与集成,目标是利用大模型能力在庞大、复杂的代码库中持续扫描潜在风险,并自动给出修复建议,从而降低企业和机构在网络攻击与软件漏洞上的系统性风险。 随着这类安全模型在金融、关键基础设施及政府系统中的应用预期不断升温,围绕“谁能提供最强大的防御性 AI”的新一轮技术和商业竞争正在形成,而Google此次对 CodeMender 的高调推广,正是对 Anthropic Mythos 所掀起浪潮的一次直接回应。 查看评论