WWW.YOUINFO.SITE
标签聚合 上线

/tag/上线

V2EX - 技术 · 2026-06-11 14:40:35+08:00 · tech

主流的"测试" vs 我的"6 阶段" 很多团队的测试流程是 3 段式: UT → 集成 → 上线 每阶段都做"测试"——只是测试对象不同。 我的判断不一样: ▌ 测试不是"测一遍"—— ▌ 是按 6 个阶段性质拆分, ▌ 每阶段有"该阶段独有、其他阶段无法替代"的验证内容。 不是 6 次相同动作 —— 是 6 类不同性质的验证 。 6 阶段是什么 ┌──────────────────────────────────────────────────────────┐ │ │ │ ① 单元测试 ── 验证"函数内部" │ │ ↓ │ │ ② 集成测试 ── 验证"跨网络" │ │ ↓ ← 比对工具进场 │ │ ③ Code Review ─ 验证"设计 + 性能" │ │ ↓ │ │ ④ 他测 ────── 验证"用户视角" │ │ ↓ ← 比对工具回访 │ │ ⑤ 灰度 ────── 验证"生产数据兼容" │ │ ↓ ← 比对工具在线 │ │ ⑥ 上线观察 ── 验证"业务大盘波动" │ │ │ └──────────────────────────────────────────────────────────┘ 每阶段独有验证内容: 阶段 性质 独有验证 ① 单元 函数内部 UT 覆盖率 + 冒烟 + 功能埋点 ② 集成 跨网络 跨服务冒烟 + DML 比对 ③ Review 设计性能 设计审查 + 性能分析 + 回滚方案 ④ 他测 用户视角 提测文档 + Test Case + 修复后再比对 ⑤ 灰度 生产数据 时间窗口 + 分工 + DML 在线比对 ⑥ 上线 业务大盘 6 项指标 + 四方确认 → 第 ②④⑤ 阶段的"比对"动作,就是上一篇讲的"比对工具体系"。 → 第 ⑥ 阶段是大多数团队最常省的——本文重点讲它。 阶段拆分的核心标准 我自己的判断标准很简单: 两个阶段如果验证内容重叠 —— 说明阶段拆分错了。 举个例子:很多团队把"集成测试"和"他测"混在一起做—— 都让测试同事跑一遍。 但这两个阶段性质完全不同: 集成测试是 "跨网络"性质 —— 关心服务调用、数据穿透是否对 他测是 "用户视角"性质 —— 关心 case 覆盖、修复后再验证是否对 合在一起做的代价: 集成阶段没暴露的跨服务 bug,会被他测的"用户场景"掩盖 —— 等到灰度才发现,代价是集成阶段的 N 倍。 第 6 阶段最贵 —— 也最被忽视 很多团队的"上线观察"=刷一下监控大盘。 我的版本: 6 项指标 + 四方确认 。 6 项观测指标: 1. 产品功能有没有执行 2. 数据有没有问题 3. 系统有没有性能问题 4. 跨系统交互有没有影响 5. 财务大盘是否波动 ← 关键! 6. 业务大盘是否波动 ← 关键! ▌ 把"财务大盘 / 业务大盘波动" ▌ 作为发布观察指标 —— ▌ 这是大多数团队最常省的一步。 因为这两项指标"看起来不归技术管"。 但实际上 —— 80% 的"上线后才发现"的事故,在前 4 项指标 里全是绿的,只有第 5 、6 项暴露异常 。 例子: 某次上线某个改动,前 4 项指标全绿; 3 天后才发现财务对账差异—— 这种 bug 在 UT/集成/灰度 都看不出来 ,只有"业务大盘"能看见。 四方确认 —— 不是签字流程 四方确认 = 开发 / 测试 / 技术 TO / 产品 都同意才能"上线观察通过"。 听起来像 PPT 流程,但 反共识在于 : ▌ 测试同意 ≠ 验收通过 —— ▌ 业务大盘没波动,不代表产品认为"功能符合预期"。 ▌ 产品同意 ≠ 验收通过 —— ▌ 数据正常,不代表开发认为"性能达标"。 四方共同确认—— 任何一方说"我看到的不对"——就回退 。 我经历的项目里,真发生过 "3 方都过了,产品最后说不对" 的情况。如果没有四方流程,这个回退根本走不动。 反共识在哪 主流:测试 = UT + 集成 + 上线(3 阶段) 我的版本:6 阶段,每阶段独有验证 主流:每阶段都做"测试"动作 我的版本:每阶段对应 该阶段性质独有 的验证手段 主流:上线观察看"是否有大故障" 我的版本: 6 项观测指标 + 四方确认 主流:业务大盘归运营管 我的版本: 把"财务大盘 / 业务大盘"作为发布观察指标 主流:验收 = 测试通过 我的版本: 四方确认 (开发 / 测试 / 技术 TO / 产品) 什么时候不该用这套 也踩过坑。 某次内部小工具改动,代码量不到 200 行。 我也想搞 6 阶段——leader 直接说:"过度。" 事后是对的。 我的判断: 核心业务系统改造 → 必上(尤其涉及财务 / 业务大盘) 跨多研发角色的项目 → 必上(否则四方确认走不通) 内部工具 / 后台脚本 → 别上(单人项目,4 阶段够) DDL 类无法灰度的改动 → 跳过第 5 阶段(灰度),其余照走 不影响 KPI 的小项目 → 简化为 3 阶段(UT+集成+上线) 阴面 · 这套也有副作用 我自己用了这套 4 年,踩过的坑: 重型流程 —— 小项目用不上,6 阶段成本太高 跨公司不通用 —— 没有"四方确认 / 业务大盘"概念的公司套不进来 可能流于形式 —— 团队成员把 6 阶段当 6 个 checkbox 而非 6 类性质 决策慢 —— 至少 6 次评审 / 检查 最后一条最关键 —— **6 阶段的代价是"决策周期变长"**。 所以才有上面那句:"小项目别上 / 不影响 KPI 的项目简化为 3 阶段"。 写在最后 把测试拆 6 阶段,不是为了"显得专业"—— 是因为我经历过太多次: "你那阶段不是测过吗?怎么还出问题?" 仔细看,会发现: 那阶段测的不是这一类问题 。 每阶段性质不同 —— 验证手段就该不同。 6 阶段是"性质拆分",不是"动作拆分"。 跟"渐进式改造"和"比对工具"一样,这是一套 关心可逆性、关心 追溯性 的工程纪律。 写到这,我也不太确定 6 阶段对所有团队都成立。 我经历的项目都是"核心业务系统 + 跨多角色 + 业务大盘敏感"—— 这种场景 6 阶段几乎是必修。 但创业团队 / 内部工具 / 没有"业务大盘"这个概念的公司—— 搞这套可能反而是负担。 这点我自己也还在想。 下一篇打算写 17 类业务迁移分类—— 跟 6 阶段是一对:6 阶段是 纵向 (时间),17 类是 横向 (业务域)。 两者合起来才是完整的迁移管理体系。 (以上 SOP 都做了脱敏。 如果你做过核心系统改造,欢迎评论区聊聊你们的验收流程长什么样, 特别想听 6 阶段简化为 3 阶段后,踩过的坑 。)

V2EX - 技术 · 2026-06-11 13:40:35+08:00 · tech

主流的"测试" vs 我的"6 阶段" 很多团队的测试流程是 3 段式: UT → 集成 → 上线 每阶段都做"测试"——只是测试对象不同。 我的判断不一样: ▌ 测试不是"测一遍"—— ▌ 是按 6 个阶段性质拆分, ▌ 每阶段有"该阶段独有、其他阶段无法替代"的验证内容。 不是 6 次相同动作 —— 是 6 类不同性质的验证 。 6 阶段是什么 ┌──────────────────────────────────────────────────────────┐ │ │ │ ① 单元测试 ── 验证"函数内部" │ │ ↓ │ │ ② 集成测试 ── 验证"跨网络" │ │ ↓ ← 比对工具进场 │ │ ③ Code Review ─ 验证"设计 + 性能" │ │ ↓ │ │ ④ 他测 ────── 验证"用户视角" │ │ ↓ ← 比对工具回访 │ │ ⑤ 灰度 ────── 验证"生产数据兼容" │ │ ↓ ← 比对工具在线 │ │ ⑥ 上线观察 ── 验证"业务大盘波动" │ │ │ └──────────────────────────────────────────────────────────┘ 每阶段独有验证内容: 阶段 性质 独有验证 ① 单元 函数内部 UT 覆盖率 + 冒烟 + 功能埋点 ② 集成 跨网络 跨服务冒烟 + DML 比对 ③ Review 设计性能 设计审查 + 性能分析 + 回滚方案 ④ 他测 用户视角 提测文档 + Test Case + 修复后再比对 ⑤ 灰度 生产数据 时间窗口 + 分工 + DML 在线比对 ⑥ 上线 业务大盘 6 项指标 + 四方确认 → 第 ②④⑤ 阶段的"比对"动作,就是上一篇讲的"比对工具体系"。 → 第 ⑥ 阶段是大多数团队最常省的——本文重点讲它。 阶段拆分的核心标准 我自己的判断标准很简单: 两个阶段如果验证内容重叠 —— 说明阶段拆分错了。 举个例子:很多团队把"集成测试"和"他测"混在一起做—— 都让测试同事跑一遍。 但这两个阶段性质完全不同: 集成测试是 "跨网络"性质 —— 关心服务调用、数据穿透是否对 他测是 "用户视角"性质 —— 关心 case 覆盖、修复后再验证是否对 合在一起做的代价: 集成阶段没暴露的跨服务 bug,会被他测的"用户场景"掩盖 —— 等到灰度才发现,代价是集成阶段的 N 倍。 第 6 阶段最贵 —— 也最被忽视 很多团队的"上线观察"=刷一下监控大盘。 我的版本: 6 项指标 + 四方确认 。 6 项观测指标: 1. 产品功能有没有执行 2. 数据有没有问题 3. 系统有没有性能问题 4. 跨系统交互有没有影响 5. 财务大盘是否波动 ← 关键! 6. 业务大盘是否波动 ← 关键! ▌ 把"财务大盘 / 业务大盘波动" ▌ 作为发布观察指标 —— ▌ 这是大多数团队最常省的一步。 因为这两项指标"看起来不归技术管"。 但实际上 —— 80% 的"上线后才发现"的事故,在前 4 项指标 里全是绿的,只有第 5 、6 项暴露异常 。 例子: 某次上线某个改动,前 4 项指标全绿; 3 天后才发现财务对账差异—— 这种 bug 在 UT/集成/灰度 都看不出来 ,只有"业务大盘"能看见。 四方确认 —— 不是签字流程 四方确认 = 开发 / 测试 / 技术 TO / 产品 都同意才能"上线观察通过"。 听起来像 PPT 流程,但 反共识在于 : ▌ 测试同意 ≠ 验收通过 —— ▌ 业务大盘没波动,不代表产品认为"功能符合预期"。 ▌ 产品同意 ≠ 验收通过 —— ▌ 数据正常,不代表开发认为"性能达标"。 四方共同确认—— 任何一方说"我看到的不对"——就回退 。 我经历的项目里,真发生过 "3 方都过了,产品最后说不对" 的情况。如果没有四方流程,这个回退根本走不动。 反共识在哪 主流:测试 = UT + 集成 + 上线(3 阶段) 我的版本:6 阶段,每阶段独有验证 主流:每阶段都做"测试"动作 我的版本:每阶段对应 该阶段性质独有 的验证手段 主流:上线观察看"是否有大故障" 我的版本: 6 项观测指标 + 四方确认 主流:业务大盘归运营管 我的版本: 把"财务大盘 / 业务大盘"作为发布观察指标 主流:验收 = 测试通过 我的版本: 四方确认 (开发 / 测试 / 技术 TO / 产品) 什么时候不该用这套 也踩过坑。 某次内部小工具改动,代码量不到 200 行。 我也想搞 6 阶段——leader 直接说:"过度。" 事后是对的。 我的判断: 核心业务系统改造 → 必上(尤其涉及财务 / 业务大盘) 跨多研发角色的项目 → 必上(否则四方确认走不通) 内部工具 / 后台脚本 → 别上(单人项目,4 阶段够) DDL 类无法灰度的改动 → 跳过第 5 阶段(灰度),其余照走 不影响 KPI 的小项目 → 简化为 3 阶段(UT+集成+上线) 阴面 · 这套也有副作用 我自己用了这套 4 年,踩过的坑: 重型流程 —— 小项目用不上,6 阶段成本太高 跨公司不通用 —— 没有"四方确认 / 业务大盘"概念的公司套不进来 可能流于形式 —— 团队成员把 6 阶段当 6 个 checkbox 而非 6 类性质 决策慢 —— 至少 6 次评审 / 检查 最后一条最关键 —— **6 阶段的代价是"决策周期变长"**。 所以才有上面那句:"小项目别上 / 不影响 KPI 的项目简化为 3 阶段"。 写在最后 把测试拆 6 阶段,不是为了"显得专业"—— 是因为我经历过太多次: "你那阶段不是测过吗?怎么还出问题?" 仔细看,会发现: 那阶段测的不是这一类问题 。 每阶段性质不同 —— 验证手段就该不同。 6 阶段是"性质拆分",不是"动作拆分"。 跟"渐进式改造"和"比对工具"一样,这是一套 关心可逆性、关心 追溯性 的工程纪律。 写到这,我也不太确定 6 阶段对所有团队都成立。 我经历的项目都是"核心业务系统 + 跨多角色 + 业务大盘敏感"—— 这种场景 6 阶段几乎是必修。 但创业团队 / 内部工具 / 没有"业务大盘"这个概念的公司—— 搞这套可能反而是负担。 这点我自己也还在想。 下一篇打算写 17 类业务迁移分类—— 跟 6 阶段是一对:6 阶段是 纵向 (时间),17 类是 横向 (业务域)。 两者合起来才是完整的迁移管理体系。 (以上 SOP 都做了脱敏。 如果你做过核心系统改造,欢迎评论区聊聊你们的验收流程长什么样, 特别想听 6 阶段简化为 3 阶段后,踩过的坑 。)

V2EX - 技术 · 2026-06-11 13:40:35+08:00 · tech

主流的"测试" vs 我的"6 阶段" 很多团队的测试流程是 3 段式: UT → 集成 → 上线 每阶段都做"测试"——只是测试对象不同。 我的判断不一样: ▌ 测试不是"测一遍"—— ▌ 是按 6 个阶段性质拆分, ▌ 每阶段有"该阶段独有、其他阶段无法替代"的验证内容。 不是 6 次相同动作 —— 是 6 类不同性质的验证 。 6 阶段是什么 ┌──────────────────────────────────────────────────────────┐ │ │ │ ① 单元测试 ── 验证"函数内部" │ │ ↓ │ │ ② 集成测试 ── 验证"跨网络" │ │ ↓ ← 比对工具进场 │ │ ③ Code Review ─ 验证"设计 + 性能" │ │ ↓ │ │ ④ 他测 ────── 验证"用户视角" │ │ ↓ ← 比对工具回访 │ │ ⑤ 灰度 ────── 验证"生产数据兼容" │ │ ↓ ← 比对工具在线 │ │ ⑥ 上线观察 ── 验证"业务大盘波动" │ │ │ └──────────────────────────────────────────────────────────┘ 每阶段独有验证内容: 阶段 性质 独有验证 ① 单元 函数内部 UT 覆盖率 + 冒烟 + 功能埋点 ② 集成 跨网络 跨服务冒烟 + DML 比对 ③ Review 设计性能 设计审查 + 性能分析 + 回滚方案 ④ 他测 用户视角 提测文档 + Test Case + 修复后再比对 ⑤ 灰度 生产数据 时间窗口 + 分工 + DML 在线比对 ⑥ 上线 业务大盘 6 项指标 + 四方确认 → 第 ②④⑤ 阶段的"比对"动作,就是上一篇讲的"比对工具体系"。 → 第 ⑥ 阶段是大多数团队最常省的——本文重点讲它。 阶段拆分的核心标准 我自己的判断标准很简单: 两个阶段如果验证内容重叠 —— 说明阶段拆分错了。 举个例子:很多团队把"集成测试"和"他测"混在一起做—— 都让测试同事跑一遍。 但这两个阶段性质完全不同: 集成测试是 "跨网络"性质 —— 关心服务调用、数据穿透是否对 他测是 "用户视角"性质 —— 关心 case 覆盖、修复后再验证是否对 合在一起做的代价: 集成阶段没暴露的跨服务 bug,会被他测的"用户场景"掩盖 —— 等到灰度才发现,代价是集成阶段的 N 倍。 第 6 阶段最贵 —— 也最被忽视 很多团队的"上线观察"=刷一下监控大盘。 我的版本: 6 项指标 + 四方确认 。 6 项观测指标: 1. 产品功能有没有执行 2. 数据有没有问题 3. 系统有没有性能问题 4. 跨系统交互有没有影响 5. 财务大盘是否波动 ← 关键! 6. 业务大盘是否波动 ← 关键! ▌ 把"财务大盘 / 业务大盘波动" ▌ 作为发布观察指标 —— ▌ 这是大多数团队最常省的一步。 因为这两项指标"看起来不归技术管"。 但实际上 —— 80% 的"上线后才发现"的事故,在前 4 项指标 里全是绿的,只有第 5 、6 项暴露异常 。 例子: 某次上线某个改动,前 4 项指标全绿; 3 天后才发现财务对账差异—— 这种 bug 在 UT/集成/灰度 都看不出来 ,只有"业务大盘"能看见。 四方确认 —— 不是签字流程 四方确认 = 开发 / 测试 / 技术 TO / 产品 都同意才能"上线观察通过"。 听起来像 PPT 流程,但 反共识在于 : ▌ 测试同意 ≠ 验收通过 —— ▌ 业务大盘没波动,不代表产品认为"功能符合预期"。 ▌ 产品同意 ≠ 验收通过 —— ▌ 数据正常,不代表开发认为"性能达标"。 四方共同确认—— 任何一方说"我看到的不对"——就回退 。 我经历的项目里,真发生过 "3 方都过了,产品最后说不对" 的情况。如果没有四方流程,这个回退根本走不动。 反共识在哪 主流:测试 = UT + 集成 + 上线(3 阶段) 我的版本:6 阶段,每阶段独有验证 主流:每阶段都做"测试"动作 我的版本:每阶段对应 该阶段性质独有 的验证手段 主流:上线观察看"是否有大故障" 我的版本: 6 项观测指标 + 四方确认 主流:业务大盘归运营管 我的版本: 把"财务大盘 / 业务大盘"作为发布观察指标 主流:验收 = 测试通过 我的版本: 四方确认 (开发 / 测试 / 技术 TO / 产品) 什么时候不该用这套 也踩过坑。 某次内部小工具改动,代码量不到 200 行。 我也想搞 6 阶段——leader 直接说:"过度。" 事后是对的。 我的判断: 核心业务系统改造 → 必上(尤其涉及财务 / 业务大盘) 跨多研发角色的项目 → 必上(否则四方确认走不通) 内部工具 / 后台脚本 → 别上(单人项目,4 阶段够) DDL 类无法灰度的改动 → 跳过第 5 阶段(灰度),其余照走 不影响 KPI 的小项目 → 简化为 3 阶段(UT+集成+上线) 阴面 · 这套也有副作用 我自己用了这套 4 年,踩过的坑: 重型流程 —— 小项目用不上,6 阶段成本太高 跨公司不通用 —— 没有"四方确认 / 业务大盘"概念的公司套不进来 可能流于形式 —— 团队成员把 6 阶段当 6 个 checkbox 而非 6 类性质 决策慢 —— 至少 6 次评审 / 检查 最后一条最关键 —— **6 阶段的代价是"决策周期变长"**。 所以才有上面那句:"小项目别上 / 不影响 KPI 的项目简化为 3 阶段"。 写在最后 把测试拆 6 阶段,不是为了"显得专业"—— 是因为我经历过太多次: "你那阶段不是测过吗?怎么还出问题?" 仔细看,会发现: 那阶段测的不是这一类问题 。 每阶段性质不同 —— 验证手段就该不同。 6 阶段是"性质拆分",不是"动作拆分"。 跟"渐进式改造"和"比对工具"一样,这是一套 关心可逆性、关心 追溯性 的工程纪律。 写到这,我也不太确定 6 阶段对所有团队都成立。 我经历的项目都是"核心业务系统 + 跨多角色 + 业务大盘敏感"—— 这种场景 6 阶段几乎是必修。 但创业团队 / 内部工具 / 没有"业务大盘"这个概念的公司—— 搞这套可能反而是负担。 这点我自己也还在想。 下一篇打算写 17 类业务迁移分类—— 跟 6 阶段是一对:6 阶段是 纵向 (时间),17 类是 横向 (业务域)。 两者合起来才是完整的迁移管理体系。 (以上 SOP 都做了脱敏。 如果你做过核心系统改造,欢迎评论区聊聊你们的验收流程长什么样, 特别想听 6 阶段简化为 3 阶段后,踩过的坑 。)

V2EX - 技术 · 2026-06-11 12:40:35+08:00 · tech

主流的"测试" vs 我的"6 阶段" 很多团队的测试流程是 3 段式: UT → 集成 → 上线 每阶段都做"测试"——只是测试对象不同。 我的判断不一样: ▌ 测试不是"测一遍"—— ▌ 是按 6 个阶段性质拆分, ▌ 每阶段有"该阶段独有、其他阶段无法替代"的验证内容。 不是 6 次相同动作 —— 是 6 类不同性质的验证 。 6 阶段是什么 ┌──────────────────────────────────────────────────────────┐ │ │ │ ① 单元测试 ── 验证"函数内部" │ │ ↓ │ │ ② 集成测试 ── 验证"跨网络" │ │ ↓ ← 比对工具进场 │ │ ③ Code Review ─ 验证"设计 + 性能" │ │ ↓ │ │ ④ 他测 ────── 验证"用户视角" │ │ ↓ ← 比对工具回访 │ │ ⑤ 灰度 ────── 验证"生产数据兼容" │ │ ↓ ← 比对工具在线 │ │ ⑥ 上线观察 ── 验证"业务大盘波动" │ │ │ └──────────────────────────────────────────────────────────┘ 每阶段独有验证内容: 阶段 性质 独有验证 ① 单元 函数内部 UT 覆盖率 + 冒烟 + 功能埋点 ② 集成 跨网络 跨服务冒烟 + DML 比对 ③ Review 设计性能 设计审查 + 性能分析 + 回滚方案 ④ 他测 用户视角 提测文档 + Test Case + 修复后再比对 ⑤ 灰度 生产数据 时间窗口 + 分工 + DML 在线比对 ⑥ 上线 业务大盘 6 项指标 + 四方确认 → 第 ②④⑤ 阶段的"比对"动作,就是上一篇讲的"比对工具体系"。 → 第 ⑥ 阶段是大多数团队最常省的——本文重点讲它。 阶段拆分的核心标准 我自己的判断标准很简单: 两个阶段如果验证内容重叠 —— 说明阶段拆分错了。 举个例子:很多团队把"集成测试"和"他测"混在一起做—— 都让测试同事跑一遍。 但这两个阶段性质完全不同: 集成测试是 "跨网络"性质 —— 关心服务调用、数据穿透是否对 他测是 "用户视角"性质 —— 关心 case 覆盖、修复后再验证是否对 合在一起做的代价: 集成阶段没暴露的跨服务 bug,会被他测的"用户场景"掩盖 —— 等到灰度才发现,代价是集成阶段的 N 倍。 第 6 阶段最贵 —— 也最被忽视 很多团队的"上线观察"=刷一下监控大盘。 我的版本: 6 项指标 + 四方确认 。 6 项观测指标: 1. 产品功能有没有执行 2. 数据有没有问题 3. 系统有没有性能问题 4. 跨系统交互有没有影响 5. 财务大盘是否波动 ← 关键! 6. 业务大盘是否波动 ← 关键! ▌ 把"财务大盘 / 业务大盘波动" ▌ 作为发布观察指标 —— ▌ 这是大多数团队最常省的一步。 因为这两项指标"看起来不归技术管"。 但实际上 —— 80% 的"上线后才发现"的事故,在前 4 项指标 里全是绿的,只有第 5 、6 项暴露异常 。 例子: 某次上线某个改动,前 4 项指标全绿; 3 天后才发现财务对账差异—— 这种 bug 在 UT/集成/灰度 都看不出来 ,只有"业务大盘"能看见。 四方确认 —— 不是签字流程 四方确认 = 开发 / 测试 / 技术 TO / 产品 都同意才能"上线观察通过"。 听起来像 PPT 流程,但 反共识在于 : ▌ 测试同意 ≠ 验收通过 —— ▌ 业务大盘没波动,不代表产品认为"功能符合预期"。 ▌ 产品同意 ≠ 验收通过 —— ▌ 数据正常,不代表开发认为"性能达标"。 四方共同确认—— 任何一方说"我看到的不对"——就回退 。 我经历的项目里,真发生过 "3 方都过了,产品最后说不对" 的情况。如果没有四方流程,这个回退根本走不动。 反共识在哪 主流:测试 = UT + 集成 + 上线(3 阶段) 我的版本:6 阶段,每阶段独有验证 主流:每阶段都做"测试"动作 我的版本:每阶段对应 该阶段性质独有 的验证手段 主流:上线观察看"是否有大故障" 我的版本: 6 项观测指标 + 四方确认 主流:业务大盘归运营管 我的版本: 把"财务大盘 / 业务大盘"作为发布观察指标 主流:验收 = 测试通过 我的版本: 四方确认 (开发 / 测试 / 技术 TO / 产品) 什么时候不该用这套 也踩过坑。 某次内部小工具改动,代码量不到 200 行。 我也想搞 6 阶段——leader 直接说:"过度。" 事后是对的。 我的判断: 核心业务系统改造 → 必上(尤其涉及财务 / 业务大盘) 跨多研发角色的项目 → 必上(否则四方确认走不通) 内部工具 / 后台脚本 → 别上(单人项目,4 阶段够) DDL 类无法灰度的改动 → 跳过第 5 阶段(灰度),其余照走 不影响 KPI 的小项目 → 简化为 3 阶段(UT+集成+上线) 阴面 · 这套也有副作用 我自己用了这套 4 年,踩过的坑: 重型流程 —— 小项目用不上,6 阶段成本太高 跨公司不通用 —— 没有"四方确认 / 业务大盘"概念的公司套不进来 可能流于形式 —— 团队成员把 6 阶段当 6 个 checkbox 而非 6 类性质 决策慢 —— 至少 6 次评审 / 检查 最后一条最关键 —— **6 阶段的代价是"决策周期变长"**。 所以才有上面那句:"小项目别上 / 不影响 KPI 的项目简化为 3 阶段"。 写在最后 把测试拆 6 阶段,不是为了"显得专业"—— 是因为我经历过太多次: "你那阶段不是测过吗?怎么还出问题?" 仔细看,会发现: 那阶段测的不是这一类问题 。 每阶段性质不同 —— 验证手段就该不同。 6 阶段是"性质拆分",不是"动作拆分"。 跟"渐进式改造"和"比对工具"一样,这是一套 关心可逆性、关心 追溯性 的工程纪律。 写到这,我也不太确定 6 阶段对所有团队都成立。 我经历的项目都是"核心业务系统 + 跨多角色 + 业务大盘敏感"—— 这种场景 6 阶段几乎是必修。 但创业团队 / 内部工具 / 没有"业务大盘"这个概念的公司—— 搞这套可能反而是负担。 这点我自己也还在想。 下一篇打算写 17 类业务迁移分类—— 跟 6 阶段是一对:6 阶段是 纵向 (时间),17 类是 横向 (业务域)。 两者合起来才是完整的迁移管理体系。 (以上 SOP 都做了脱敏。 如果你做过核心系统改造,欢迎评论区聊聊你们的验收流程长什么样, 特别想听 6 阶段简化为 3 阶段后,踩过的坑 。)

v2ex · 2026-06-11 10:45:15+08:00 · tech

大家好,我是一名全职的独立开发,之前在华为和头部智驾公司。 今天发布我精心打磨的面向个人开发者的 SaaS 模板: ShipNext ShipNext 是一套面向独立开发者、创业者和小团队的全栈 SaaS 启动模板,帮助你跳过重复的基础设施搭建,把更多时间留给真正的产品逻辑、定位和上线。 除了常见的功能如认证、支付、数据库、邮件、存储、后台、营销页面、文档、博客、SEO 和常见 SaaS 工作流都已经预先连接好,你可以在此基础上快速构建自己的产品。 核心亮点 基于 Next.js 16 、TypeScript 、Tailwind CSS v4 和 shadcn/ui 内置 Better Auth ,支持邮箱登录、OAuth 、Magic Link 和密码重置 集成 Stripe / Lemon Squeezy / Paddle 支付与订阅模式 支持 Drizzle ORM 、PostgreSQL 、SQLite 和 Supabase 包含仪表盘、管理后台、定价页、落地页、文档、博客和法律页面 内置邮件模板、Newsletter 、团队通知和用户生命周期消息 支持 S3 兼容存储、文件上传、配额和使用量管理 适配 AI 编程工具工作流,适合 Cursor 、Codex 、Claude Code 、Windsurf 等工具协作开发 适合构建什么产品? ShipNext 适合用来快速启动: AI SaaS 工具 Micro SaaS 产品 生产力应用 付费社区 内容产品 目录站 内部工具 订阅制平台 带积分、额度或用量计费的产品 已包含的 SaaS 模块 应用基础 Next.js App Router 项目结构 TypeScript 类型系统 Tailwind CSS v4 样式体系 shadcn/ui 组件系统 可主题化设计 token Dashboard shell Admin screens 用户与收入 登录与注册 Google / GitHub OAuth Magic Link 密码找回与重置 用户资料设置 订阅与结账 Billing Portal 积分与额度系统 Webhook 处理 付费权限与配额控制 数据与运营 Drizzle ORM PostgreSQL / SQLite 数据库迁移与 seed 脚本 S3 兼容文件上传 Resend / React Email 邮件模板 Discord / Telegram / Slack 团队通知 Crisp 客服集成 Analytics hooks 启动页面 Landing page sections Pricing page patterns Docs Blog Contact page Legal pages SEO metadata Sitemap / robots.txt Open Graph 图片配置 技术栈 ShipNext 使用现代 SaaS 产品常见的技术组合: Next.js 16 React TypeScript Tailwind CSS v4 shadcn/ui Better Auth Drizzle ORM PostgreSQL / SQLite / Supabase Stripe / Lemon Squeezy / Paddle Resend Cloudflare S3 / Cloudflare R2 Fumadocs Crisp 另一个重复模板? ShipNext 除了包含市面上那些模板的功能之外,在以下几个部分做了优化 数据库支持 ShipNext 开箱支持 PG 、Sqlite 、MySQL ,且表结构都已适配,不同的数据库适配不同的厂商,如 PG:Neon 、Supabase 等 Sqlite:Cloudflare D1, Turso, Local file MySQL:任意 mysql 存储商或自部署 存储优化 支持用户维度的空间限制:不同的付费账户的空间限额不一样,ShipNext 内置支持,并且不同的付费计划可以设置不同的空间大小,比如免费用户设置 100MB ,付费用户设置 5GB 支持分片上传:大大加快上传速度 支持设置过期时间 定期自动删除:不会额外占用存储空间,防止文件太多空间不足 内置 <S3Upload> 组件,与分片上传自动集成,真正的开箱即用 多套实现 ShipNext 的代码非常的模块化,对于不同的模块,都内置了多套实现。很多模板只是给了个位置,但是并没有实现,ShipNext 几乎都给出了 2 ~ 3 套实现 支付:内置 Stripe 、Paddle 、LemonSqueezy ,只需修改 provider 的值就可以切换不同的支付 网站防护:Cloudflare Turnstile, hCaptcha, Google-recaptha 等 通知:支持 Discord 、Slack 、Telegram 、飞书等 其他模块 权益模型 ShipNext 对权益模型做了深入的设计和优化,可以同时支持如下的一些场景 订阅制 + 无限使用:在订阅周期,可以设置某些权益无限使用,比如下载等 订阅制 + 额度消耗:典型的如 AI 场景,一个月有多少额度,用完就没有 一次性购买 + 额度消耗:典型的仍然是 AI 场景,积分包,比如 10 刀 100 积分 订阅制 + 一次性购买 + 额度消耗:典型场景为订阅周期额度固定,用户可以继续购买额外积分包,同时额外积分包的消费优先级小于订阅周期的积分,当然都可以设置 以上几种场景几乎覆盖了所有的 SaaS 订阅场景 一对一指导 我是全职独立开发,可以保证,其他模板很难保证,并且拥有 6 年研发经验,提供市场化的经验指导,减少很多弯路 可以说,使用 ShipNext 的开发速度比市面上绝大多数模板要快的多 当然也希望大家跟我沟通,v: zhangsihai0518 任何技术上的探讨都非常欢迎!!

LinuxDo 最新话题 · 2026-06-11 10:12:36+08:00 · tech

小米moni code正式上线,mimo-v2.5-pro免费用,大家赶紧薅! 今天,我们正式发布并开源 MiMoCode V0.1.0 —— 一款运行在终端里的探索性 AI 编程助手。 MiMo Code 始于编程,不止于编程 。它不只是一个好用的 AI Coding 工具,更是一位住在你电脑里、越用越懂你的 AI 队友。 它内置限时免费的顶级多模态模型 **MiMo-V2.5,**性能比肩 Claude Sonnet 4.6;同时支持接入 DeepSeek、Kimi 和 GLM 等主流模型,以及第三方 Token Plan,满足不同开发者的需求。 MiMo Code 基于开源项目 OpenCode 二次开发, 发布并开源,采用 MIT协议 。 核心能力 持久记忆系统 + 无限上下文:从根上解决“AI健忘” MiMo Code 内置独创的持久记忆系统,用项目记忆、会话检查点、任务进度三重机制,解决长会话“越用越忘”的难题。即使上百轮的长程会话,也能保持输出质量、不丢关键信息。 主流 Code Agent(Claude Code、Codex 等)多是“让 AI 自己记笔记”,但模型不会主动触发,记不记、何时记全靠它自觉。所以我们换了个思路: 让主 agent 专心干活,记录完全外包 —— 由独立 subagent 自动保存状态,窗口快满时重建一份干净简报,主 agent 接着干而非从零开始。 一句话: 不赌模型自觉,用工程把它兜住 。 模型 Agent 协同优化 + 独创 Compose 模式 大多数 Coding Agent 的工作方式是「拿到需求就埋头写代码」,像一个不看导航就上路的司机——看似高效,实则容易跑偏。 但模型并非千篇一律:不同模型各有自己的"性格"与"禀赋",与不同的 Agent 框架之间也存在天然的"适配度"高低。把模型和框架简单拼在一起,往往发挥不出真正实力。 MiMo Code 为 MiMo 系列模型量身打造了一套专属的 Harness 系统,让模型的能力与框架深度配合;再配合独创的 **Compose 模式,**实现 1+1>2 的协同效果。 使用时,只需按 Tab 键 切换到 Compose 模式,给它一个简单的想法,它就能自动完成设计、规划、编码、测试、审查的全流程,最终交付一套工业级的成品。 实测对比 我们给两个工具下了同样的指令: 「帮我用 golang 实现一个 redis,需要支持用 redis-cli 连接。」 Claude Code 出手很快,代码很快就跑了出来——但几乎没有配套测试,功能能用却不够扎实,后续返工的风险不小。 MiMoCode 用 Compose 模式,前期花了更多时间做规划,看起来“慢”了一截;但落到结果上,它实现了更丰富的功能,并配上了完整、详尽的测试,真正体现出工业级代码该有的样子。 有意思的是,**算总账反而是 MiMoCode 更快:**它把时间花在前期想清楚、后期验得稳上——慢写、快验,整体体验更省心。 Dream:记忆沉淀,越用越懂你 MiMoCode 内置了一个独特的 /dream 命令。每 7 天自动触发,由独立 Agent 读取历史会话和现有记忆文件,执行合并、去重、验证路径有效性和压缩,将分散的记忆收敛为一份紧凑的当前状态,并更新全局记忆。 到了下次使用,它会在合适的时机自动调用这些记忆。这意味着 MiMo Code 不会每次都从零开始,而是带着对你和你项目的理解持续成长——真正做到越用越顺手。 支持语音输入:“君子动口不动手” MiMo Code 内置了语音输入与控制功能,背后是 MiMo-V2.5-ASR 的强大语音识别能力加持。动动嘴,活就干了。 它能做的不只是“念出 prompt”:你可以口头修改写错的指令,也可以直接发出“发送”“执行”这类操作命令——从输入到操控,全程不用碰键盘,效率自然又上一个台阶。 用数据说话:同模型,更强表现 在两个面向真实编程场景的权威测试集 SWE-Bench 和 Terminal Bench 上,我们做了一组对照实验:让 MiMo Code 与 Claude Code **使用同一个 MiMo 模型,**只比拼各自的 Agent 系统本身。 结果显示,MiMo Code 在 SWE-Bench Pro 上达到 **62%(**Claude Code 为 57%),在 Terminal Bench 2 上达到 **73%(**Claude Code 为 68%)—— 在模型完全相同的前提下,MiMo Code 凭借专属 Harness 与 Compose 模式的协同,拿到了较优的分数。 如何使用:零配置起步,开箱即用 安装与启动:打开终端 Mac和Linux用户推荐: curl -fsSL https://mimo.xiaomi.com/install | bash Windows 用户推荐使用 npm: npm install -g @mimo-ai/cli 装好后,终端输入 mimo 即可启动。为了获得最佳体验,强烈推荐 Mac用户在 iTerm 中或者 vscode 终端中使用。 模型配置 内置 MiMo-V2.5 限时**免费通道,**无需注册即可使用 兼容 DeepSeek / Kimi / GLM 等主流模型 API,及第三方 Token Plan 使用: 输入 / 查看各项配置 所有设置项全面中文汉化,本地友好 TUI 页面右侧常驻状态看板,随时观察工作进度 更多技术细节,欢迎关注我们的团队 Blog: https://mimo.xiaomi.com/mimocode 开源与展望 MiMo Code 发布并开源 ,采用宽松的 MIT 协议——这意味着它对几乎所有人都敞开: 个人开发者 可以自由使用、修改、分发,想怎么折腾都行; 企业 可以把它集成进自己的开发工具链,无需担心授权束缚; 社区 可以基于它打造垂直领域的编程助手,长出更多可能。 9 个帖子 - 8 位参与者 阅读完整话题

cnBeta全文版 · 2026-06-10 23:05:07+08:00 · tech

在本周举行的 2026 年苹果全球开发者大会上,苹果在经历一年多的延期后,正式发布了全新升级的 Siri 语音助手。该版本现已更名为 Siri AI,并由Google的 Gemini 大模型提供技术支持。然而,尽管苹果计划面向全球用户推出这项新功能,欧盟地区用户可能需要等待更长时间才能使用这一新助手。 在发布 iOS 27 的同时,苹果在博客中表示,由于《数字市场法案》(DMA)及其他监管要求带来的障碍,Siri AI 暂时不会在欧盟上线。按照相关规定,如果要在欧盟推出 Siri AI,苹果需要在 iOS 27 和 iPadOS 27 中向竞争对手开放等同能力的接口,让其他第三方语音助手也能接入同等功能。苹果方面拒绝接受这一条件,并宣称此举将危及用户隐私,因此选择推迟在欧盟提供 Siri AI 服务。 针对外界普遍认为是欧盟监管阻碍了 Siri AI 上线的说法,欧盟委员会发言人近日作出回应,进一步解释了 Siri AI 尚未在该地区落地的原因。发言人首先强调,DMA 并未禁止苹果在欧盟推出任何服务,法律只是要求像苹果这样的“守门人”企业在开展业务时遵守相关义务。 欧盟委员会指出,按照 DMA 规定,被指定为“守门人”的平台必须向第三方提供与自家产品相当的功能访问权。发言人表示,这一要求的核心在于保障用户选择权,让用户可以自由选择“最符合自身需求的产品”,而不是被迫使用平台自带服务。换言之,如果苹果为自家的 Siri AI 开放特定系统能力或接口,就必须允许其他语音助手在同等条件下获得类似访问权限。 发言人还透露,欧盟委员会一直就相关问题与苹果保持沟通。然而,苹果方面“并未提出符合 DMA 互操作性要求的解决方案”。同时,声明重申,被指定为守门人的大型科技公司不得利用其操作系统等核心平台地位,在人工智能服务等新兴领域不正当地偏袒自家产品。欧盟方面的立场是,平台既可以创新,也可以推出自有 AI 服务,但必须在开放和公平竞争的框架下进行。 按照苹果此前公布的节奏,iOS 27 的首个公开测试版将于下个月面向用户推送,正式版则预计会在今年秋季随 iPhone 18 系列一同发布。不过,在苹果与欧盟委员会就 DMA 合规问题达成一致之前,Siri AI 何时能面向欧洲用户开放仍然是一个未知数。目前来看,Siri AI 在欧盟的落地时间,取决于苹果是否愿意在互操作性和第三方接入上作出妥协。 查看评论

LinuxDo 最新话题 · 2026-06-10 16:20:50+08:00 · tech

请问下各位佬们,早上一早看到Any上线了fable5,发到这个版块,打的纯水的标签,想着跟佬友们分享一下。分享过程中,也互相解决调用上的问题,本来到这里应该正常结束快乐的吹水时光,然后话题被淹没在茫茫更多有意思的话题中。突然,帖子没了,我翻遍了通知和邮箱也没找到提醒信息,上来问下佬们,是因为涉及到公益站了吗? 7 个帖子 - 5 位参与者 阅读完整话题

LinuxDo 最新话题 · 2026-06-10 16:07:17+08:00 · tech

看到今天any大善人上线了 fable5,便想试试这个新模型,在cc中切到any后发现进入claude显示的 opus 4.8,和之前很多佬一样发送请求直接 retry… 最后429 即便是挂了全局和在cc中开启了路由还是依旧不行,在cc中将模型映射都全部改为claude-fable-5,依旧429。 最后刷到某佬的帖子说any的opus4.8有点问题: 关于Any使用fable5频繁429的问题 开发调优 [image] [image] 佬们可以看一下cc-switch的请求日志,429是因为直连了any站的opus4.8模型,这个模型目前看确实是不可用的;正常情况是有一个转换的逻辑,如图的请求成功部分,具体怎么个逻辑我也不太清楚,我这边让他自动重试几次就好了 于是尝试在令牌管理中启用了模型限制,让其只请求fable5: 最后在回到cc中测试,直接登上 ,虽然在终端中显示的还是opus4.8,但在any中查看使用日志已经请求的模型是fable5了,如下所示: 所以还是429的佬可以尝试一下这个思路,目前是开着代理,但并非全局,cc中打开路由的,目前设置的就这么多了。 1 个帖子 - 1 位参与者 阅读完整话题

cnBeta全文版 · 2026-06-10 16:05:11+08:00 · tech

微信派宣布,微信朋友圈正式上线搜索功能。用户点击“我-朋友圈”右上角的搜索入口,输入关键词,即可精准查找自己发过的朋友圈内容,覆盖正文、配图、链接以及下方的评论。此外,朋友圈相册还支持按年/月/日缩放切换查看,方便用户回溯不同时期的分享记录。 微信方面表示,该功能正在逐步放量,部分用户可能需要等待。此次更新旨在帮助用户更高效地管理个人社交信息,找回“互联网记忆”。 查看评论

cnBeta全文版 · 2026-06-10 14:35:20+08:00 · tech

消息应用 Telegram 近日上线了全新的原生 Apple Watch 应用,再次为 Apple Watch 用户提供官方手表端支持。 用户可直接在手腕上查看并回复 Telegram 消息,实现更便捷的日常沟通。 根据 Telegram 创始人 Pavel Durov 在社交平台 X 上公布的信息,这款原生 Apple Watch 应用已经正式面向用户开放。 新应用不仅支持在手表上浏览聊天记录、快速回复消息,还支持发送贴纸、语音消息以及位置信息等多种互动形式,使手表端的使用体验更接近 iPhone 等完整客户端。 Telegram 此前曾在 2015 年推出过 Apple Watch 应用,但在数年前从 App Store 下架并停止更新,期间 Apple Watch 用户只能依赖第三方 Telegram 客户端在手表上收发消息。 随着本次官方原生应用回归,用户再次可以在 Apple Watch 上获得由 Telegram 官方维护的一方解决方案。 查看评论

v2ex · 2026-06-10 14:24:00+08:00 · tech

ShipAny 新版本发布了🎉,上线了三套基础模板👇 shipany-next:Agent-Native 开发框架,面向 Agent Coding 而设计,通过内置 Skills 极速开发新项目 shipany-vinext:基于 Cloudflare 官方 Vinext 框架而设计,一键部署到 Cloudflare Workers ,压缩后体积是 shipany-two 的 1/7 ,绑定 CF 全家桶,节约成本 shipany-tanstack:基于 TanStack Start 而设计,使用 Vite 构建,启动与运行速度极快,跨平台部署方便 ShipAny 老用户支付 $1.99 获得新模板。新用户通过这个链接👇 https://shipany.ai/zh/pricing?ivt=idoubi 购买 Premium 会员,输入优惠码: NEXT ,立减 $50 ShipAny 官网也基于 shipany-tanstack 完成了重构,交互体验提升不少。 ShipAny 开发文档也更新了。 ShipAny 新版本整合了流行的技术栈,主推 TanStack + Vite 生态,高性能运行,部署到 Cloudflare ,极具性价比。 ShipAny 新版本精心设计了几个 Skills ,在 Coding Agent 一键调用,对话式快速完成新项目开发。 做 AI SaaS 网站需要的基础功能,ShipAny 基本上都集成了,主打一个开箱即用,让你的 Coding Agent 无需造轮子,快速上线。 ShipAny 官方出品的基础模板,ShipAny Premium 会员可以超低价获取,主打一个仪式感,让买模板跟买咖啡一样简单。 ShipAny 用户提交了几百个案例,有一些有很大的流量,有一些赚到了钱。ShipAny 定位是一把好铲子,帮助用户去淘金。 加入 ShipAny 联盟,设置专属的邀请链接和优惠码。可自行分配额度,帮助朋友获得优惠,自己获得奖励。 我们已经进入了 Agent 主导开发的新时代,做产品变得极其简单。 一个 Agent-Native 开发框架,可以让 Agent 更快速地集成项目需要的基础能力:登录、注册、支付、积分、存储、多语言、SEO 、AI 生成、管理后台。 ShipAny 的定位,就是这样一个 Agent-Native 开发框架,通过一系列的模板覆盖常用的技术栈和业务功能,内置丰富的 Skills 让 Agent 开箱即用,帮助创作者一小时上线功能完整、可商业化的 AI 产品。 新版本,新征程。期待与 ShipAny 用户共建生态,做大做强。✌️

cnBeta全文版 · 2026-06-10 13:35:57+08:00 · tech

Anthropic正式发布Claude Fable 5和Claude Mythos 5。前者面向普通用户开放,后者则继续限制在“受信任的安全合作伙伴”范围内。新模型的命名可以说很符合Claude一贯的风格。 从Haiku(俳句)到Sonnet(十四行诗)再到Opus(艺术巨著),Anthropic一直在用文学和艺术概念给模型分层,到了Mythos,名字已经从文学作品膨胀到“神话”本身。 Fable来自拉丁语fabula,意思是“被讲述之物”,和希腊语mythos同源,直译过来的话一般被称为“寓言”。这个名字正如新模型的定位,一个“Mythos级”的模型,一个“公开的神话”。 按照Anthropic的描述,Fable 5和Mythos 5共享同一个底层模型,只是被装进了更适合公开分发的安全壳里。在官方给出的模型能力上,它们两个被放在同一个位置。 但跑分归跑分,如果Fable和Mythos的表现完全一样,我想应该也不用分成两个名字了。 被改写的“神话” 神话被改写、被压缩、被加上训诫之后,变成了寓言。 按照官方文档,Fable 5是公开版本。它面向普通用户和开发者开放,但在网络安全、生物、化学以及模型蒸馏等高风险领域,会由额外的安全分类器介入。一旦系统判断请求可能涉及这些敏感方向,回答就不会由Fable 5继续完成,而是自动回退到Claude Opus 4.8。 Mythos 5基于同样的底层模型,但在部分领域解除了Fable 5的护栏。Anthropic称,Project Glasswing里的网络安全合作伙伴可以使用“满血版”Mythos 5;未来,部分生命科学研究者也可能通过受信任访问计划,使用解除生物和化学限制的版本。 用不到的Mythos我们暂时不提,先看点实在的东西。 首先是定价,一个字,贵。 Fable 5的定价是输入10美元/百万token,输出50美元/百万token。开发者现在就可以通过Claude API调用claude-fable-5(模型名)。 这个价格刚好是Opus 4.8的两倍,和Opus 4.8的fast mode相同,Anthropic显然把它放在了比Opus更高一档的价格层级里。 不过Anthropic称,这一价格不到此前Claude Mythos Preview的一半——但由于Mythos Preview并非公开API模型,官方并未给出面向公众的标准价,这句话也无从验证。 订阅用户也需要注意,Fable 5不一定会长期直接包含在基础订阅包里。 Anthropic在官方说明中提到,6月23日以后,即使用户已经订阅Claude,Fable 5也可能根据算力情况按量提供,不一定会直接包含在基础订阅服务中。 这公司越来越吝啬了,不过好歹还留了小半个月试用期。官方也留了一点余地:如果6月23日以后算力资源足够,Anthropic会尽量把Fable 5继续包含在Pro、Max等订阅服务里。 定价高本身并非难以理解,但它最好保证它的能力配得上它的价格。 从跑分上看,Fable 5/Mythos 5基本是Anthropic目前公开表里最强的一档。 不过官方表格有一个说明,Claude Fable 5和Claude Mythos 5的分数一般只差1–3个百分点(除了带星号的网络安全、生物相关测试),所以表里显示的是两者更高的分数。这一点很难不让人想要吐槽。 Anthropic把Fable 5的重点放在几个方向:软件工程、知识工作、视觉、长上下文记忆和生命科学研究。 软件工程是最突出的场景之一,根据表格,Fable/Mythos 5在SWE-Bench Pro上达到80.3%,明显高于Opus 4.8的69.2%;在更难的FrontierCode Diamond上,它拿到29.3%,而Opus 4.8只有13.4%,GPT-5.5只有5.7%。 知识工作和视觉任务上,Anthropic给出了两类证据。 一类是标准化benchmark。官方表格显示,Fable/Mythos 5在GDPval-AA上得分1932,高于Opus 4.8、GPT-5.5和Gemini 3.1 Pro;在GDP.pdf这种带视觉理解的文档任务上,它达到29.8%,也超过其他主要模型。 另一类是早期客户测试。Anthropic称,Fable 5在Hebbia的高级金融推理基准上取得最高分,优势集中在文档推理、图表和表格理解、问题求解;IMC也反馈,它在交易分析评估中几乎全面通过。 为了展示Fable 5的视觉能力,Anthropic举的例子是:此前Claude模型需要复杂辅助工具才能玩《宝可梦 火红》,而Fable 5只靠视觉输入就可以通关。 长任务和记忆能力上,Anthropic称,Fable 5可以在数百万token的长期任务中保持专注,并利用自己的笔记改进输出。 在《杀戮尖塔》这类需要连续决策和长期策略的游戏里,如果给Fable 5接入持久文件记忆,让它能记录前面的选择和经验,它的表现会明显提升。提升幅度是Opus 4.8的三倍,到达最终关卡的次数也提高了三倍。 顺便一提,Fable也是一款经典RPG游戏的名字,中文译作《神鬼寓言》——或许某天我们能看到Fable玩《Fable》。 另外,网络安全能力方面,Fable/Mythos 5在ExploitBench Cap%上达到78.0%,超过Claude Mythos Preview的69.0%,接近Opus 4.8的两倍。 这里用的应该是Mythos 5的得分,因为Fable 5在高风险请求上会回退到Opus 4.8。 强大的模型必须分层 Anthropic这次把模型能力的直观展示放到了一个类似”作品集“的滑页里,并且每个demo只给了一小段注释。 比如,Fable 5写了一个太阳系模拟,从物理第一性原理推导行星轨道运动,并用它预测日食。 又比如,它可以自主玩《异星工厂》。这是一款工程师很爱的工厂自动化游戏,玩家要采集资源、规划生产线、搭建物流和能源系统。 Anthropic用这个例子说明,Fable 5可以在一个开放环境里制定策略,并持续推进一个复杂系统的建设。 在另一个demo里,Fable 5先做了一个基于浏览器的CAD编辑器,然后又使用这个由自己开发的CAD工具,设计了一个可以3D打印的完整模型。这个编辑器里还内置了AI copilot,用来辅助建模。 这个demo的重点在于Fable 5完成了一个闭环:先创造工具,再使用工具,最后完成一个实体设计任务。 最后一个demo,Anthropic展示了一个由Fable 5写出来的流体模拟,运动节奏和一段古典音乐EDM remix同步。官方还特意提到,音乐也是Fable 5用代码生成的。 这些案例看起来挺花哨,但意思是一样的:Fable 5很擅长把代码、视觉、物理、设计和长期规划混在一起做任务。 如果说这部分展示的还是Fable 5在开发者手里能做到什么程度,后面的部分说的就是Mythos 5在研究者手里能做什么——以及Anthropic为什么要把Fable和Mythos分开。 Anthropic称,在内部蛋白设计专家的评估中,Mythos 5把药物设计流程中的部分环节加速了大约10倍。其中一个案例里,Mythos 5接入蛋白设计和生物信息学工具、没有人类帮助,就可以匹配甚至超过熟练人类操作员。 在该任务中,Mythos 5做的不是简单问答,而是完成一整套科学工作流:选择结合位点,选择并运行蛋白设计工具,在失败后自己恢复。官方称,在这项研究的14个蛋白靶点中,有9个产生了强候选分子,目前正在进一步研究。 Anthropic还提到,Mythos 5可以稳定提出新颖、有吸引力的分子生物学假设。在和Opus级模型的盲测对比中,内部科学家大约80%的时候更偏好Mythos提出的假设,其中一些已经进入实验评估。 与此同时,Mythos 5的一个关于大肠杆菌蛋白的新机制的假设,在另一家独立研究同一问题的实验室的研究中得到了证实。 它甚至还做了一项基因组学研究。 Anthropic称,Mythos 5在一周多的时间里,几乎自主完成了一项新的基因组学研究。它整理了横跨138种动物、数百万个细胞的单细胞数据,并设计、训练了一个定制机器学习模型,用来识别不同物种中执行相同角色的细胞。 更夸张的是,Anthropic称,Mythos 5训练出的模型性能超过了近期发表在《Science》上的一个模型,尽管它的规模只有后者的百分之一。Anthropic表示,计划在未来几个月发表这些结果。 当然,这部分还需要等待论文和外部复核。但如果只看Anthropic官方给出的信息,Mythos 5在生命科学里展示的能力已经接近科研Agent:能读问题、用工具、处理数据、训练模型、提出假设,并把一项研究推进到可以发表的程度。 而一旦模型可以在药物设计、病毒载体、蛋白设计、基因组学研究这些方向里真正推进任务,它就天然具备双重用途。 可以认为,生命科学这部分不是Fable 5的普通功能演示,而是Mythos 5的能力上限展示。 但它被展示出来,是为了说明Anthropic手里的这套底层模型,已经强到了必须通过受信任访问来分发。 有意思的是,过去的模型发布更像是一件技术产品的事:参数、跑分、价格、上下文长度、API名称。强就是强,发布就是发布。 但到了Mythos这里,事情开始变得复杂。同一个底层模型被分为两个版本,普通用户拿到的是Fable 5,安全研究者和部分生命科学研究者拿到的是Mythos 5;前者被装进更严格的护栏里,后者则需要受信任访问。 模型能力不再只有高低之分,也开始有权限、场景和责任之分。 某种意义上来讲,可以看作前沿模型商业化进入新阶段的信号——越强的模型,越不可能直接扔给所有人。它们会被拆成不同版本,放进不同安全边界,再交给不同类型的用户。 Anthropic先这么做了,因为它们的模型“强到不能完全公开”。未来其它想要讲故事的公司,想要证明自己的模型也很强,或许也会效仿这种方式。 查看评论