WWW.YOUINFO.SITE
标签聚合 可信

/tag/可信

V2EX - 技术 · 2026-06-04 17:42:14+08:00 · tech

Harness 不是让 Agent 更聪明,而是让 Agent 的工作更可信。 所以这次变更给 Boss 的整条研发流水线加一层工程化的骨架。 它要管五件事:流程怎么定义,当前跑到哪,产物以什么为准,什么时候允许继续,失败后怎么恢复。 这次最关键的变化,是加了一层 workflow-plan.json 。 过去 Boss 里已经有 pipeline pack 、artifact DAG 、runtime commands 。DAG 能表达"哪个产物依赖哪个产物",runtime 能记录阶段和 Agent 状态。但它们之间还缺一层明确的执行定义。 现在初始化时,会把 pipeline pack 和 artifact DAG 编译成一份 workflow plan 。它描述这条流水线有哪些 phase 、哪些 agent node 、哪些 gate node ,以及这些节点之间的依赖关系。与此同时,workflowHash 、packHash 、artifactDagHash 描述的是"这条流程定义是什么",runId 描述的是"这一次具体执行"。 这个拆分很重要。 因为流程定义和运行实例不是一回事。定义可以被审计、比较、缓存;运行实例可以暂停、恢复、失败、重试。以前这些东西混在一起,很多恢复逻辑只能靠约定。现在它们开始有了明确边界。 我现在会把 Harness 分成几层看 第一层是定义层。 它回答:这条流水线到底是什么?比如 pack 、DAG 、workflow plan 、各种 hash 。它应该稳定、可比较。 第二层是运行层。 它回答:这一次跑到哪了?这里靠的是事件流和 execution.json ,而不是聊天上下文。聊天记录不可靠,事件流才是状态真相源。 第三层是产物层。 PRD 、架构文档、任务拆解、QA 报告、部署报告,这些落盘并被 runtime 记录后,才算正式产物。Agent 说自己完成了,不等于完成了。 第四层是门禁层。 测试、Evidence Wave 、QA 、final gate ,本质上都是在问同一个问题:凭什么继续?这层是防止"看起来完成了"的关键。 第五层是恢复层。 比如 promptFingerprint 、inputDigest 、resume --from-run 。它们的目标不是炫技,而是让中断之后不用靠人脑捡现场,也不用全量重跑。 关于 SKILL.md 的瘦身 另外这次变更还把主 SKILL.md 从 474 行压到了 99 行。之前它太像一个巨型总控 prompt ,什么都写在里面。这样越复杂,越依赖模型一次性记住,最后又回到"让模型自己记流程"的老路。 现在主 Skill 只保留入口、不变量和索引。长流程、runtime 命令、Evidence Wave 、platform driver 、hooks ,都拆到 references 里按需读取。

V2EX - 技术 · 2026-06-04 15:11:33+08:00 · tech

Harness 不是让 Agent 更聪明,而是让 Agent 的工作更可信。 所以这次变更给 Boss 的整条研发流水线加一层工程化的骨架。 它要管五件事:流程怎么定义,当前跑到哪,产物以什么为准,什么时候允许继续,失败后怎么恢复。 这次最关键的变化,是加了一层 workflow-plan.json 。 过去 Boss 里已经有 pipeline pack 、artifact DAG 、runtime commands 。DAG 能表达"哪个产物依赖哪个产物",runtime 能记录阶段和 Agent 状态。但它们之间还缺一层明确的执行定义。 现在初始化时,会把 pipeline pack 和 artifact DAG 编译成一份 workflow plan 。它描述这条流水线有哪些 phase 、哪些 agent node 、哪些 gate node ,以及这些节点之间的依赖关系。与此同时,workflowHash 、packHash 、artifactDagHash 描述的是"这条流程定义是什么",runId 描述的是"这一次具体执行"。 这个拆分很重要。 因为流程定义和运行实例不是一回事。定义可以被审计、比较、缓存;运行实例可以暂停、恢复、失败、重试。以前这些东西混在一起,很多恢复逻辑只能靠约定。现在它们开始有了明确边界。 我现在会把 Harness 分成几层看 第一层是定义层。 它回答:这条流水线到底是什么?比如 pack 、DAG 、workflow plan 、各种 hash 。它应该稳定、可比较。 第二层是运行层。 它回答:这一次跑到哪了?这里靠的是事件流和 execution.json ,而不是聊天上下文。聊天记录不可靠,事件流才是状态真相源。 第三层是产物层。 PRD 、架构文档、任务拆解、QA 报告、部署报告,这些落盘并被 runtime 记录后,才算正式产物。Agent 说自己完成了,不等于完成了。 第四层是门禁层。 测试、Evidence Wave 、QA 、final gate ,本质上都是在问同一个问题:凭什么继续?这层是防止"看起来完成了"的关键。 第五层是恢复层。 比如 promptFingerprint 、inputDigest 、resume --from-run 。它们的目标不是炫技,而是让中断之后不用靠人脑捡现场,也不用全量重跑。 关于 SKILL.md 的瘦身 另外这次变更还把主 SKILL.md 从 474 行压到了 99 行。之前它太像一个巨型总控 prompt ,什么都写在里面。这样越复杂,越依赖模型一次性记住,最后又回到"让模型自己记流程"的老路。 现在主 Skill 只保留入口、不变量和索引。长流程、runtime 命令、Evidence Wave 、platform driver 、hooks ,都拆到 references 里按需读取。

V2EX - 技术 · 2026-06-04 13:24:06+08:00 · tech

Harness 不是让 Agent 更聪明,而是让 Agent 的工作更可信。 所以这次变更给 Boss 的整条研发流水线加一层工程化的骨架。 它要管五件事:流程怎么定义,当前跑到哪,产物以什么为准,什么时候允许继续,失败后怎么恢复。 这次最关键的变化,是加了一层 workflow-plan.json 。 过去 Boss 里已经有 pipeline pack 、artifact DAG 、runtime commands 。DAG 能表达"哪个产物依赖哪个产物",runtime 能记录阶段和 Agent 状态。但它们之间还缺一层明确的执行定义。 现在初始化时,会把 pipeline pack 和 artifact DAG 编译成一份 workflow plan 。它描述这条流水线有哪些 phase 、哪些 agent node 、哪些 gate node ,以及这些节点之间的依赖关系。与此同时,workflowHash 、packHash 、artifactDagHash 描述的是"这条流程定义是什么",runId 描述的是"这一次具体执行"。 这个拆分很重要。 因为流程定义和运行实例不是一回事。定义可以被审计、比较、缓存;运行实例可以暂停、恢复、失败、重试。以前这些东西混在一起,很多恢复逻辑只能靠约定。现在它们开始有了明确边界。 我现在会把 Harness 分成几层看 第一层是定义层。 它回答:这条流水线到底是什么?比如 pack 、DAG 、workflow plan 、各种 hash 。它应该稳定、可比较。 第二层是运行层。 它回答:这一次跑到哪了?这里靠的是事件流和 execution.json ,而不是聊天上下文。聊天记录不可靠,事件流才是状态真相源。 第三层是产物层。 PRD 、架构文档、任务拆解、QA 报告、部署报告,这些落盘并被 runtime 记录后,才算正式产物。Agent 说自己完成了,不等于完成了。 第四层是门禁层。 测试、Evidence Wave 、QA 、final gate ,本质上都是在问同一个问题:凭什么继续?这层是防止"看起来完成了"的关键。 第五层是恢复层。 比如 promptFingerprint 、inputDigest 、resume --from-run 。它们的目标不是炫技,而是让中断之后不用靠人脑捡现场,也不用全量重跑。 关于 SKILL.md 的瘦身 另外这次变更还把主 SKILL.md 从 474 行压到了 99 行。之前它太像一个巨型总控 prompt ,什么都写在里面。这样越复杂,越依赖模型一次性记住,最后又回到"让模型自己记流程"的老路。 现在主 Skill 只保留入口、不变量和索引。长流程、runtime 命令、Evidence Wave 、platform driver 、hooks ,都拆到 references 里按需读取。

V2EX - 技术 · 2026-06-04 13:24:06+08:00 · tech

Harness 不是让 Agent 更聪明,而是让 Agent 的工作更可信。 所以这次变更给 Boss 的整条研发流水线加一层工程化的骨架。 它要管五件事:流程怎么定义,当前跑到哪,产物以什么为准,什么时候允许继续,失败后怎么恢复。 这次最关键的变化,是加了一层 workflow-plan.json 。 过去 Boss 里已经有 pipeline pack 、artifact DAG 、runtime commands 。DAG 能表达"哪个产物依赖哪个产物",runtime 能记录阶段和 Agent 状态。但它们之间还缺一层明确的执行定义。 现在初始化时,会把 pipeline pack 和 artifact DAG 编译成一份 workflow plan 。它描述这条流水线有哪些 phase 、哪些 agent node 、哪些 gate node ,以及这些节点之间的依赖关系。与此同时,workflowHash 、packHash 、artifactDagHash 描述的是"这条流程定义是什么",runId 描述的是"这一次具体执行"。 这个拆分很重要。 因为流程定义和运行实例不是一回事。定义可以被审计、比较、缓存;运行实例可以暂停、恢复、失败、重试。以前这些东西混在一起,很多恢复逻辑只能靠约定。现在它们开始有了明确边界。 我现在会把 Harness 分成几层看 第一层是定义层。 它回答:这条流水线到底是什么?比如 pack 、DAG 、workflow plan 、各种 hash 。它应该稳定、可比较。 第二层是运行层。 它回答:这一次跑到哪了?这里靠的是事件流和 execution.json ,而不是聊天上下文。聊天记录不可靠,事件流才是状态真相源。 第三层是产物层。 PRD 、架构文档、任务拆解、QA 报告、部署报告,这些落盘并被 runtime 记录后,才算正式产物。Agent 说自己完成了,不等于完成了。 第四层是门禁层。 测试、Evidence Wave 、QA 、final gate ,本质上都是在问同一个问题:凭什么继续?这层是防止"看起来完成了"的关键。 第五层是恢复层。 比如 promptFingerprint 、inputDigest 、resume --from-run 。它们的目标不是炫技,而是让中断之后不用靠人脑捡现场,也不用全量重跑。 关于 SKILL.md 的瘦身 另外这次变更还把主 SKILL.md 从 474 行压到了 99 行。之前它太像一个巨型总控 prompt ,什么都写在里面。这样越复杂,越依赖模型一次性记住,最后又回到"让模型自己记流程"的老路。 现在主 Skill 只保留入口、不变量和索引。长流程、runtime 命令、Evidence Wave 、platform driver 、hooks ,都拆到 references 里按需读取。

V2EX - 技术 · 2026-06-04 12:44:08+08:00 · tech

Harness 不是让 Agent 更聪明,而是让 Agent 的工作更可信。 所以这次变更给 Boss 的整条研发流水线加一层工程化的骨架。 它要管五件事:流程怎么定义,当前跑到哪,产物以什么为准,什么时候允许继续,失败后怎么恢复。 这次最关键的变化,是加了一层 workflow-plan.json 。 过去 Boss 里已经有 pipeline pack 、artifact DAG 、runtime commands 。DAG 能表达"哪个产物依赖哪个产物",runtime 能记录阶段和 Agent 状态。但它们之间还缺一层明确的执行定义。 现在初始化时,会把 pipeline pack 和 artifact DAG 编译成一份 workflow plan 。它描述这条流水线有哪些 phase 、哪些 agent node 、哪些 gate node ,以及这些节点之间的依赖关系。与此同时,workflowHash 、packHash 、artifactDagHash 描述的是"这条流程定义是什么",runId 描述的是"这一次具体执行"。 这个拆分很重要。 因为流程定义和运行实例不是一回事。定义可以被审计、比较、缓存;运行实例可以暂停、恢复、失败、重试。以前这些东西混在一起,很多恢复逻辑只能靠约定。现在它们开始有了明确边界。 我现在会把 Harness 分成几层看 第一层是定义层。 它回答:这条流水线到底是什么?比如 pack 、DAG 、workflow plan 、各种 hash 。它应该稳定、可比较。 第二层是运行层。 它回答:这一次跑到哪了?这里靠的是事件流和 execution.json ,而不是聊天上下文。聊天记录不可靠,事件流才是状态真相源。 第三层是产物层。 PRD 、架构文档、任务拆解、QA 报告、部署报告,这些落盘并被 runtime 记录后,才算正式产物。Agent 说自己完成了,不等于完成了。 第四层是门禁层。 测试、Evidence Wave 、QA 、final gate ,本质上都是在问同一个问题:凭什么继续?这层是防止"看起来完成了"的关键。 第五层是恢复层。 比如 promptFingerprint 、inputDigest 、resume --from-run 。它们的目标不是炫技,而是让中断之后不用靠人脑捡现场,也不用全量重跑。 关于 SKILL.md 的瘦身 另外这次变更还把主 SKILL.md 从 474 行压到了 99 行。之前它太像一个巨型总控 prompt ,什么都写在里面。这样越复杂,越依赖模型一次性记住,最后又回到"让模型自己记流程"的老路。 现在主 Skill 只保留入口、不变量和索引。长流程、runtime 命令、Evidence Wave 、platform driver 、hooks ,都拆到 references 里按需读取。

IT之家 · 2026-05-28 09:14:11+08:00 · tech

IT之家 5 月 28 日消息,参考数据挖掘者 188号 (@momomo_us) 的发现,Sandisk(闪迪)两款 toC SATA 固态硬盘新品出现在了海外电商平台上,型号分别为 SANDISK 520 和 SANDISK 320。 这两款 SATA SSD 均采用 2.5" 7mm 盘体, 基于“可信 ( trusted ) SANDISK 3D NAND” 。 其中定位较高的 SANDISK 520 享受 5 年质保 ,提供 500GB~4TB 的一系列容量选择,顺序读取速率至高可达 560MB/s、顺序写入速率至高可达 525MB/s,4TB 款拥有 1000TBW 的保内写入耐久。 SANDISK 320 则仅享受 3 年质保 ,可选 250GB~2TB。其顺序读取速率至高可达 545MB/s,暂无明确的顺序写入速率和保内写入耐久数据。

LinuxDo 最新话题 · 2026-05-24 16:05:01+08:00 · tech

需要一个 可信的 LLM 网关 ,在每个中转站返回结果后,立即调用便宜的像 DeepSeek API 做 LLM-as-a-Judge。 搜了下grok,貌似目前没有一个完全现成的 “Octopus + DeepSeek 输出审计” 开源项目。 当前最现实的路径优先级(考虑你对 LiteLLM 投毒事件的顾虑): Portkey AI Gateway —— Guardrails 功能最成熟,支持自定义 LLM Judge,最接近开箱即用。 极简自建 FastAPI 薄代理 (推荐给你,目前最可控、攻击面最小)—— 只做路由 + DeepSeek 输出审计,代码量很少。 在现有 Octopus(Go)上加 middleware —— 调用 DeepSeek Judge。 LiteLLM 最新版(1.85+)+ 严格 Docker + 签名验证 + 自定义 post-call guardrail(如果你愿意接受额外安全措施)。 1 个帖子 - 1 位参与者 阅读完整话题

LinuxDo 最新话题 · 2026-05-17 13:20:02+08:00 · tech

gpt也准备要开始实名了吗,ChatGPT网页端和Codex最近总是会报 Your conversations have multiple flags for possible cybersecurity risk. Responses may take longer because extra safe ty checks are on. To get authorized for security work, join the Trusted Access for Cyber program: https://chatgpt.com/cyber 有时候让它写个项目启动脚本,定时任务脚本 甚至网页端生成个图片都会报这个玩意 大家都是怎么过这玩意的啊,真整没招了 8 个帖子 - 5 位参与者 阅读完整话题

LinuxDo 最新话题 · 2026-05-16 20:17:24+08:00 · tech

说说我自己的看法:首先,成本问题这件事是用中转躲不开的一个问题,如果各位佬是那种非常在乎成本的人,我的结论是,价格在0.3元每刀(此处指5.5)(已经很放宽了,如果时间允许,可以寻找0.2元每刀以下,只有到这个价位,才能说是性价比)以上的中转不碰,否则,如果你是一个tokens消耗佬,那我建议你与其用你的中转,不如充官方正价(20x或者5x),当然,如果你不是,你只是一个每天tokens用量不到亿级别的小佬,那么可以考虑0.6元以下的中转,如果高于这个数,请考虑官方正价(5x),还有,即使你真的找到了合适的中转,不要充大额,不要充大额,能5元10元的充就5元10元的充,用多少充多少,佬之前10元被坑走过一次,吃了一个大亏。 关于兑水:这个我只能说仁者见仁,智者见智,绝对不参水的中转我不敢说没有,但是大抵不是很多,各位如果接受不了这个,出门找官方吧,至于智商测试什么的,额,这个我自己觉得是蛋用没有,直接上项目,做的好就是好,做的不好就是不好,这也是我为什么跟大家说不要充大额,能试用就试用一下,真正的工程问题代码质量模型交出来的结果是不一样的,如果明显感觉是劣质模型,那就不要碰这个中转但是如果感觉大差不差还可以,能正常一次完成任务不出现明显巨大的错误,交流逻辑也算正常,那就用,没什么好折腾的,结果为王,能做项目的模型就是好模型(此处指0.2元每刀以下价格,0.2到0.4元每刀这么搞视强弱而定,0.4刀以上这么玩,赶紧踢了,出门找官方) 还有关于中转倍率(现在中转站玩的很花啊),我的建议是,自己看不懂,那就发一个你所用的那个模型的请求,然后进入管理界面的那个使用日志,点开最新的那个消费记录,截图发给ai,并且告诉ai充值一块钱能得到多少那个站的货币,让ai换算成几元每刀一目了然。(有几个很雷点我之前看过,这些千万别用,像没有缓存或者缓存0.5 0.8这种直接踢,输入输出可以微调,缓存一变可用度直线下坠) 关于隐私问题:我个人觉得,没必要担心,大多数老用中转应该都是写小说代码这些吧,老实说我真不觉得这些ai产出的代码文章需要担心,当然,如果各位佬是拿来清洗自己的文章数据,这个我到建议去找官方team之类的了,毕竟这种事情,谁也没办法保证 注:claude不建议买中转,除非你急用少量,而且特别便宜 0.2元每刀以下 ps.各位佬有别的看法尽管说,我说的话有问题也欢迎题,友好交流 11 个帖子 - 6 位参与者 阅读完整话题