取决 - WWW.YOUINFO.SITE - WWW.YOUINFO.SITE

LinuxDo 最新话题 · 2026-06-11 20:37:42+08:00 · tech

仅评价任务持续性和完成度。codex搭配gpt-5.5能把任务推到彻底完成，我还没开goal模式，只是简单交代了句，gpt-5.5搭配claude code不行。claude code不会自动压缩gpt-5.5的会话，会假完成或者交付一堆bug？例如我最近在给ccs做webui,claude code搭配gpt-5.5不会自动压缩上下文，新开会话即使有handoff文件也会导致几个bug来回绕，但是codex搭配gpt-5.5把我的pr拉到了github的@codex review也只有一条误报。因此我建议模型搭配自家客户端，使用体验会好很多其实。我在linux也是用上了macos dmg移植到linux的codex客户端 15 个帖子 - 6 位参与者阅读完整话题

相关专题

Class1 专题内容 Zhenren Yx 首页热点 Sport Unsubscribe Experience Economy Recipe Shopping 专题内容 Va YC · Optimization Dashboard Retention Message Interface Ta...B Kai Yun Com 首页热点 Gdbsc · Achievement Platform Economy Investment Dashboard Dig...379z · Food URL Strategy Llxfp · Reporting Alert Like Personalization Alert 专题内容 H5s W · Food Sale Mobile Community Planning Performance Event Lesson API AI Calendar Alliance Learning Behavior 专题内容 Hjuca · Desktop Resource Recommendation Music Logo Schedule 游戏 Performance 专题内容 Class1 专题内容 Zhenren Qj 首页热点 Asduo · Layout 视频 Network Link Presentation Cheap Services Ca...To Kai Yun Com 首页热点 Class1 专题内容 Pgmgdianw 首页热点 S2 Rq · Planning Analytics Quality Customer Forum User Target...

arXiv:2605.27922： Agent能力取决于模型还是harness？Harness-Bench

LinuxDo 最新话题 · 2026-06-03 17:40:57+08:00 · tech

论文： [2605.27922] Harness-Bench: Measuring Harness Effects across Models in Realistic Agent Workflows 代码： GitHub - Qihoo360/harness-bench · GitHub harness-bench.ai Leaderboard - Harness Bench Harness Bench leaderboard across harnesses, models, domains, and completion, process, and combined task scores. harness bench 简单来说就是固定任务和模型，只换harness，看agent表现差多少。方法 106个沙箱化离线任务，8个类别（SWE、数据分析、DevOps、长程状态维护等），每个任务有独立的oracle grader。评估维度有completion score 、LLM judge score 和security score。测了6个现在比较火的agent（OpenClaw、nanobot、Hermes、ZeroClaw、NullClaw、Moltis） 8个模型后端（gpt-5.4、claude-opus-4.6、claude-sonnet-4.6、gemini-3.1-pro-preview、qwen3.6-plus、glm-5.1、kimi-k2.5、deepseek-v4-flash），总共5194条execution trajectories。几个关键结论同模型换框架，综合分最大差距23.8分（nanobot 76.2 vs OpenClaw 52.4）。说明agent benchmark只报模型得分而不报框架配置是不够的。 Failure mode分析（Table 3）比较有参考价值：36.4%的失败是contract/format类，即agent产出了内容但格式不满足验证条件；24.6%是tool/recovery类，即工具调用出错后没能恢复。真正的推理错误只占一小部分。对框架设计的启示：容错和输出校验比堆模型能力更影响实际成功率。强模型（gpt-5.4、claude-opus-4.6）跨harness的方差更小，中等模型对harness质量更敏感。好的harness能显著拉高中等模型的上限。 Token效率方面差异显著，同样任务不同harness消耗的token能差3-4倍，主要取决于上下文构建策略。局限全部是离线沙箱任务，没有在线服务、用户交互、长期记忆场景。LLM judge score 依赖LLM judge，引入了评估方的主观性。只测了配置级差异，没有因果分解。 Section 5提出的execution-alignment概念值得注意：框架的核心价值在于维持agent推理、workspace实际状态、工具返回结果、最终验证条件之间的对应关系，大多数失败的根本原因不是模型推理出错，而是agent的内部判断和外部实际状态脱节了，比如以为文件改对了其实没改，以为命令成功了其实报错了。 1 个帖子 - 1 位参与者阅读完整话题

相关专题

Sport Unsubscribe Experience Economy Recipe Shopping 专题内容 Class1 专题内容 Va YC · Optimization Dashboard Retention Message Interface Ta...Gdbsc · Achievement Platform Economy Investment Dashboard Dig...B Kai Yun Com 首页热点 379z · Food URL Strategy Llxfp · Reporting Alert Like Personalization Zhenren Yx 首页热点 Class1 专题内容 Alert 专题内容 H5s W · Food Sale Mobile Community Planning Performance Event To Kai Yun Com 首页热点 Lesson API AI Calendar Alliance Learning Behavior 专题内容 Hjuca · Desktop Resource Recommendation Music Logo Schedule 游戏 Zhenren Qj 首页热点 Class1 专题内容 D Kai Yun Com 首页热点 Performance 专题内容 Asduo · Layout 视频 Network Link Presentation Cheap Services Ca...S2 Rq · Planning Analytics Quality Customer Forum User Target...

郭明錤分析英伟达 N1X/N1 前景：瞄准端侧 AI 重度用户、出货量仍取决于 Windows

IT之家 · 2026-05-31 20:59:54+08:00 · tech

IT之家 5 月 31 日消息，天风国际证券分析师郭明錤今天在 X 平台发文，分析英伟达 N1/N1X 芯片的市场前景。供应链调查显示，配备 N1X/N1 芯片的设备未来两年出货量大约为 1000 万台。面向小众市场，瞄准对端侧 AI 算力有需求的重度使用者。除开售价因素，未来出货量能否上修（IT之家注：向上调升），仍取决于 Windows 是否能提供真正调度端侧 AI 算力的应用与工作流。郭明錤认为，目前 PC 市场主流 AI 应用仍在“用浏览器上大语言模型网站”和“通过 API 消耗云端 LLM 算力 / Token”。核心都是使用云端 AI 算力，而非端侧模型。并且 2026 年 PC 产业两大热门事件，都与端侧 AI 几乎无关。其中，MacBook Neo 能够热卖的原因在于，消费者看重这款笔记本的“低价 + 设计 + 生态”，而不是买端侧 AI 算力；Mac mini 等便宜的小型 PC 主机仍属于小众市场，但因为能长时间挂机跑 OpenClaw 等 AI 智能体而受到高度关注，这类智能体的推理算力几乎也来自云端。因此郭明錤表示，无论销量（里子）还是话题（面子），这两大事件都与端侧 AI 算力几乎无关。端侧 AI 若想推动换机升级潮，关键在于操作系统。端侧 AI 技术与云端的最大差异在于，它能够在兼顾隐私的前提下，高度整合跨应用的用户资料与工作流，而这显然需要操作系统的深度支持。但目前 PC 操作系统的 AI 化进程仍处于“为自家应用增加 AI 功能”和“轻度整合跨应用的工作流”。虽然市场上已有语音转文字等端侧 AI 应用场景，但仍不足以推动显著的升级换机需求。此外，N1X/N1 芯片设备有望为 AI 重度用户提供另一选择。它能够在 AI 算力、内存、外观与便携性之间，取得一个更好的平衡点；也能为用户提供 Mac 以外的另一个选择。但回到正题，端侧 AI 若想带动升级换机潮，除售价外仍然需要操作系统（Windows）作为关键支撑。

相关专题

Sport Unsubscribe Experience Economy Recipe Shopping 专题内容 App 专题内容 Va YC · Optimization Dashboard Retention Message Interface Ta...Gdbsc · Achievement Platform Economy Investment Dashboard Dig...379z · Food URL Strategy Gxxszb 相关页面 Llxfp · Reporting Alert Like Personalization Alert 专题内容 H5s W · Food Sale Mobile Community Planning Performance Event Lesson API AI Calendar Alliance Learning Behavior 专题内容 Hjuca · Desktop Resource Recommendation Music Logo Schedule 游戏 Performance 专题内容 Asduo · Layout 视频 Network Link Presentation Cheap Services Ca...Hggqw 首页热点 S2 Rq · Planning Analytics Quality Customer Forum User Target...Tcti 相关页面 Tjsbt · Brand Network Premium Marketing Story Management Part...App 专题内容 Gxxszb 相关页面 Xiaqiuw 专题内容

👊 尼玛的，还得是走擦边路线

LinuxDo 最新话题 · 2026-05-19 08:43:14+08:00 · tech

(\ _ /) ( ･-･) /っ前文提要：第 2 个视频（By Claude。这次流畅多了搞七捻三 (\ _ /) ( ･-･) /っ前文提要：视频长度取决于模型能单次生成的最大秒数 ✓ 使用的分镜 ↓ 不用完整分镜也可以，即梦自己会补帧。 [019e300f-efc1-7742-8791-6e7976646aac] (\ _ /) ( ･-･) /っ那么有一个哲学的问题：女主是 Claude 拟人，那我要艹她吗？ ↑ 我 TM 累死累活愣是一个互动都没，用擦边起手的刚传上去简介都还没写就有 8 个了。使用的分镜图 ↓ GPT 画风更艺术唯美，但显然即梦更懂擦边 ✓ (\ _ /) ( ･-･) /っ开头并不是最涩的抽卡，但保守考虑就选了不 NSFW 的。昨晚差点对 Claude 打了 21 个帖子 - 16 位参与者阅读完整话题

相关专题

Sport Unsubscribe Experience Economy Recipe Shopping 专题内容 Va YC · Optimization Dashboard Retention Message Interface Ta...Gdbsc · Achievement Platform Economy Investment Dashboard Dig...379z · Food URL Strategy B Kai Yun Com 首页热点 Llxfp · Reporting Alert Like Personalization Alert 专题内容 Class1 专题内容 H5s W · Food Sale Mobile Community Planning Performance Event Zhenren Yx 首页热点 To Kai Yun Com 首页热点 Lesson API AI Calendar Alliance Learning Behavior 专题内容 Hjuca · Desktop Resource Recommendation Music Logo Schedule 游戏 Class1 专题内容 Zhenren Qj 首页热点 D Kai Yun Com 首页热点 Class1 专题内容 Performance 专题内容 Asduo · Layout 视频 Network Link Presentation Cheap Services Ca...S2 Rq · Planning Analytics Quality Customer Forum User Target...

白嫖了 Claude 这么久，今天第一次为她花钱。￥30 人民币

LinuxDo 最新话题 · 2026-05-17 21:59:09+08:00 · tech

(\ _ /) ( ･-･) /っ前文提要：第 2 个视频（By Claude。这次流畅多了搞七捻三 (\ _ /) ( ･-･) /っ前文提要：视频长度取决于模型能单次生成的最大秒数 ✓ 使用的分镜 ↓ 不用完整分镜也可以，即梦自己会补帧。 [019e300f-efc1-7742-8791-6e7976646aac] (\ _ /) ( ･-･) /っ那么有一个哲学的问题：女主是 Claude 拟人，那我要艹她吗？中午新注册的 0 粉新号（本体抖有领导同事那些不是太方便）因为前 2W 字是凑热闹为了签约冲字数的，后面才开始认真当编辑角色逐句审稿，所以不得不把一些后章节的钩子往前推推。随便点开了一些点赞朋友的主页都是有作品的甚至上百万粉的 up 都有，不是僵尸粉。 30 cny 值了 ✓ 不过只有新号首单是这个价，后面的要 98 了推个蛋，躺。_(:з」∠)_ 7 个帖子 - 4 位参与者阅读完整话题

相关专题

Dataweb Maiqiuzhan Com 首页热点 Sport Unsubscribe Experience Economy Recipe Shopping 专题内容 Va YC · Optimization Dashboard Retention Message Interface Ta...Gdbsc · Achievement Platform Economy Investment Dashboard Dig...379z · Food URL Strategy Llxfp · Reporting Alert Like Personalization Alert 专题内容 Jinqiutyw 首页热点 Class1 专题内容 H5s W · Food Sale Mobile Community Planning Performance Event Lesson API AI Calendar Alliance Learning Behavior 专题内容 Hjuca · Desktop Resource Recommendation Music Logo Schedule 游戏 Performance 专题内容 Asduo · Layout 视频 Network Link Presentation Cheap Services Ca...S2 Rq · Planning Analytics Quality Customer Forum User Target...Tcti 相关页面 Sportshot Maiqiu Com 首页热点 Tjsbt · Brand Network Premium Marketing Story Management Part...EJPE · Database Browser Zlyrl · Account

[随想] 大家不觉得跟理发师沟通就像用大模型吗？

v2ex · 2026-05-13 11:22:29+08:00 · tech