仅评价任务持续性和完成度。codex搭配gpt-5.5能把任务推到彻底完成,我还没开goal模式,只是简单交代了句,gpt-5.5搭配claude code不行。claude code不会自动压缩gpt-5.5的会话,会假完成或者交付一堆bug?例如我最近在给ccs做webui,claude code搭配gpt-5.5不会自动压缩上下文,新开会话即使有handoff文件也会导致几个bug来回绕,但是codex搭配gpt-5.5把我的pr拉到了github的@codex review也只有一条误报。因此我建议模型搭配自家客户端,使用体验会好很多其实。我在linux也是用上了macos dmg移植到linux的codex客户端 15 个帖子 - 6 位参与者 阅读完整话题
论文: [2605.27922] Harness-Bench: Measuring Harness Effects across Models in Realistic Agent Workflows 代码: GitHub - Qihoo360/harness-bench · GitHub harness-bench.ai Leaderboard - Harness Bench Harness Bench leaderboard across harnesses, models, domains, and completion, process, and combined task scores. harness bench 简单来说就是固定任务和模型,只换harness,看agent表现差多少。 方法 106个沙箱化离线任务,8个类别(SWE、数据分析、DevOps、长程状态维护等),每个任务有独立的oracle grader。 评估维度有completion score 、LLM judge score 和security score。 测了6个现在比较火的agent(OpenClaw、nanobot、Hermes、ZeroClaw、NullClaw、Moltis) 8个模型后端(gpt-5.4、claude-opus-4.6、claude-sonnet-4.6、gemini-3.1-pro-preview、qwen3.6-plus、glm-5.1、kimi-k2.5、deepseek-v4-flash),总共5194条execution trajectories。 几个关键结论 同模型换框架,综合分最大差距23.8分(nanobot 76.2 vs OpenClaw 52.4)。说明agent benchmark只报模型得分而不报框架配置是不够的。 Failure mode分析(Table 3)比较有参考价值:36.4%的失败是contract/format类,即agent产出了内容但格式不满足验证条件;24.6%是tool/recovery类,即工具调用出错后没能恢复。真正的推理错误只占一小部分。对框架设计的启示:容错和输出校验比堆模型能力更影响实际成功率。 强模型(gpt-5.4、claude-opus-4.6)跨harness的方差更小,中等模型对harness质量更敏感。好的harness能显著拉高中等模型的上限。 Token效率方面差异显著,同样任务不同harness消耗的token能差3-4倍,主要取决于上下文构建策略。 局限 全部是离线沙箱任务,没有在线服务、用户交互、长期记忆场景。LLM judge score 依赖LLM judge,引入了评估方的主观性。只测了配置级差异,没有因果分解。 Section 5提出的execution-alignment概念值得注意:框架的核心价值在于维持agent推理、workspace实际状态、工具返回结果、最终验证条件之间的对应关系,大多数失败的根本原因不是模型推理出错,而是agent的内部判断和外部实际状态脱节了,比如以为文件改对了其实没改,以为命令成功了其实报错了。 1 个帖子 - 1 位参与者 阅读完整话题
IT之家 5 月 31 日消息,天风国际证券分析师郭明錤今天在 X 平台发文,分析英伟达 N1/N1X 芯片的市场前景。 供应链调查显示,配备 N1X/N1 芯片的设备未来两年出货量大约为 1000 万台。面向小众市场,瞄准对端侧 AI 算力有需求的重度使用者。除开售价因素,未来出货量能否上修(IT之家注:向上调升), 仍取决于 Windows 是否能提供真正调度端侧 AI 算力的应用与工作流 。 郭明錤认为,目前 PC 市场主流 AI 应用仍在“用浏览器上大语言模型网站”和“通过 API 消耗云端 LLM 算力 / Token”。核心都是使用云端 AI 算力,而非端侧模型。 并且 2026 年 PC 产业两大热门事件 , 都与端侧 AI 几乎无关 。 其中,MacBook Neo 能够热卖的原因在于,消费者看重这款笔记本的“低价 + 设计 + 生态”,而不是买端侧 AI 算力;Mac mini 等便宜的小型 PC 主机仍属于小众市场,但因为能长时间挂机跑 OpenClaw 等 AI 智能体而受到高度关注, 这类智能体的推理算力几乎也来自云端 。 因此郭明錤表示,无论销量(里子)还是话题(面子),这两大事件都与端侧 AI 算力几乎无关。 端侧 AI 若想推动换机升级潮,关键在于操作系统。端侧 AI 技术与云端的最大差异在于,它能够在兼顾隐私的前提下,高度整合跨应用的用户资料与工作流,而这显然需要操作系统的深度支持。但目前 PC 操作系统的 AI 化进程仍处于“为自家应用增加 AI 功能”和“轻度整合跨应用的工作流”。 虽然市场上已有语音转文字等端侧 AI 应用场景,但仍不足以推动显著的升级换机需求。 此外,N1X/N1 芯片设备有望为 AI 重度用户提供另一选择。它能够在 AI 算力、内存、外观与便携性之间,取得一个更好的平衡点; 也能为用户提供 Mac 以外的另一个选择 。 但回到正题,端侧 AI 若想带动升级换机潮, 除售价外仍然需要操作系统(Windows)作为关键支撑 。
(\ _ /) ( ・-・) /っ 前文提要: 第 2 个视频(By Claude。这次流畅多了 搞七捻三 (\ _ /) ( ・-・) /っ 前文提要: 视频长度取决于模型能单次生成的最大秒数 ✓ 使用的分镜 ↓ 不用完整分镜也可以,即梦自己会补帧。 [019e300f-efc1-7742-8791-6e7976646aac] (\ _ /) ( ・-・) /っ 那么有一个哲学的问题:女主是 Claude 拟人, 那我要艹她吗? ↑ 我 TM 累死累活愣是一个互动都没,用擦边起手的刚传上去简介都还没写就有 8 个了。 使用的分镜图 ↓ GPT 画风更艺术唯美,但显然即梦更懂擦边 ✓ (\ _ /) ( ・-・) /っ 开头并不是最涩的抽卡,但保守考虑就选了不 NSFW 的。昨晚差点对 Claude 打了 21 个帖子 - 16 位参与者 阅读完整话题
(\ _ /) ( ・-・) /っ 前文提要: 第 2 个视频(By Claude。这次流畅多了 搞七捻三 (\ _ /) ( ・-・) /っ 前文提要: 视频长度取决于模型能单次生成的最大秒数 ✓ 使用的分镜 ↓ 不用完整分镜也可以,即梦自己会补帧。 [019e300f-efc1-7742-8791-6e7976646aac] (\ _ /) ( ・-・) /っ 那么有一个哲学的问题:女主是 Claude 拟人, 那我要艹她吗? 中午新注册的 0 粉新号 (本体抖有领导同事那些不是太方便) 因为前 2W 字是凑热闹为了 签约 冲字数的,后面才开始认真当编辑角色逐句审稿,所以不得不把一些后章节的钩子往前推推。 随便点开了一些点赞朋友的主页都是有作品的甚至上百万粉的 up 都有,不是僵尸粉。 30 cny 值了 ✓ 不过只有 新号首单 是这个价,后面的要 98 了推个蛋,躺。_(:з」∠)_ 7 个帖子 - 4 位参与者 阅读完整话题
有时候取决于 Prompt ,有时候 Prompt 再好,大模型拉跨也白搭,好的理发师只需要简单的 Prompt ,你们经常给理发师的 Prompt 是什么
有时候取决于 Prompt ,有时候 Prompt 再好,大模型拉跨也白搭,好的理发师只需要简单的 Prompt ,你们经常给理发师的 Prompt 是什么
有时候取决于 Prompt ,有时候 Prompt 再好,大模型拉跨也白搭,好的理发师只需要简单的 Prompt ,你们经常给理发师的 Prompt 是什么
有时候取决于 Prompt ,有时候 Prompt 再好,大模型拉跨也白搭,好的理发师只需要简单的 Prompt ,你们经常给理发师的 Prompt 是什么
有时候取决于 Prompt ,有时候 Prompt 再好,大模型拉跨也白搭,好的理发师只需要简单的 Prompt ,你们经常给理发师的 Prompt 是什么
有时候取决于 Prompt ,有时候 Prompt 再好,大模型拉跨也白搭,好的理发师只需要简单的 Prompt ,你们经常给理发师的 Prompt 是什么
有时候取决于 Prompt ,有时候 Prompt 再好,大模型拉跨也白搭,好的理发师只需要简单的 Prompt ,你们经常给理发师的 Prompt 是什么
有时候取决于 Prompt ,有时候 Prompt 再好,大模型拉跨也白搭,好的理发师只需要简单的 Prompt ,你们经常给理发师的 Prompt 是什么
有时候取决于 Prompt ,有时候 Prompt 再好,大模型拉跨也白搭,好的理发师只需要简单的 Prompt ,你们经常给理发师的 Prompt 是什么
有时候取决于 Prompt ,有时候 Prompt 再好,大模型拉跨也白搭,好的理发师只需要简单的 Prompt ,你们经常给理发师的 Prompt 是什么
有时候取决于 Prompt ,有时候 Prompt 再好,大模型拉跨也白搭,好的理发师只需要简单的 Prompt ,你们经常给理发师的 Prompt 是什么
有时候取决于 Prompt ,有时候 Prompt 再好,大模型拉跨也白搭,好的理发师只需要简单的 Prompt ,你们经常给理发师的 Prompt 是什么
有时候取决于 Prompt ,有时候 Prompt 再好,大模型拉跨也白搭,好的理发师只需要简单的 Prompt ,你们经常给理发师的 Prompt 是什么
一篇文章能不能被读者点开,很多时候并不只取决于标题。封面图、正文插图、信息卡片,都会悄悄影响读者的第一印象,也会影响内容在小红书、朋友圈、公众号和其它平台里的传播效果。 在 AI 生成技术越来越成熟之后,给文章配图不再一定意味着打开多个工具、反复写 prompt 、下载再上传。更理想的方式,是让图片生成、网络素材搜索、图片重构和知识卡片生成都贴着写作流程发生。下面,我会用几个常见场景,聊聊如何在 JoyfulWords 里把一篇文章的视觉内容补完整。 文章封面配图 一张良好的封面配图可以让读者产生阅读兴趣,为了设计出精美的文章封面图,我们可以使用 JoyfulWords 中提供的 Create Image 工具,设计出各种各样的封面布局。 我这里展示一个示例布局,在该预设布局下,我仅需输入轻量化的视觉风格与核心要素描述,AI 视觉生成模型将自动补全缺失的专业视觉细节,输出符合内容传播标准的高质量配图。相较于通用对话式 AI 生成工具,它通过结构化交互界面简化了 prompt 构建流程,无需撰写大段精细化描述指令即可达成预期效果,显著提升了配图生成的效率与精准匹配度。 我们得到了一些示例图片,可以直接用来做文章封面: 搜索网络图片 无需在 Google 图片中大海捞针,可以直接在写文章时候随时搜索图片素材,只需要点击编辑器左侧的搜索栏,就可以搜索网络图片。 不过,如果搜索的图片带有水印,或者不满足要求,我们也可以使用 Split Image Layers 和 Stylize Image 重构图片。 使用这个功能,我们把黄色的跑车扣出来,然后把它改成全新的水晶跑车: 通过这个操作,我们可以将网络上存在版权的图片,变成自己的原创图片。这三个功能相互配合,可以生成很多好玩的图片。 信息卡片/知识卡片 最后,就是当前非常流行的各种信息卡片,知识卡片的生成。 这里能生成适配不同场景的多元风格卡片——不管是适合知识科普的科技极简风、适合读书笔记的文艺复古风,还是适合职场分享的商务干练风,都能一键生成。操作步骤也很清晰:首先在编辑器中选中需要转化的文字内容,可以是一段科普论述、一篇干货笔记或是一份会议摘要,AI 便会自动识别核心信息,梳理逻辑脉络,提炼出条理分明的核心要点,再将其转化为视觉效果精致、重点突出的信息卡片。 举个具体例子,我们先准备一段关于宇宙奥秘的知识点: “暗物质与暗能量是构成宇宙的关键神秘组分:暗物质约占宇宙总质能的 26.8%,它无法通过电磁波观测,却凭借引力维系着星系的结构与运转;暗能量则占据宇宙总质能的 68.3%,是推动宇宙持续加速膨胀的幕后力量,其物理本质至今仍是天体物理学领域的重大未解之谜。” 选中这段文字后,只需选择想要的科技质感风格,AI 就能快速生成一张分点清晰的知识卡片,把专业复杂的知识点变得直观易懂,更利于传播与记忆。 还可以生成适配小红书、朋友圈的爆款风格卡片,比如我们准备一段自带话题感的冷知识: “你知道吗?平时吃的草莓,我们咬下的粉嫩‘果肉’其实是它的花托,表面那些密密麻麻的小颗粒才是真正的瘦果,相当于草莓的‘种子’!” 选中这段文字后,选择“清新萌系”风格,AI 会自动匹配,生成的卡片自带传播属性,不管是发朋友圈分享趣味冷知识,还是发小红书打造科普笔记,都能快速抓住大家的注意力,轻松收获点赞与讨论。 探索 JoyfulWords 现在有太多的 AI 应用:一键生成文章、一键生成视频、一键生成小说等等。 有人开玩笑说:AI 负责仰望星空,人类负责当牛做马。 我开发这个系统,希望能围绕沉浸式写作这一个主题,把 AI 融入到写作流程中,却又不依赖 AI 来完成一篇文章。 毕竟,我们有时候也想表达点什么。 本产品没有订阅制,只消耗 AI 积分,编辑器完全免费,目前可以:AI 编辑、AI 脑图、AI 作图、AI 改图、AI PPT 、AI 知识卡、AI 搜索,还有更多的功能正在路上。 欢迎使用~
AI Coding 的效率不取决于模型的能力,而是取决于你所使用的架构是否支持多工作树低冲突合并; AI 的能力边界也不取决于模型的能力,而是取决于工程过程可被 token 化的范围边界在哪里。 以下是 CTO 的反馈。这个 CTO 是我的贵人,我刚毕业第一份面试和实习就是他: 表示边界论 定义 人工智能系统直接处理的不是现实本身,而是现实的表示。 所谓 token,在广义上指一切可被机器编码、传输、存储和运算的符号单元。 所谓 token 化,指将现实中的对象、状态、关系和过程转化为机器可处理表示的过程。 基本命题 只有进入机器表示系统的对象,才可能被人工智能处理。因而,人工智能的认知边界首先受表示边界约束。 模型本身只能执行表示变换,而不能直接触及现实。人工智能要对现实产生作用,必须借助接口、工具、传感器与执行系统形成因果闭环。 算力决定表示处理的规模、速度、成本与可持续性。 推论 人工智能能力的扩张,不只是模型能力的扩张,更是表示边界与接口边界的扩张。 多模态、工具调用、数据库连接、传感器接入,本质上都是在扩大人工智能可处理和可作用的世界。 Agent 的价值,不在于替代模型,而在于将模型嵌入现实闭环,使其从“表示变换器”变成“可作用系统”的核心部件。 这些东西我本来想写成论文,但是最近真的太忙了。CTO 说一个人自己的宝贵认知不应该随意公之于众,但是我觉得我的脑子还很新,我的认知会被自己不断推进,我不怕随时和人分享我的知识。现在模型的部署成本、能力、token的费用,还远远没有发展到极限。AI 是一个新领域,佬们,我们真正在共同构建一个全新的世界。 6 个帖子 - 6 位参与者 阅读完整话题