WWW.YOUINFO.SITE
标签聚合 取决于

/tag/取决于

LinuxDo 最新话题 · 2026-06-11 20:37:42+08:00 · tech

仅评价任务持续性和完成度。codex搭配gpt-5.5能把任务推到彻底完成,我还没开goal模式,只是简单交代了句,gpt-5.5搭配claude code不行。claude code不会自动压缩gpt-5.5的会话,会假完成或者交付一堆bug?例如我最近在给ccs做webui,claude code搭配gpt-5.5不会自动压缩上下文,新开会话即使有handoff文件也会导致几个bug来回绕,但是codex搭配gpt-5.5把我的pr拉到了github的@codex review也只有一条误报。因此我建议模型搭配自家客户端,使用体验会好很多其实。我在linux也是用上了macos dmg移植到linux的codex客户端 15 个帖子 - 6 位参与者 阅读完整话题

LinuxDo 最新话题 · 2026-06-03 17:40:57+08:00 · tech

论文: [2605.27922] Harness-Bench: Measuring Harness Effects across Models in Realistic Agent Workflows 代码: GitHub - Qihoo360/harness-bench · GitHub harness-bench.ai Leaderboard - Harness Bench Harness Bench leaderboard across harnesses, models, domains, and completion, process, and combined task scores. harness bench 简单来说就是固定任务和模型,只换harness,看agent表现差多少。 方法 106个沙箱化离线任务,8个类别(SWE、数据分析、DevOps、长程状态维护等),每个任务有独立的oracle grader。 评估维度有completion score 、LLM judge score 和security score。 测了6个现在比较火的agent(OpenClaw、nanobot、Hermes、ZeroClaw、NullClaw、Moltis) 8个模型后端(gpt-5.4、claude-opus-4.6、claude-sonnet-4.6、gemini-3.1-pro-preview、qwen3.6-plus、glm-5.1、kimi-k2.5、deepseek-v4-flash),总共5194条execution trajectories。 几个关键结论 同模型换框架,综合分最大差距23.8分(nanobot 76.2 vs OpenClaw 52.4)。说明agent benchmark只报模型得分而不报框架配置是不够的。 Failure mode分析(Table 3)比较有参考价值:36.4%的失败是contract/format类,即agent产出了内容但格式不满足验证条件;24.6%是tool/recovery类,即工具调用出错后没能恢复。真正的推理错误只占一小部分。对框架设计的启示:容错和输出校验比堆模型能力更影响实际成功率。 强模型(gpt-5.4、claude-opus-4.6)跨harness的方差更小,中等模型对harness质量更敏感。好的harness能显著拉高中等模型的上限。 Token效率方面差异显著,同样任务不同harness消耗的token能差3-4倍,主要取决于上下文构建策略。 局限 全部是离线沙箱任务,没有在线服务、用户交互、长期记忆场景。LLM judge score 依赖LLM judge,引入了评估方的主观性。只测了配置级差异,没有因果分解。 Section 5提出的execution-alignment概念值得注意:框架的核心价值在于维持agent推理、workspace实际状态、工具返回结果、最终验证条件之间的对应关系,大多数失败的根本原因不是模型推理出错,而是agent的内部判断和外部实际状态脱节了,比如以为文件改对了其实没改,以为命令成功了其实报错了。 1 个帖子 - 1 位参与者 阅读完整话题

IT之家 · 2026-05-31 20:59:54+08:00 · tech

IT之家 5 月 31 日消息,天风国际证券分析师郭明錤今天在 X 平台发文,分析英伟达 N1/N1X 芯片的市场前景。 供应链调查显示,配备 N1X/N1 芯片的设备未来两年出货量大约为 1000 万台。面向小众市场,瞄准对端侧 AI 算力有需求的重度使用者。除开售价因素,未来出货量能否上修(IT之家注:向上调升), 仍取决于 Windows 是否能提供真正调度端侧 AI 算力的应用与工作流 。 郭明錤认为,目前 PC 市场主流 AI 应用仍在“用浏览器上大语言模型网站”和“通过 API 消耗云端 LLM 算力 / Token”。核心都是使用云端 AI 算力,而非端侧模型。 并且 2026 年 PC 产业两大热门事件 , 都与端侧 AI 几乎无关 。 其中,MacBook Neo 能够热卖的原因在于,消费者看重这款笔记本的“低价 + 设计 + 生态”,而不是买端侧 AI 算力;Mac mini 等便宜的小型 PC 主机仍属于小众市场,但因为能长时间挂机跑 OpenClaw 等 AI 智能体而受到高度关注, 这类智能体的推理算力几乎也来自云端 。 因此郭明錤表示,无论销量(里子)还是话题(面子),这两大事件都与端侧 AI 算力几乎无关。 端侧 AI 若想推动换机升级潮,关键在于操作系统。端侧 AI 技术与云端的最大差异在于,它能够在兼顾隐私的前提下,高度整合跨应用的用户资料与工作流,而这显然需要操作系统的深度支持。但目前 PC 操作系统的 AI 化进程仍处于“为自家应用增加 AI 功能”和“轻度整合跨应用的工作流”。 虽然市场上已有语音转文字等端侧 AI 应用场景,但仍不足以推动显著的升级换机需求。 此外,N1X/N1 芯片设备有望为 AI 重度用户提供另一选择。它能够在 AI 算力、内存、外观与便携性之间,取得一个更好的平衡点; 也能为用户提供 Mac 以外的另一个选择 。 但回到正题,端侧 AI 若想带动升级换机潮, 除售价外仍然需要操作系统(Windows)作为关键支撑 。

LinuxDo 最新话题 · 2026-05-19 08:43:14+08:00 · tech

(\ _ /) ( ・-・) /っ 前文提要: 第 2 个视频(By Claude。这次流畅多了 搞七捻三 (\ _ /) ( ・-・) /っ 前文提要: 视频长度取决于模型能单次生成的最大秒数 ✓ 使用的分镜 ↓ 不用完整分镜也可以,即梦自己会补帧。 [019e300f-efc1-7742-8791-6e7976646aac] (\ _ /) ( ・-・) /っ 那么有一个哲学的问题:女主是 Claude 拟人, 那我要艹她吗? ↑ 我 TM 累死累活愣是一个互动都没,用擦边起手的刚传上去简介都还没写就有 8 个了。 使用的分镜图 ↓ GPT 画风更艺术唯美,但显然即梦更懂擦边 ✓ (\ _ /) ( ・-・) /っ 开头并不是最涩的抽卡,但保守考虑就选了不 NSFW 的。昨晚差点对 Claude 打了 21 个帖子 - 16 位参与者 阅读完整话题

LinuxDo 最新话题 · 2026-05-17 21:59:09+08:00 · tech

(\ _ /) ( ・-・) /っ 前文提要: 第 2 个视频(By Claude。这次流畅多了 搞七捻三 (\ _ /) ( ・-・) /っ 前文提要: 视频长度取决于模型能单次生成的最大秒数 ✓ 使用的分镜 ↓ 不用完整分镜也可以,即梦自己会补帧。 [019e300f-efc1-7742-8791-6e7976646aac] (\ _ /) ( ・-・) /っ 那么有一个哲学的问题:女主是 Claude 拟人, 那我要艹她吗? 中午新注册的 0 粉新号 (本体抖有领导同事那些不是太方便) 因为前 2W 字是凑热闹为了 签约 冲字数的,后面才开始认真当编辑角色逐句审稿,所以不得不把一些后章节的钩子往前推推。 随便点开了一些点赞朋友的主页都是有作品的甚至上百万粉的 up 都有,不是僵尸粉。 30 cny 值了 ✓ 不过只有 新号首单 是这个价,后面的要 98 了推个蛋,躺。_(:з」∠)_ 7 个帖子 - 4 位参与者 阅读完整话题

v2ex.com · 2026-04-28 09:34:01+08:00 · tech

一篇文章能不能被读者点开,很多时候并不只取决于标题。封面图、正文插图、信息卡片,都会悄悄影响读者的第一印象,也会影响内容在小红书、朋友圈、公众号和其它平台里的传播效果。 在 AI 生成技术越来越成熟之后,给文章配图不再一定意味着打开多个工具、反复写 prompt 、下载再上传。更理想的方式,是让图片生成、网络素材搜索、图片重构和知识卡片生成都贴着写作流程发生。下面,我会用几个常见场景,聊聊如何在 JoyfulWords 里把一篇文章的视觉内容补完整。 文章封面配图 一张良好的封面配图可以让读者产生阅读兴趣,为了设计出精美的文章封面图,我们可以使用 JoyfulWords 中提供的 Create Image 工具,设计出各种各样的封面布局。 我这里展示一个示例布局,在该预设布局下,我仅需输入轻量化的视觉风格与核心要素描述,AI 视觉生成模型将自动补全缺失的专业视觉细节,输出符合内容传播标准的高质量配图。相较于通用对话式 AI 生成工具,它通过结构化交互界面简化了 prompt 构建流程,无需撰写大段精细化描述指令即可达成预期效果,显著提升了配图生成的效率与精准匹配度。 我们得到了一些示例图片,可以直接用来做文章封面: 搜索网络图片 无需在 Google 图片中大海捞针,可以直接在写文章时候随时搜索图片素材,只需要点击编辑器左侧的搜索栏,就可以搜索网络图片。 不过,如果搜索的图片带有水印,或者不满足要求,我们也可以使用 Split Image Layers 和 Stylize Image 重构图片。 使用这个功能,我们把黄色的跑车扣出来,然后把它改成全新的水晶跑车: 通过这个操作,我们可以将网络上存在版权的图片,变成自己的原创图片。这三个功能相互配合,可以生成很多好玩的图片。 信息卡片/知识卡片 最后,就是当前非常流行的各种信息卡片,知识卡片的生成。 这里能生成适配不同场景的多元风格卡片——不管是适合知识科普的科技极简风、适合读书笔记的文艺复古风,还是适合职场分享的商务干练风,都能一键生成。操作步骤也很清晰:首先在编辑器中选中需要转化的文字内容,可以是一段科普论述、一篇干货笔记或是一份会议摘要,AI 便会自动识别核心信息,梳理逻辑脉络,提炼出条理分明的核心要点,再将其转化为视觉效果精致、重点突出的信息卡片。 举个具体例子,我们先准备一段关于宇宙奥秘的知识点: “暗物质与暗能量是构成宇宙的关键神秘组分:暗物质约占宇宙总质能的 26.8%,它无法通过电磁波观测,却凭借引力维系着星系的结构与运转;暗能量则占据宇宙总质能的 68.3%,是推动宇宙持续加速膨胀的幕后力量,其物理本质至今仍是天体物理学领域的重大未解之谜。” 选中这段文字后,只需选择想要的科技质感风格,AI 就能快速生成一张分点清晰的知识卡片,把专业复杂的知识点变得直观易懂,更利于传播与记忆。 还可以生成适配小红书、朋友圈的爆款风格卡片,比如我们准备一段自带话题感的冷知识: “你知道吗?平时吃的草莓,我们咬下的粉嫩‘果肉’其实是它的花托,表面那些密密麻麻的小颗粒才是真正的瘦果,相当于草莓的‘种子’!” 选中这段文字后,选择“清新萌系”风格,AI 会自动匹配,生成的卡片自带传播属性,不管是发朋友圈分享趣味冷知识,还是发小红书打造科普笔记,都能快速抓住大家的注意力,轻松收获点赞与讨论。 探索 JoyfulWords 现在有太多的 AI 应用:一键生成文章、一键生成视频、一键生成小说等等。 有人开玩笑说:AI 负责仰望星空,人类负责当牛做马。 我开发这个系统,希望能围绕沉浸式写作这一个主题,把 AI 融入到写作流程中,却又不依赖 AI 来完成一篇文章。 毕竟,我们有时候也想表达点什么。 本产品没有订阅制,只消耗 AI 积分,编辑器完全免费,目前可以:AI 编辑、AI 脑图、AI 作图、AI 改图、AI PPT 、AI 知识卡、AI 搜索,还有更多的功能正在路上。 欢迎使用~

linux.do · 2026-04-27 10:35:23+08:00 · tech

AI Coding 的效率不取决于模型的能力,而是取决于你所使用的架构是否支持多工作树低冲突合并; AI 的能力边界也不取决于模型的能力,而是取决于工程过程可被 token 化的范围边界在哪里。 以下是 CTO 的反馈。这个 CTO 是我的贵人,我刚毕业第一份面试和实习就是他: 表示边界论 定义 人工智能系统直接处理的不是现实本身,而是现实的表示。 所谓 token,在广义上指一切可被机器编码、传输、存储和运算的符号单元。 所谓 token 化,指将现实中的对象、状态、关系和过程转化为机器可处理表示的过程。 基本命题 只有进入机器表示系统的对象,才可能被人工智能处理。因而,人工智能的认知边界首先受表示边界约束。 模型本身只能执行表示变换,而不能直接触及现实。人工智能要对现实产生作用,必须借助接口、工具、传感器与执行系统形成因果闭环。 算力决定表示处理的规模、速度、成本与可持续性。 推论 人工智能能力的扩张,不只是模型能力的扩张,更是表示边界与接口边界的扩张。 多模态、工具调用、数据库连接、传感器接入,本质上都是在扩大人工智能可处理和可作用的世界。 Agent 的价值,不在于替代模型,而在于将模型嵌入现实闭环,使其从“表示变换器”变成“可作用系统”的核心部件。 这些东西我本来想写成论文,但是最近真的太忙了。CTO 说一个人自己的宝贵认知不应该随意公之于众,但是我觉得我的脑子还很新,我的认知会被自己不断推进,我不怕随时和人分享我的知识。现在模型的部署成本、能力、token的费用,还远远没有发展到极限。AI 是一个新领域,佬们,我们真正在共同构建一个全新的世界。 6 个帖子 - 6 位参与者 阅读完整话题