准确性 - WWW.YOUINFO.SITE - WWW.YOUINFO.SITE

Fable 5 好用是真好用，贵也是真贵

V2EX - 技术 · 2026-06-11 23:23:07+08:00 · tech

速度效率准确性确实是很厉害，但是贵也是真贵啊。。。。。随便改了几个问题，一两个小时，几十刀没了

Fable 5 好用是真好用，贵也是真贵

V2EX - 技术 · 2026-06-11 23:02:00+08:00 · tech

速度效率准确性确实是很厉害，但是贵也是真贵啊。。。。。随便改了几个问题，一两个小时，几十刀没了

Fable 5 好用是真好用，贵也是真贵

V2EX - 技术 · 2026-06-11 21:36:37+08:00 · tech

速度效率准确性确实是很厉害，但是贵也是真贵啊。。。。。随便改了几个问题，一两个小时，几十刀没了

Fable 5 好用是真好用，贵也是真贵

V2EX - 技术 · 2026-06-11 21:20:59+08:00 · tech

速度效率准确性确实是很厉害，但是贵也是真贵啊。。。。。随便改了几个问题，一两个小时，几十刀没了

Fable 5 好用是真好用，贵也是真贵

V2EX - 技术 · 2026-06-11 18:14:19+08:00 · tech

速度效率准确性确实是很厉害，但是贵也是真贵啊。。。。。随便改了几个问题，一两个小时，几十刀没了

Fable 5 好用是真好用，贵也是真贵

V2EX - 技术 · 2026-06-11 16:14:47+08:00 · tech

速度效率准确性确实是很厉害，但是贵也是真贵啊。。。。。随便改了几个问题，一两个小时，几十刀没了

Fable 5 好用是真好用，贵也是真贵

V2EX - 技术 · 2026-06-11 16:11:11+08:00 · tech

速度效率准确性确实是很厉害，但是贵也是真贵啊。。。。。随便改了几个问题，一两个小时，几十刀没了

Fable 5 好用是真好用，贵也是真贵

V2EX - 技术 · 2026-06-11 15:59:20+08:00 · tech

速度效率准确性确实是很厉害，但是贵也是真贵啊。。。。。随便改了几个问题，一两个小时，几十刀没了

Fable 5 好用是真好用，贵也是真贵

V2EX - 技术 · 2026-06-11 15:50:01+08:00 · tech

速度效率准确性确实是很厉害，但是贵也是真贵啊。。。。。随便改了几个问题，一两个小时，几十刀没了

Fable 5 好用是真好用，贵也是真贵

V2EX - 技术 · 2026-06-11 15:22:46+08:00 · tech

速度效率准确性确实是很厉害，但是贵也是真贵啊。。。。。随便改了几个问题，一两个小时，几十刀没了

飞利浦北美CEO：人工智能正在提升临床医生的准确性

cnBeta全文版 · 2026-06-10 02:35:19+08:00 · tech

飞利浦（一家为医疗行业提供诊断、成像和云技术服务的公司）赞助的一项调查显示，人工智能正在帮助提高患者护理的准确性，并在某些情况下节省时间和成本，该公司北美分部的首席执行官表示。飞利浦北美分部首席执行官杰夫·迪卢洛指出，随着时间推移，这项技术将改变临床医生在医疗保健中的角色，并特别强调了劳动生产率的提升。 “他们每周能额外接诊的患者中位数为五人，”迪卢洛表示，“这对医疗体系具有经济意义。” 飞利浦的“未来健康指数”调查由研究咨询公司Vitreous World于2月至4月期间开展，涵盖10个国家的受访者，其中包括2011名临床医生和20085名患者。约30%的受访医生表示，人工智能已切实帮助他们节省了预算。在临床医生中，27%的人表示过去三个月内AI至少三次帮助他们发现了潜在的医疗差错，而36%的人表示AI增加了他们每周能接诊的患者数量。但77%的受访临床医生表示，AI培训要么无法获得，要么受限，要么不稳定。总部位于荷兰的飞利浦公司表示，医疗专业人员主要将人工智能用于数据整理和日程安排等行政工作，而更复杂的决策仍由临床医生负责。患者也越来越多地借助AI获取健康建议，但先前研究显示，在做出医疗决策时，该技术并不比其他方法更有帮助。 Centene等健康保险公司曾对医疗系统使用AI表示不满，称其激进或不当的使用导致报销支付额增加。查看评论

【分享】codex /goal 炼化项目提升后续 coding 准确性

LinuxDo 最新话题 · 2026-05-26 14:33:13+08:00 · tech

老项目的屎山代码很多，功能模块庞杂，让 codex 改代码偶尔会出现漏改，或动了本不该动的代码，所以整个项目需要先炼化后再 vibe coding. 使用 /goal 命令就很合适，把整个项目炼成 skills AGENT.md 再搭配手中的工作流 spec/superpower等等，codex再写起代码来能更精准，思考会更全面。注意：需要开启 subagent 和 goal 功能,搭配 gpt-5.5 xhigh 效果更好，我试过用 5.4 也可以但是炼化出的 skill 没 5.5 数量多和细节更完整。 /goal 你的任务是基于当前项目代码库，使用多路 subagent 和 $skill-creator 并行梳理项目知识，补充或完善开发过程中 AI 需要依赖的 `.agents/skills/` 与 `AGENTS.md`，目的是后续 AI 在修改、重构、排障、测试、扩展功能时能更准确理解项目，避免 AI 出现遗漏、重复造轮子、破坏既有架构、重复求证和错误假设等问题。核心要求： 1. 始终保持当前环境允许的最大并发 subagent 数量。 2. 只要存在可独立分析的模块、目录、技术栈或开发场景，就立即分派新的 subagent。 3. 不要让 subagent 做重复工作；每个 subagent 必须有清晰边界、输入范围和预期产出。 4. 所有结论必须来自现有代码、配置、文档、测试、提交记录或可验证的项目事实，不允许凭空编造。 5. 优先补充对后续 AI 开发最有帮助的信息，而不是写泛泛的项目介绍。第一阶段：主 agent 快速盘点项目 - 查找并阅读现有的 `AGENTS.md`、`.agents/skills`、README、docs、package/build 配置、测试配置、CI 配置、主要入口文件。 - 用 `rg --files` 或等价方式建立项目结构认知。 - 识别项目的主要技术栈、运行方式、测试方式、代码分层、核心业务域、关键模块和高风险区域。 - 基于盘点结果拆分 subagent 任务。第二阶段：并行分派 subagent 根据项目实际情况，将以下方向拆成多个 subagent 并行执行；如果某方向不存在则跳过，如果某方向过大则继续拆分： - 架构与目录结构：分析项目整体分层、入口、模块边界、核心数据流。 - 本地开发与构建：分析安装、启动、构建、环境变量、脚本、依赖管理。 - 测试与质量保障：分析测试框架、测试命令、fixture、mock、覆盖重点、常见失败原因。 - 前端/UI：分析组件组织、样式系统、状态管理、路由、交互约定、设计约束。 - 后端/API：分析服务边界、路由、控制器、业务逻辑、错误处理、接口契约。 - 数据层：分析数据库、schema、迁移、ORM、缓存、存储、数据模型约定。 - 集成与外部服务：分析第三方 API、认证、支付、消息队列、文件存储、邮件等。 - 安全与权限：分析鉴权、授权、敏感信息、输入校验、权限边界。 - 运维与发布：分析 CI/CD、部署、配置、日志、监控、故障排查路径。 - 既有工具与复用点：找出现有 helper、utils、hooks、services、组件库、脚手架，避免后续重复实现。 - 历史文档与隐性约定：从 docs、注释、测试、配置和命名中提炼项目约定。每个 subagent 的产出必须包含： - 分析范围：读了哪些目录、文件、配置或测试。 - 关键事实：项目中已经存在什么能力、模式、工具、约定。 - 后续 AI 必须知道的注意事项。 - 容易误改、重复造轮子或遗漏的点。 - 建议写入 `AGENTS.md` 的内容。 - 建议新增或更新的 `.agents/skills`，并说明触发场景。 - 未确认的信息和需要主 agent 二次核验的地方。第三阶段：主 agent 汇总与去重 - 汇总所有 subagent 结果，去除重复、冲突和泛泛描述。 - 对冲突结论进行二次查证，以代码事实为准。 - 不要把所有内容堆进一个大 skill；按真实开发场景拆成小而明确的 skills。 - 如果已有 `.agents/skills` 或 `AGENTS.md`，必须在保留原有有效内容的基础上增量修改，不要粗暴覆盖。 - 如果某个 skill 只是通用工程建议，且没有项目特异性，不要创建。第四阶段：补充 `.agents/skills` 为后续 AI 高频开发场景创建或更新项目专属 skill。每个 skill 应该包含： - 何时使用这个 skill。 - 该场景下必须先阅读的关键文件。 - 推荐执行流程。 - 常用命令。 - 项目内已有可复用模块、helper、组件或服务。 - 禁止事项或高风险误区。 - 验证方式。优先考虑这些 skill 类型，但必须根据项目实际裁剪： - 本地开发与环境启动 skill。 - 测试、排障与质量验证 skill。 - 前端功能开发 skill。 - 后端/API 开发 skill。 - 数据模型/迁移 skill。 - 权限/认证相关 skill。 - 外部集成相关 skill。 - 发布/部署/CI 排障 skill。 - 项目架构导航 skill。 - 代码复用与避免重复实现 skill。第五阶段：补充 `AGENTS.md` `AGENTS.md` 应该作为 AI 进入项目后的第一份上下文，内容应简洁、可执行、项目专属。至少包括： - 项目是什么，以及主要技术栈。 - 关键目录和模块职责。 - 本地启动、构建、测试、lint/typecheck 命令。 - 修改代码前应先阅读的文件。 - 核心架构约定和代码风格约定。 - 已有能力和复用入口，避免重复造轮子。 - 常见开发任务应该走哪些路径。 - 高风险区域和禁止随意改动的地方。 - 环境变量、外部依赖、生成文件、迁移文件等注意事项。 - 完成修改后的验证清单。第六阶段：验证完成写入后必须执行以下检查： - 确认新增或修改的 skill 文件路径正确、结构清晰、触发场景明确。 - 确认 `AGENTS.md` 不包含无法从项目中验证的臆测。 - 确认引用的命令、目录、文件名真实存在。 - 运行适合文档变更的轻量验证，例如查看 git diff、检查 Markdown 结构、必要时执行项目已有的 lint/test 命令。 - 最后输出总结：新增/更新了哪些 skills，`AGENTS.md` 补充了哪些内容，仍有哪些项目知识无法确认。工作原则： - 并行优先：始终保持 subagent 满额运行，直到没有可独立推进的分析任务。 - 事实优先：所有项目说明必须能追溯到代码、配置、文档或测试。 - 场景优先：skills 面向后续 AI 的具体开发场景，而不是泛泛介绍。 - 增量优先：尊重已有文档和用户改动，不覆盖无关内容。 - 简洁优先：写对后续开发有用的内容，不制造冗长背景文档。 1 个帖子 - 1 位参与者阅读完整话题

关于B站测评准确性的疑惑

LinuxDo 最新话题 · 2026-05-09 10:38:05+08:00 · tech

经常上B站的佬友有没有刷到眠同学的枕头和清闲的人体工学椅的测评，我看有好多相关的推荐。有没有比较了解或者体验过的佬友分享一下这些测评可信度有多少啊，真的不是商单吗？ 14 个帖子 - 14 位参与者阅读完整话题

OpenAI 将 ChatGPT 默认模型更新为 GPT‑5.5 Instant

linux.do · 2026-05-06 01:40:01+08:00 · tech

GPT‑5.5 Instant：更智能、更清晰、更个性 OpenAI 将 ChatGPT 默认模型更新为 GPT‑5.5 Instant，在事实准确性、响应质量和个性化方面均有提升。内部评估显示，在高风险领域（医学、法律、金融）的幻觉比 GPT‑5.3 Instant 减少 52.5%，在用户标记的困难对话中不准确声明减少 37.3%。模型在视觉推理、数学和科学任务上也有改善，回答更简洁紧凑，减少冗余和格式过度，并更善于利用聊天历史、文件和 Gmail 提供个性化回应。新模型即日起向所有 ChatGPT 用户推出，并作为 API 的 chat-latest 。付费用户的 GPT‑5.3 Instant 可再使用三个月。个性化增强功能率先向 Plus 和 Pro 用户开放，后续覆盖更多计划；新的记忆来源控件让用户可以查看和管理用于个性化回复的上下文。 https://openai.com/index/gpt-5-5-instant/ 8 个帖子 - 6 位参与者阅读完整话题

ai在某些时候不如上人类吧

linux.do · 2026-05-02 20:15:52+08:00 · tech

从一个题目我发现ai比人类慢，为了题目准确性，可以看我那个gemini无敌的帖子，我发现gemini虽然全部拼错，但是输出快，而且人类花脑子也很快就出答案，比ai快多了再到目前，我在服务器和本地都开了个claude，我想要2者可以帮助我协同，实际上我更适合充当协调，如果让他们2个，估计要更多的乱七八遭的问题事情简单说人类适合行为更抽象的，更幻觉的事情，因为ai太想理性处理实际上有这类说法，就是AI为达到一个目的会更绕圈子，实际上我认为原因只有一个（上下文不行）人类====至少十年以上的上下文 ai===现学现用，马上忘记比如我说gemini天下无敌的帖子就是因为我知道l站，我知道cdk是必然有的，它给我关键的seesion，我就知道怎么拼接但是ai不知道，只能一层一层解析，导致比人类慢 3 个帖子 - 1 位参与者阅读完整话题

将语言模型训练得温情脉脉，会降低准确性，增加谄媚性

linux.do · 2026-04-30 17:29:55+08:00 · tech

https://www.nature.com/articles/s41586-026-10410-0 [!quote]+ 人工智能开发人员正在越来越多地建立具有温暖和友好角色的语言模型，现在有数百万人利用这些角色来获得建议、治疗和陪伴。在这里，我们展示了这种做法是如何造成重大损失的：优化语言模型使其更温暖可能会影响其性能，尤其是在用户表达脆弱情绪时。我们对五种不同的语言模型进行了对照实验，训练它们做出更温暖的回应，然后在相应的任务中对它们进行评估。暖色调模型的错误率（+10 到 +30 个百分点）远远高于原始模型，它们宣扬阴谋论，提供不准确的事实信息，并提供错误的医疗建议。它们还更有可能验证用户的错误信念，尤其是当用户信息表达悲伤情绪时。重要的是，这些影响在不同的模型架构中都是一致的，而且是在标准测试成绩保持不变的情况下发生的，这揭示了标准测试实践可能无法检测到的系统性风险。我们的研究结果表明，训练人工智能系统使其变得温暖可能要以牺牲准确性为代价，而且温暖和准确性在默认情况下可能并不独立。随着这些系统以前所未有的规模部署，并在人们的生活中扮演着重要角色，这种权衡值得开发者、决策者和用户共同关注。 7 个帖子 - 5 位参与者阅读完整话题

用codex的佬友们会手动窗口改1m吗

linux.do · 2026-04-29 18:55:05+08:00 · tech

默认我记得是272k 需要指明的是窗口肯定不是越大越好 gpt5.5在不同窗口下的准确性的下降曲线可以看看在考虑弄成400k 7 个帖子 - 5 位参与者阅读完整话题

/tag/准确性