曲线图 - WWW.YOUINFO.SITE - WWW.YOUINFO.SITE

LinuxDo 最新话题 · 2026-05-13 12:14:10+08:00 · tech

最近在研究设计一个游戏收益风险曲线图想请教一下有经验的佬友们怎么设计模拟数据测试一下或者能爬取数据绘制测试图吗（应该是没有明面上合适的开发者权限的） 8 个帖子 - 3 位参与者阅读完整话题

LinuxDo 最新话题 · 2026-05-11 15:07:43+08:00 · tech

相信佬友也有遇到过这样的需求：已经有了一个图，需要把图中的曲线还原为原始数据。手工一个一个估计显然又慢又不准，于是我找到了这一款工具： https://engaugedigitizer.com/ 完全免费免安装，使用也很简单。打开软件，把要处理的图片拖动进去，按下Shift+F3，在坐标轴上选三个点，并输入这三个点的坐标，软件会自动建系。然后可以使用 color picker这个工具来选中你想要的曲线，最后使用这个工具就能一键提取出所有的点了最后就能一键export，非常方便。此软件更详细的带图教程： https://zhuanlan.zhihu.com/p/25645273 1 个帖子 - 1 位参与者阅读完整话题

从这个数据集上看，Opus 4.6整体是强于4.7的

LinuxDo 最新话题 · 2026-05-09 11:22:01+08:00 · tech

解读一下上面的图：右侧的曲线图显示，在复杂工程的具体实现上，Opus4.6强于4.7 左侧的数据显示，在整个项目的完整把控上，Opus4.7略微强于4.6，但不多。参考内容: 最近，Meta FAIR 联合斯坦福、哈佛等机构发布了一项很有意思的新 benchmark，本质上是在重新定义 AI Coding 的评估方式： ProgramBench: Can Language Models Rebuild Programs From Scratch? 过去的大模型编程 benchmark，大多测的是局部能力：补全函数、修复 bug、实现 feature…本质上，仍然是在已有代码结构里做局部修改。而 ProgramBench 第一次把问题推进到了真正的软件工程层面：如果只给 AI 一个程序的功能描述和 usage docs，它能不能像真正的工程师一样，从零开始，重新构建一个真实、可执行的软件系统？比如 ffmpeg、SQLite、ripgrep。而且------不能联网。换句话说：模型到底有没有工程智能？为了测试这一点，研究团队直接删除了原始源码和测试，只保留 executable 和 usage docs，模型需要自己决定语言、架构、模块拆分、数据结构乃至整个 repo 的组织方式。更关键的是，ProgramBench 不再按照源码相似度打分。它采用的是 behavioral equivalence，行为等价。也就是说，你可以用完全不同的语言、算法、架构，甚至完全不同的工程实现。只要最终输入输出行为与原程序一致，就算通过。研究团队甚至使用了 agent-driven fuzzing，自动生成大量端到端行为测试。这是第一次，一个 benchmark 真正开始逼近现实世界的软件工程，而不再只是代码做题。结果出来之后，整个 AI 圈都沉默了。所有模型：0% 完成率。 Table 2 负责制造震撼，那么 Figure 4 负责解释震撼背后的细节。它告诉我们，模型并不是完全不会做，而是经常能做出一部分，甚至在少数任务上接近完成；但只要要求 100% 行为等价，所有模型都会倒下。但这最后一公里，正是软件工程和普通代码生成最大的区别。另外，如果矮子里面拔将军，Claude 系列（尤其是 Opus 4.7 和 4.6）表现相对最好。即便论文专门增加了一个 Almost 指标------统计那些完成度超过 95% 的任务。目前表现最强的 Claude Opus 4.7，也只有 3% 的任务接近完成。论文里，有一句特别关键的话： Models favor monolithic, single-file implementations that diverge sharply from human-written code. 翻译过来就是：模型极度倾向于生成单体化代码。大量逻辑被塞进单文件；目录结构极浅；模块拆分极少；函数超长；整个 repo 看起来像一坨巨型脚本。 1 个帖子 - 1 位参与者阅读完整话题

/tag/曲线图