WWW.YOUINFO.SITE
标签聚合 极差

/tag/极差

LinuxDo 最新话题 · 2026-05-20 02:41:09+08:00 · tech

Gemini网页版的搜索一直体验极差 幻觉极高 甚至一度怀疑前端根本没做搜索功能 Gemini App偶尔会显示在搜索,网页版从来都不会显示搜索 现在更新了新版UI 网页版终于会显示搜索了 然而。。 pro+新版web端 持续拒绝回答??? flash(或许是3.5或许是3)+新版web端 持续自信打错 3.5flash+aistudio 稳定正确 google search ai mode 稳定正确 chatgpt web 5.5 instant 稳定正确 前端拉跨严重降低了gemini模型的使用体验 甚至ui翻新+io大会 flash发布之际都不修复 prompt 搜索方正书版zk注解的功能 选这个是因为方正书版的语料在ai很少,几乎没有ai能写对 但是答案这个搜索又易得 可以比较有效地检测模型是否在搜索 2 个帖子 - 2 位参与者 阅读完整话题

LinuxDo 最新话题 · 2026-05-16 20:23:05+08:00 · tech

先叠甲,本人水平极差所以分辨不出来啊只是感觉在cc里面用思考会思考很久欸() 看了站内佬友们的评价,感觉各有各的。 有的说已经可以替代codex了,有的说还是差很多。有的说性价比高,也有的佬友即使在国模中 仍然会选择glm等 我想我们的评价,很多时候来源于使用场景,性价比等等考量,所以这个问题虽然是快问快答,但是我打算抛开我个人的情况(我也不咋用ds)问问佬友们 佬友们觉得不同领域下,或者佬们使用的领域下,不考虑性价比,ds的发挥如何? 使用ds的佬友们,在佬们项目中ds可担大任吗?大致是什么方向?体验如何? 不使用ds的佬友们有考虑过使用ds吗?如果有,会有什么顾虑或者ds的不足吗? ds能在佬们的方向中替代gpt/claude吗 ds比之glm,mimo等国模如何呢(如不谈性价比) 佬们的回复我尽量每一个都赞都回,期待佬友们的互动,选择感兴趣的回复,或者说佬友想说的任何事情都行! 13 个帖子 - 11 位参与者 阅读完整话题

linux.do · 2026-04-30 01:09:57+08:00 · tech

中山大学和阿里巴巴联合测试 2026 年 3 月 4 日中山大学、阿里巴巴集团联合搞了一场AI测试。他们先从 GitHub 上筛选真实 Python 项目,选取了 100 个样本,来自 68 个不同仓库,平均每个样本跨越 233 天、71 次连续提交。然后通过不断给AI提出需求来测试AI的代码生成能力,整个测试包含了国内外主流的20 个模型,来自 8 个提供商,测试消耗了超过 100 亿 token。 最主要的是,测试中发现大多数模型的零回归率低于25%,即便是在这方面最好的两个 Claude Opus 模型也只才堪堪超过50%。 所以这也就是为什么说AI写的是屎山代码,为什么说AI的能力极限在于所开发软件的架构设计的好不好 零回归率的概念 零回归率指的是:“AI 在修改过程中有没有把原来正常的功能改坏”。例如 100 个任务里有 30 个任务没有出现任何旧功能退化,那么零回归率就是 30%。 1 个帖子 - 1 位参与者 阅读完整话题

linux.do · 2026-04-20 22:02:10+08:00 · tech

众所周知,vibe coding 下生成的代码维护性极差,可以说相当于不可维护。 那么是否有好的办法能进行更好的维护,成为一个持久性的项目呢? 个人的想法是:生产前进行“需求->模块->功能->函数->锁死函数间数据格式”,然后为每个稳定模块或功能边界维护一份契约文件(一开始想着对函数的,但是函数太细致化了),其中列出这个模块对外暴露的函数集、数据结构、行为约束、测试要求和版本变更规则,后期更新某些模块或者函数时让ai进行参考,当然了契约除特殊情况不进行更新的。 不知道各位佬的思维和工具上的方式方法?? 18 个帖子 - 9 位参与者 阅读完整话题