WWW.YOUINFO.SITE
标签聚合 Leaderboard

/tag/Leaderboard

LinuxDo 最新话题 · 2026-06-11 16:17:02+08:00 · tech

Arena Leaderboard | Compare & Benchmark the Best Frontier AI Models Arena Leaderboard | Compare & Benchmark the Best Frontier AI Models See how leading AI models stack up across text, image, vision, and more. This page provides a high-level snapshot of each Arena. Explore dedicated tabs for deeper insights. 用过的佬感觉如何,真的这么强吗 2 个帖子 - 2 位参与者 阅读完整话题

LinuxDo 最新话题 · 2026-05-27 18:26:58+08:00 · tech

关于 LDML LDML 全称 Linux Do Model Leaderboard 是一个大模型主观排行榜,能够得到大模型使用者最真实的反馈,而不是冷冰冰的评测数字。 纯公益网站: 本站不会收到任何收益,保证每个大模型的评价都是最真实可信的 信息集中: 所有人对于同一个大模型的评价都直接展现在你的眼前 持续维护: 每天都会尽快上新最新的模型信息,并发布帖子邀请大家来参与讨论 信息真实: 会随时检查所有的投票情况,针对不合理投票和不理智言论会进行清除 如何访问 本站目前的域名为 https://ld-ml.cn 使用说明公告: 使用说明 实际网站由cloudflare+家里云搭建而成,如果出现无法访问的情况,请及时向我反馈,我会以最快速度回应并解决问题。 支持 LDML 本站虽是主观排行榜,但是为了保证结果的可靠性,需要足够多的数据来支持,希望大家 多多投票 , 多多评论 ,助力排行榜的建设。 同时如果大家愿意给 LDML的github项目 点个star,就太感谢各位了。 Q&A Q: 会不会出现乱评分的情况 A: 我们欢迎佬友登录我们网站来互动交流,但是针对不合理投票我们会进行检查并清除这些无意义数据 Q: 网站会提供模型测试功能吗 A: 由于成本问题,我无法接出模型让大家测试,这里推荐大家上 Chat with Multiple Frontier AI Models 网站自行测试 Q: 我并不清楚模型在这些维度上的情况如何怎么办 A: 我们不逼迫用户填写每个模型或者每个维度,你只需要对你熟悉的模型和维度进行评分和评论即可 Q: 有新的更好的模型了,旧的评分需要降低吗 A: 需要,用户填写的是当下对于这个模型的评价,实际计算会根据时间的长度来改变权重,越久的评分权重越低。所以用户需要更新以前的评分来保证自己评分的时效性,否则自己的评分会逐渐失效 先写这么多,后续有新的信息会继续更新 5 个帖子 - 5 位参与者 阅读完整话题

linux.do · 2026-04-24 12:44:03+08:00 · tech

Text Arena 目前评分貌似不如 Qwen 3.5 Max,不过新模型后续排名变动应该会比较大,不排除会大幅上涨的可能性。 Code Arena 天气卡片实测: DeepSeek v4 pro 天气卡片测试来了,结果有点意外 开发调优 [PixPin2026-04-2411-37-40] 跑了五分钟才生成完,可能现在并发高,有点慢 提示词: 你是 Apple Inc 的顶级 UI 设计师,以 iOS 18 的设计风格(毛玻璃效果、高斯模糊、动态渐变、细腻阴影)创建一个单个HTML文件(包含完整CSS和JavaScript)。实现横板天气页面,包含4个并排的动画天气卡片: 晴天(太阳光线、动态光晕) 大风(飘动云朵、摇… 7 个帖子 - 5 位参与者 阅读完整话题

linux.do · 2026-04-22 22:23:28+08:00 · tech

从 AI Leaderboard可以看出 Gemini 3.1 Pro 其实对比指标已经sota,为啥大家用的却不是很多呀? 很早我就有这个疑惑,他的二道贩子价格其实很便宜,那是因为接口转换不方便?gemini CLI的做得不够好?还是大家已经用的很多,只是我没有接触到? 第一次发帖,期待佬友的解答! 感谢大家交流,我继续补加2个问题: 如果使用 gemini 3.1 pro大模型 + claude code,是否可以缓解模型风格问题呀?(我个人现在很喜欢用gpt5.4+claude code,我觉得比直接codex要好,大家是怎么样?因为我这边直接用codex写的代码又臭又长,很多不必要的循环判断语句去保证代码的运行,最后我都看不懂了) 其中上下文限制是大模型的问题,还是他们家的CLI问题?(我个人很不喜欢用他家的CLI,openai to claude接口很多,确实我也很少见gemini 2 claude接口)。 15 个帖子 - 13 位参与者 阅读完整话题