Leaderboard - WWW.YOUINFO.SITE

LinuxDo 最新话题 · 2026-06-11 16:17:02+08:00 · tech

Arena Leaderboard | Compare & Benchmark the Best Frontier AI Models Arena Leaderboard | Compare & Benchmark the Best Frontier AI Models See how leading AI models stack up across text, image, vision, and more. This page provides a high-level snapshot of each Arena. Explore dedicated tabs for deeper insights. 用过的佬感觉如何，真的这么强吗 2 个帖子 - 2 位参与者阅读完整话题

在arena看排行榜,qwen3.7现在这么牛吗,有没有用过的佬友

LinuxDo 最新话题 · 2026-06-02 15:55:06+08:00 · tech

WebDev AI Leaderboard - Best AI Models for Web Development WebDev AI Leaderboard - Best AI Models for Web Development View overall rankings across AI models on front-end web development tasks, including agentic coding workflows that require multi-step reasoning and tool use. qwen看排行榜,coding已经和claude-opus-4-7 能旗鼓相当了?有没有用过的佬友评论一下 1 个帖子 - 1 位参与者阅读完整话题

Opus 4.8 登顶 nao 逻辑推理榜单

LinuxDo 最新话题 · 2026-05-30 08:56:30+08:00 · tech

来源： LLM Benchmark Leaderboard 7 个帖子 - 7 位参与者阅读完整话题

『LDML主贴』用于讨论评价大模型能力的排行榜网站！！

LinuxDo 最新话题 · 2026-05-27 18:26:58+08:00 · tech

关于 LDML LDML 全称 Linux Do Model Leaderboard 是一个大模型主观排行榜，能够得到大模型使用者最真实的反馈，而不是冷冰冰的评测数字。纯公益网站：本站不会收到任何收益，保证每个大模型的评价都是最真实可信的信息集中：所有人对于同一个大模型的评价都直接展现在你的眼前持续维护：每天都会尽快上新最新的模型信息，并发布帖子邀请大家来参与讨论信息真实：会随时检查所有的投票情况，针对不合理投票和不理智言论会进行清除如何访问本站目前的域名为 https://ld-ml.cn 使用说明公告：使用说明实际网站由cloudflare+家里云搭建而成，如果出现无法访问的情况，请及时向我反馈，我会以最快速度回应并解决问题。支持 LDML 本站虽是主观排行榜，但是为了保证结果的可靠性，需要足够多的数据来支持，希望大家多多投票，多多评论，助力排行榜的建设。同时如果大家愿意给 LDML的github项目点个star，就太感谢各位了。 Q&A Q: 会不会出现乱评分的情况 A: 我们欢迎佬友登录我们网站来互动交流，但是针对不合理投票我们会进行检查并清除这些无意义数据 Q: 网站会提供模型测试功能吗 A: 由于成本问题，我无法接出模型让大家测试，这里推荐大家上 Chat with Multiple Frontier AI Models 网站自行测试 Q: 我并不清楚模型在这些维度上的情况如何怎么办 A: 我们不逼迫用户填写每个模型或者每个维度，你只需要对你熟悉的模型和维度进行评分和评论即可 Q: 有新的更好的模型了，旧的评分需要降低吗 A: 需要，用户填写的是当下对于这个模型的评价，实际计算会根据时间的长度来改变权重，越久的评分权重越低。所以用户需要更新以前的评分来保证自己评分的时效性，否则自己的评分会逐渐失效先写这么多，后续有新的信息会继续更新 5 个帖子 - 5 位参与者阅读完整话题

qwen3.7-max超越claude-opus-4-6，Arena AI模型盲测最新排行榜

LinuxDo 最新话题 · 2026-05-26 09:50:34+08:00 · tech

附链接： WebDev AI Leaderboard - Best AI Models for Web Development 8 个帖子 - 5 位参与者阅读完整话题

Cursor+Composer2.5 > ClaudeCode+Opus4.7

LinuxDo 最新话题 · 2026-05-23 16:37:19+08:00 · tech

来自AA的测评（ AI Coding Agent Benchmarks & Leaderboard | Artificial Analysis Cursor+Composer2.5 fast > Cursor+Opus4.7medium > CC+Opus4.7medium A\连自家agent和自家模型的适配都做得不行 Codex对自家的模型优化还是好的要是补上 cursor+opus4.7MAX 和 cursor+gpt5.5xhigh就好了 3 个帖子 - 3 位参与者阅读完整话题

竞技场的作图模型不见了？

LinuxDo 最新话题 · 2026-05-23 11:10:24+08:00 · tech

佬们的还在吗？ Arena AI: The Official AI Ranking & LLM Leaderboard Arena AI: The Official AI Ranking & LLM Leaderboard Chat, compare, vote for the world's best AI models. Join the community shaping the public leaderboard for LLMs, image, and code models through real-world evaluation. 1 个帖子 - 1 位参与者阅读完整话题

DeepSeek v4 在 Arena Leaderboard 排名出来了

linux.do · 2026-04-24 12:44:03+08:00 · tech

Text Arena 目前评分貌似不如 Qwen 3.5 Max，不过新模型后续排名变动应该会比较大，不排除会大幅上涨的可能性。 Code Arena 天气卡片实测： DeepSeek v4 pro 天气卡片测试来了，结果有点意外开发调优 [PixPin2026-04-2411-37-40] 跑了五分钟才生成完，可能现在并发高，有点慢提示词：你是 Apple Inc 的顶级 UI 设计师，以 iOS 18 的设计风格（毛玻璃效果、高斯模糊、动态渐变、细腻阴影）创建一个单个HTML文件（包含完整CSS和JavaScript）。实现横板天气页面，包含4个并排的动画天气卡片：晴天（太阳光线、动态光晕）大风（飘动云朵、摇… 7 个帖子 - 5 位参与者阅读完整话题

Gemini 3.1 Pro模型性能

linux.do · 2026-04-22 22:23:28+08:00 · tech

从 AI Leaderboard可以看出 Gemini 3.1 Pro 其实对比指标已经sota，为啥大家用的却不是很多呀？很早我就有这个疑惑，他的二道贩子价格其实很便宜，那是因为接口转换不方便？gemini CLI的做得不够好？还是大家已经用的很多，只是我没有接触到？第一次发帖，期待佬友的解答！感谢大家交流，我继续补加2个问题：如果使用 gemini 3.1 pro大模型 + claude code，是否可以缓解模型风格问题呀？（我个人现在很喜欢用gpt5.4+claude code，我觉得比直接codex要好，大家是怎么样？因为我这边直接用codex写的代码又臭又长，很多不必要的循环判断语句去保证代码的运行，最后我都看不懂了）其中上下文限制是大模型的问题，还是他们家的CLI问题？（我个人很不喜欢用他家的CLI，openai to claude接口很多，确实我也很少见gemini 2 claude接口）。 15 个帖子 - 13 位参与者阅读完整话题

/tag/Leaderboard