榜单 - WWW.YOUINFO.SITE - WWW.YOUINFO.SITE

LinuxDo 最新话题 · 2026-06-10 11:43:56+08:00 · tech

Claude Fable 5 遥遥领先啊（包括价格），Cursor的榜单佬友们觉得参考价值大吗？ Cursor · CursorBench — Cursor · CursorBench 9 个帖子 - 8 位参与者阅读完整话题

《华尔街日报》发布首届「未来最佳公司」榜单：英伟达登顶，科技巨头主导AI与创新指标

LinuxDo 最新话题 · 2026-06-08 17:49:46+08:00 · tech

《华尔街日报》领导力研究所联合 Bendable Labs 发布了首届「面向未来的最佳公司」 (Best Companies for the Future) 榜单对标准普尔 500 指数 (S&P 500) 成分股公司进行评估。在人工智能重塑商业版图的背景下，芯片巨头英伟达 (Nvidia) 夺得头魁，在六大核心评估维度中的五项名列第一或第二。紧随其后位列前五的依次是谷歌母公司 Alphabet、微软 (Microsoft)、Meta 和思科 (Cisco Systems)，这批科技中坚力量主要得益于在创新、财务实力以及「AI准备度」 (AI readiness) 方面的优异表现。该榜单基于 20 家数据提供商的 30 项指标，从 AI 准备度、更广泛的创新力、人才准备度（含招聘、留存和员工满意度）、财务状况、供应链韧性与地缘政治风险曝光，以及企业敏捷性等六大维度对企业进行综合诊断。在整体排名中，科技生产与服务类公司占据了前 100 名中的三分之一，在前 25 名中更占据了 18 席。研究表明，尽管评估未将市值直接纳入考量，但规模较大的公司普遍表现更好。然而，体量并非决定性因素：AMD 凭借敏捷性、创新和 AI 准备度位列第 16 名；而市值是 AMD 两倍多的博通 (Broadcom) 却因 AI 准备度、人才和韧性得分较低，仅排在第 110 名。备受关注的苹果公司 (Apple) 整体排名第 12，但在 AI 准备度单项上仅排第 56 名，在 AI 采用、投资、并购及战略合作等维度均落后于其他「美股七巨头」成员。分析指出，这主要是由于该评估高度依赖公开披露，而苹果习惯对未发布技术保持神秘，实际投入未必低。此外，榜单在人才评估中特别融入了对 Z 世代 (Gen Z) 员工的保留率及远程办公友好度等指标，非科技公司在此表现亮眼，例如达美航空 (Delta Air Lines) 摘得人才准备度单项桂冠（但因创新和财务状况欠佳，整体排名第 103）。 https://www.wsj.com/lifestyle/careers/2026-best-companies-future-nvidia-f6744e03?mod=hp_lead_pos3 1 个帖子 - 1 位参与者阅读完整话题

现在哪个网站的ai评测是比较权威的？

LinuxDo 最新话题 · 2026-06-08 10:48:13+08:00 · tech

找了几个榜单每个排名的不一样，有没有比较权威的网站我找的几个 huggingface 、 LDML 大模型排行榜 4 个帖子 - 4 位参与者阅读完整话题

新的 Github 注册年限查询，带榜单，快来看看你排第几

LinuxDo 最新话题 · 2026-06-07 19:43:33+08:00 · tech

http://github-age.bloodkev.lol/ 带有排行榜，看看你第几名 7 个帖子 - 7 位参与者阅读完整话题

美国企业重新给DeepSeek打钱登顶美国企业新增采购榜

cnBeta全文版 · 2026-06-06 15:35:22+08:00 · tech

企业支出管理平台Ramp于6月3日发布的6月软件供应商榜单显示， DeepSeek位居榜首，成为当月美国企业首次付费采购增长最猛的基础大模型厂商。Ramp首席经济学家阿拉·哈拉扎良（Ara Kharazian）指出，企业这次并非只是自行部署DeepSeek的开源模型，而是直接向DeepSeek付费、传输和接收数据。一年多前美国企业对DeepSeek的热度是浅尝辄止的尝鲜，这次变成了真实的付费使用。 ▲Ramp 2026年6月热门软件供应商榜单（图源：Ramp） Ramp是一家总部位于纽约的金融科技公司，依托企业信用卡与账单支付平台，每月处理数十亿美元的企业支出，同时按月统计客户首次采购合作的新增服务商并进行排名，借此直观展现新兴市场动向、高速成长企业等行业信息。这份榜单的统计口径来自Ramp今年推出的供应商数据库Ramp Rate，依托平台上5万多家企业的真实交易，跟踪各品类的市场份额、企业采用率与增长趋势。更值得关注的是这股回流背后的大趋势。在AI开支不断膨胀、企业普遍收紧预算的背景下，越来越多美国公司正从OpenAI和Anthropic分流，转向开源模型和更便宜的模型，而中国厂商DeepSeek的登顶，只是这条成本线上最扎眼的一个信号。一、DeepSeek美国企业采用率回升，使用方式出现新变化 DeepSeek并非首次出现在Ramp的榜单上。哈拉扎良写道，去年1月DeepSeek曾经历一轮不大不小的热度，在Ramp AI指数中的企业采用率一度升至0.3%，但随后迅速回落，仅剩约0.1%的美国企业仍在使用。如今美国企业再度选用DeepSeek，而且据Ramp的支出数据，美国企业是在向DeepSeek直接付费。这一结果出乎哈拉扎良的预料。让他意外的，不只是DeepSeek重新出现，而是它出现的方式。哈拉扎良说，这一次美国企业正在直接通过DeepSeek传输和接收数据，也就是说，它们是在直接使用DeepSeek提供的商业服务，而非仅仅运行其开源模型。不过哈拉扎良也提醒，不宜高估这一趋势的持续性，对企业来说，直接接入DeepSeek存在实实在在的竞争与安全顾虑，这股回流随时可能逆转。作为对照，在今年4月，Anthropic和OpenAI以34.4%和32.3%的采用率稳居指数前两位，DeepSeek 远未对二者构成实质冲击。也就是说，它这次登上的是 “相对自身规模增速最快”的突破性榜单，而非绝对采用量榜首，Ramp也并未公布其6月的具体市场份额。 ▲美国企业AI付费采购渗透率趋势图（图源：Ramp）二、AI支出失控，企业转向更便宜的模型调用方案回流中国模型只是更大转向的一部分。哈拉扎良说，企业正越来越多地使用开源模型，在一定程度上从OpenAI和Anthropic分流，转而借助第三方平台完成模型部署与调用，他点名了AI推理平台Fireworks AI、fal AI和DeepInfra。在他看来，这背后是企业管理不断膨胀的AI开支的现实需求。他由此向美国模型厂商喊话，认为对方应当通过更便宜的模型或智能路由（smart routing）来回应这种压力，帮助客户管住失控的AI支出。与此同时，AI并未横扫所有软件品类。尽管外界一直在讨论Claude会不会取代设计工具，但设计软件Figma和Paper本月双双进入榜单，说明专业设计软件的需求依然稳固。结语：成本影响企业AI采购选择哈拉扎良此前就已预判，企业会更多尝试开源模型以及来自OpenAI、Anthropic和Google的更便宜（性能稍弱）的模型，只是他没料到美国企业会真的用上中国对手DeepSeek。对OpenAI和Anthropic等美国模型厂商而言，价格与成本已经成为企业选择的关键变量，在性能与开支之间给出更优解，才能留住正在精打细算的企业客户。查看评论

[推广] MiniMax M3 API 限时一折卖

v2ex · 2026-06-05 22:59:22+08:00 · tech

在 Artificial Analysis Intelligence Index 等榜单中，MiniMax-M3 综合得分 54.7 ，排名全球第七、国产第二，接近 Claude Opus 4.7 （ 57.3 ），在代码工程、智能体任务、长文本处理等维度进入第一梯队。 MiniMax M3 国产模型第一梯队模型 API 一折。立即访问： https://wellapi.ai/pricing?keyword=MiniMax

[推广] MiniMax M3 API 限时一折卖

v2ex · 2026-06-05 22:37:14+08:00 · tech

在 Artificial Analysis Intelligence Index 等榜单中，MiniMax-M3 综合得分 54.7 ，排名全球第七、国产第二，接近 Claude Opus 4.7 （ 57.3 ），在代码工程、智能体任务、长文本处理等维度进入第一梯队。 MiniMax M3 国产模型第一梯队模型 API 一折。立即访问： https://wellapi.ai/pricing?keyword=MiniMax

《财富》美国500强榜单揭晓亚马逊登顶终结沃尔玛榜首纪录

cnBeta全文版 · 2026-06-04 13:35:40+08:00 · tech

2026年《财富》美国500强排行榜正式发布，这是《财富》第72年发布该榜单，上榜公司收入和利润均创历史新高。榜上全部500家公司总收入由去年的19.91万亿美元上升到20.98万亿美元，较前一年增长约5.4%。上榜公司总收入相当于美国当年GDP的三分之二。 2025年，这些美国最大企业的总利润约2.1万亿美元，比上一年增长约12%。亚马逊超越沃尔玛位列榜首，打破了沃尔玛连续十三年蝉联榜首的纪录。沃尔玛位列第二，联合健康集团位列第三，苹果公司和Alphabet公司紧随其后，分别位列第四、五位。从盈利能力来看，科技和金融行业仍然是最赚钱的行业。Alphabet公司去年盈利1，321.7亿美元，较上一年增长约32%，蝉联利润榜榜首。英伟达去年盈利达到了创纪录的1，200.67亿美元，较上一年大幅增长约64.8%，上升至利润榜第二位。苹果公司去年盈利1，120.1亿美元，较上一年增长约19.5%，但在利润榜中的排名下滑一位，位列第三。 “美股七巨头”中，除特斯拉、苹果排位保持不变，其余五家公司的排名均有所提升，Google母公司Alphabet公司、英伟达、苹果、微软在去年的净利润均超过千亿美元。今年的榜单中有15家公司为股东实现的10年年化总回报率超过30%，包括英伟达、超威半导体公司、博通、特斯拉和礼来公司。其中，英伟达2025年10年年化股东总回报率为72%，在榜单中居于首位。 50家最赚钱公司排名：查看评论

【开源影视APP】WebHomeTV，Nostr去中心化影视推荐榜单、集成盘搜、网盘检测、一键同步等功能

LinuxDo 最新话题 · 2026-06-03 22:09:54+08:00 · tech

本帖使用社区开源推广，符合推广要求。我申明并遵循社区要求的以下内容：我的帖子已经打上开源推广标签：是我的开源项目完整开源，无未开源部分：是我的开源项目已链接认可 LINUX DO 社区：是我帖子内的项目介绍，AI生成、润色内容部分已截图发出：是以上选择我承诺是永久有效的，接受社区和佬友监督：是以下为项目介绍正文内容，AI生成、润色内容已使用截图方式发出 github.com GitHub - fish2018/webhtv: WebHomeTV 基于FongMi二次开发，增强了 WebHome 自定义首页、App... WebHomeTV 基于FongMi二次开发，增强了 WebHome 自定义首页、App Native SDK、网盘链接检测和 Nostr推荐首页。这个项目的核心目标是让 CSP 站点首页可以变成一个真正可开发的网页应用：开发者可以用 HTML/CSS/JavaScript 定制首页，再通过 App 暴露的 Native 能力完成搜索、播放、跨域请求、资源代理、最近观看、网盘检测和状态同步。觉得好使的戳一下(20积分)，感谢打赏 LINUX DO Credit 主要增强功能自定义web作为app主页 Nostr推荐榜单，基于去中心化技术实现，根据真实用户观影数据自动发布榜单内置网盘搜索(盘搜) 和网盘链接有效性检测局域网一键同步，方便电视端配置站点注入，方便在线接口随时添加自定义CSP 支持壳代理下载地址： https://github.com/fish2018/webhtv/releases 效果演示录屏电视端手机端 4 个帖子 - 3 位参与者阅读完整话题

为什么感觉Qwen这么拉垮

LinuxDo 最新话题 · 2026-06-02 11:33:05+08:00 · tech

感觉Qwen就很玄学，榜单非常强，技术也强，但是用户说不行。这是为什么呢？ 6 个帖子 - 5 位参与者阅读完整话题

不要迷信AI大模型榜单

LinuxDo 最新话题 · 2026-06-01 23:45:42+08:00 · tech

叠个甲，本篇帖子并不是以说教的口吻宣导，只是个人感受分享。最近国内外厂商争相推新，百家争鸣，然而也催生了一类又一类的评测榜单，建议各位佬友明确自我对大模型的需求，不要受榜单影响，我个人观察到因为一类又一类AI大模型的榜单出现，社区的拉踩现象也越来越严重，不局限于L站，L站的风气相对好一些，可见各位佬友的理智还是在线的，一个工具而已，哪个更适合自己，自然就选择哪个，现在除了深度适配deepseek的以外，其它切大模型几乎是0成本，实在是没必要为大模型去浪费口舌。比如有些榜单，拿几轮对话能解决问题来衡量智能程度的，我也尝试使用描述清晰的提示词给到deepseek-flash[high]，也能做到一轮对话解决，这是不是等于直接打脸所有榜单？难道同样就能证明deepseek-flash[high]就可以比肩opus4.6\4.7\4.8、gpt-5.5这些了么，很明显不是的。同样也说明了另一个点，即使不是顶尖的模型，只要适用得当，也可以比肩顶尖模型，能达到自己的需要，我现在编码的唯一选择也就只有flash（图他便宜），在不断在积累vide coding案例、harness案例之后，也能够很流畅完全日常各类工作，甚至是智能体的研发。就我个人使用体验来说，运用好claude code的plan模式，其实啥模型都能完成我的工作，更多的是发现了模型的不足，再通过提示词进行弥补即可，而不是让大模型来弥补提示词的不足，那这成本太高了。 15 个帖子 - 13 位参与者阅读完整话题

2B 参数“四两拨千斤”，智元自研世界模型 GE 2.0 登顶 WorldArena 榜单

IT之家 · 2026-05-30 23:16:22+08:00 · tech

IT之家 5 月 30 日消息，“智元 AGIBOT”官方公众号 29 日发文宣布：具身领域热门榜单 WorldArena Track1（世界模型感知与动作响应赛道）最新评测结果揭晓，智元自研的世界模型 Genie Envisioner-Sim 2.0（IT之家注：以下简称 GE 2.0）登顶榜单。所谓“世界模型”，简单来说就是能理解物理世界规律的 AI 大模型。机器人若具备“世界模型”能力，就能知道杯子掉地上会碎、水往低处流、积木搭太高会倒等常识。在该赛道评测中，智元团队使用了原生的世界模型 GE 2.0，并未针对赛题进行特殊设计优化，仅基于榜单数据进行了基础微调（Finetune）。根据介绍，GE 2.0 在功能上首次全面覆盖了长时序生成、多视角生成、本体状态生成、近实时推理以及奖励判别等核心环节，构建了世界模拟器完整的技术能力闭环。在长时序推理任务中，GE 2.0 表现出极强的稳定性，画面质量随推理时长的衰减显著弱于行业基线方案。即使在连续推演 40-50 秒的长视频片段时，其生成质量依然超越了基线模型前 10 秒内的表现。团队验证了大量闭环评测结果，证明 GE 2.0 在多项任务上均与真实世界保持着强相关性。这种相关性不止步于宏观统计意义上的“成功率一致”，团队还进行了逐案（Case-by-case）的 rollout 结果对比分析，并通过混淆矩阵（Confusion Matrix）提供了严谨的量化佐证，进一步证明了 GE 2.0 作为策略评测器的可靠性。在奖励模型（Reward Model）的加持下，GE 2.0 能够对闭环评测的 rollout 过程进行自动化筛选，将世界模型中产出的有效高质量数据精准回流给策略模型（Policy Model）。实验证明，这一机制在多项任务上均助力策略模型实现了显著的性能涨点。此外，据上观新闻报道，智元 GE 2.0 此次与英伟达最新模型 DreamDojo、清华联合斯坦福的 Ctrl-World 团队等国内外 AI 顶尖团队直接竞争，并最终夺冠。GE 2.0 仅用 20 亿（2B）参数的模型，结果比英伟达、微软等超大参数的旗舰模型效果更优秀，也验证了在人形机器人应用方面，轻量化模型的适配性不逊于超大参数模型。

Opus 4.8 登顶 nao 逻辑推理榜单

LinuxDo 最新话题 · 2026-05-30 08:56:30+08:00 · tech

来源： LLM Benchmark Leaderboard 7 个帖子 - 7 位参与者阅读完整话题

qwen3.7max真是神了！

LinuxDo 最新话题 · 2026-05-29 22:32:17+08:00 · tech

如图，在nao佬的私人榜单上，qwen3.7max甚至仅次于5.5，而且这一骑绝尘的token消耗最终时间才300s，说明tps无敌。绝对是用了自己试的新注意力或者别的什么了。另外这opus4.8中位分数十分拉胯，证明这个模型稳定性不行啊，甚至不如4.6。 8 个帖子 - 6 位参与者阅读完整话题

如何在AI时代获得有用的信息？

LinuxDo 最新话题 · 2026-05-28 17:58:08+08:00 · tech

我在github上面看到有人做的热搜榜单，这样确实很方便但是其中的信息源包含不少垃圾信息，我想了解一下佬友们是如何获取高质量信息的。 8 个帖子 - 6 位参与者阅读完整话题

大模型的各种榜单还具有参考价值吗？

LinuxDo 最新话题 · 2026-05-28 14:59:19+08:00 · tech

现在有各种各样的大模型榜单，但是大伙好像对榜单的认可度不高？而且还有和体感不符的情况？那么现在要找编码能力强的模型那个榜单更有参考价值呢？附上自己在看的榜单： artificialanalysis.ai AI Model & API Providers Analysis | Artificial Analysis Comparison and analysis of AI models and API hosting providers. Independent benchmarks across key performance metrics including quality, price, output speed & latency. WebDev AI Leaderboard - Best AI Models for Web Development WebDev AI Leaderboard - Best AI Models for Web Development View overall rankings across AI models on front-end web development tasks, including agentic coding workflows that require multi-step reasoning and tool use. DeepSWE DeepSWE DeepSWE measures frontier coding agents on original, long-horizon software engineering tasks. 正在处理：2a4a7846-b75f-496f-bdc7-d43cf60fcad8.png… 5 个帖子 - 4 位参与者阅读完整话题

中国AI闯入全球编程前二前面只剩Claude

LinuxDo 最新话题 · 2026-05-27 15:54:33+08:00 · tech

就在今天，Code Arena最新榜单出炉！Qwen3.7-Max以1541分闯入全球前四，一举超越了GPT-5.5、Gemini 3.5 Flash等一众顶尖模型。排在它前面的，只剩Claude Opus 4.7和Opus 4.6。换句话说，在全球编程模型的竞技场上，阿里是唯一杀进这张牌桌的中国厂商，仅次于Anthropic，位列第二。 Qwen3.7-Max闯入全球前五唯一非Claude模型其实在Code Arena放榜之前，Qwen3.7-Max在海外开发者圈子里已经杀出了名声。 Atomic Chat做了一场硬碰硬的对比，让Opus 4.7、GPT-5.5和Qwen3.7-Max同台竞技，任务是写一个能自我训练的俄罗斯方块AI。结果，Qwen3.7-Max不仅只用$1.32的token成本就把Opus 4.7和GPT-5.5都超越了，而且性能还提升了56%。另一位海外开发者选择让Qwen3.7-Max构建了一个宇宙的3D模型，效果足以用震撼形容。在“3D像素风微缩宝塔模型”的生成任务中，Qwen3.7-Max的输出速度和质量同样全面胜出。左右开发者Paul Couvert更是盛赞，Qwen3.7-Max接入Hermes Agent和OpenCode之后，基本可以替掉GPT-5.5和Opus 4.7。编程，太能打了不过跑分再高，不如真刀真枪拉出来练练。我们给Qwen3.7-Max安排了一场硬核的“赛车游戏”挑战。一段详细的prompt丢进去，不一会儿功夫，Qwen3.7-Max直出一个可玩的HTML的文件。第一版有个小bug，A/D转向键左右搞反了。但经过第二轮简单对话微调，一个体验完整的3D赛车游戏就跑了起来。打开的瞬间，说实话，有点被惊到了。 4车同台，3圈环形赛道竞速，赛道上散落着100多枚金币，碰到障碍物会减速、失控。赛后成绩面板，排名、用时、金币数、最快单圈，一项不缺。但真正让人意外的，是两个只有Qwen3.7-Max做到的细节。一个是开始界面。四个模型横向测完，只有它给游戏做了一个正经的开始页面，点“Start”才进入比赛。其他三家全是打开即跑，连个标题画面都没有。另一个是音效。prompt最后附了一条要求，加上发动机轰鸣和吃金币的音效。四个模型里，也只有它把这个bonus吃进去了，引擎声和金币叮咚都安排上了。再看看其他选手的表现。 Gemini 3.5 Flash的画面明显单薄了一档，缺少那种呼之欲出的立体感。 UI布局也有问题，仪表盘信息分散在屏幕四角，视觉焦点一盘散沙。相比之下，Qwen3.7-Max的处理方式是把关键指标集中到画面中央，更符合玩家视线的自然落点。 Claude Opus 4.6的效果，有点让人一言难尽了。不仅赛道上金币少得可怜，而且3辆AI赛车几乎同步行驶，毫无随机性，像复制粘贴出来的。最后是GPT-5.5。可以看到，画面质感确实比前两家强了不少，操作起来也更流畅。但不知道为什么，金币被做成了黄色的“甜甜圈”…… 造型倒是小事。关键是，Gemini、Claude、ChatGPT三家都修了好几轮bug才跑通全部功能。只有Qwen3.7-Max首轮生成就基本可玩。跑分接近，实测不虚，价格只有几分之一。剩下的结论，等开发者用脚投票就行了。 Agent时代的“基座”模型 Qwen3.7-Max之所以能在最卷的编程擂台上打出如此水平，答案就藏在它的产品定位里。几天前，阿里发布Qwen3.7-Max的时候，给了它一个非常特殊的标签： Agent基座模型。它生来，就是为长时间自主执行任务设计的模型。内测数据显示，在一次自主编程任务中，Qwen3.7-Max连续运行35个小时，执行1158次工具调用。最终生成的代码相较于Triton参考实现，达到了惊人的10倍几何平均加速。更令人震撼的是它的“持久战”能力—— 在推演进行到第30个小时之后，模型依然保持敏锐，持续挖掘出新的优化空间。全程零上下文退化、零指令漂移、零死循环！不得不说，这件事的难点不在1000次工具调用本身。MCP协议铺开之后，调1000次工具不算稀奇。难点在于，35小时的连贯推理。绝大多数模型跑长任务时会崩盘：要么上下文越积越乱，前半段定的目标到后面忘得干干净净；要么进入死循环，反复尝试同一个失败的方案。 Qwen3.7-Max把“持续做对事”这件事，做出来了。核心技术揭秘 Qwen3.7-Max这波编程跃升，我们理解核心可能与两个训练方法的升级有关。第一个是，环境扩展。 Qwen3.7-Max在做编程训练时，每个任务会被拆成三个独立维度，任务本身、执行框架、验证方式，三者自由组合。同一道题，有时候在Claude Code的框架里做，有时候在OpenClaw里做，有时候换一种验证方式。效果就像一个实习生被轮岗到了所有项目组。它被迫学会的是解决问题的通用策略，不是“在某个特定框架里怎么取巧”。这解释了一个反直觉的现象，Qwen3.7-Max在Claude Code、OpenClaw、Qwen Code这几个框架里的表现都很稳，没有出现“在自家框架里很强、换一个就拉胯”的情况。第二个升级是，长程自主执行。在训练中，团队引入了“动态累积生存博弈”框架。也就是，让模型在持续变化的模拟环境中做超过一千步的连续决策，自己建立假设、根据反馈调整策略，而且不能因为跑太久就“上下文腐化”。这里有一个直观的数据，YC-Bench模拟创业公司经营一整年，Qwen3.7-Max做到了208万美元营收，是上一代（105万）的两倍。更关键的是，它展现出了策略进化，中期遇到危机能自主调整方向，识别并拉黑恶意客户，最终收敛到稳定的执行循环。这就是35小时kernel优化案例的底层支撑，也是为什么在Kernel Bench L3上，Qwen3.7-Max能让96%的场景跑出加速效果。而编程还只是第一个战场。这套长程推理加工具调用的底子，指向的是一个更大的野心——通用Agent基座。编程决赛，多了一个搅局者 Code Arena上线至今，考的从来都是硬活，多步推理、工具编排、完整项目交付，全是Agent级的真刀真枪。今天，Qwen3.7-Max凭借着1541分的成绩楔进了第四的位置，卡在Opus 4.6 Thinking和Opus 4.6之间。在这条Claude统治了大半年的赛道上，它给出了自己的回答，中国模型不只是追赶者，也可以是定义者。全球编程模型的竞赛，已经不再是硅谷的独角戏了。 15 个帖子 - 15 位参与者阅读完整话题

中国AI闯入全球编程前二前面只剩Claude

cnBeta全文版 · 2026-05-27 13:35:34+08:00 · tech

就在今天，Code Arena最新榜单出炉！Qwen3.7-Max以1541分闯入全球前四，一举超越了GPT-5.5、Gemini 3.5 Flash等一众顶尖模型。排在它前面的，只剩Claude Opus 4.7和Opus 4.6。换句话说，在全球编程模型的竞技场上，阿里是唯一杀进这张牌桌的中国厂商，仅次于Anthropic，位列第二。 Qwen3.7-Max闯入全球前五唯一非Claude模型其实在Code Arena放榜之前，Qwen3.7-Max在海外开发者圈子里已经杀出了名声。 Atomic Chat做了一场硬碰硬的对比，让Opus 4.7、GPT-5.5和Qwen3.7-Max同台竞技，任务是写一个能自我训练的俄罗斯方块AI。结果，Qwen3.7-Max不仅只用$1.32的token成本就把Opus 4.7和GPT-5.5都超越了，而且性能还提升了56%。另一位海外开发者选择让Qwen3.7-Max构建了一个宇宙的3D模型，效果足以用震撼形容。在“3D像素风微缩宝塔模型”的生成任务中，Qwen3.7-Max的输出速度和质量同样全面胜出。左右开发者Paul Couvert更是盛赞，Qwen3.7-Max接入Hermes Agent和OpenCode之后，基本可以替掉GPT-5.5和Opus 4.7。编程，太能打了不过跑分再高，不如真刀真枪拉出来练练。我们给Qwen3.7-Max安排了一场硬核的“赛车游戏”挑战。一段详细的prompt丢进去，不一会儿功夫，Qwen3.7-Max直出一个可玩的HTML的文件。第一版有个小bug，A/D转向键左右搞反了。但经过第二轮简单对话微调，一个体验完整的3D赛车游戏就跑了起来。打开的瞬间，说实话，有点被惊到了。 4车同台，3圈环形赛道竞速，赛道上散落着100多枚金币，碰到障碍物会减速、失控。赛后成绩面板，排名、用时、金币数、最快单圈，一项不缺。但真正让人意外的，是两个只有Qwen3.7-Max做到的细节。一个是开始界面。四个模型横向测完，只有它给游戏做了一个正经的开始页面，点“Start”才进入比赛。其他三家全是打开即跑，连个标题画面都没有。另一个是音效。prompt最后附了一条要求，加上发动机轰鸣和吃金币的音效。四个模型里，也只有它把这个bonus吃进去了，引擎声和金币叮咚都安排上了。再看看其他选手的表现。 Gemini 3.5 Flash的画面明显单薄了一档，缺少那种呼之欲出的立体感。 UI布局也有问题，仪表盘信息分散在屏幕四角，视觉焦点一盘散沙。相比之下，Qwen3.7-Max的处理方式是把关键指标集中到画面中央，更符合玩家视线的自然落点。 Claude Opus 4.6的效果，有点让人一言难尽了。不仅赛道上金币少得可怜，而且3辆AI赛车几乎同步行驶，毫无随机性，像复制粘贴出来的。最后是GPT-5.5。可以看到，画面质感确实比前两家强了不少，操作起来也更流畅。但不知道为什么，金币被做成了黄色的“甜甜圈”…… 造型倒是小事。关键是，Gemini、Claude、ChatGPT三家都修了好几轮bug才跑通全部功能。只有Qwen3.7-Max首轮生成就基本可玩。跑分接近，实测不虚，价格只有几分之一。剩下的结论，等开发者用脚投票就行了。 Agent时代的“基座”模型 Qwen3.7-Max之所以能在最卷的编程擂台上打出如此水平，答案就藏在它的产品定位里。几天前，阿里发布Qwen3.7-Max的时候，给了它一个非常特殊的标签： Agent基座模型。它生来，就是为长时间自主执行任务设计的模型。内测数据显示，在一次自主编程任务中，Qwen3.7-Max连续运行35个小时，执行1158次工具调用。最终生成的代码相较于Triton参考实现，达到了惊人的10倍几何平均加速。更令人震撼的是它的“持久战”能力—— 在推演进行到第30个小时之后，模型依然保持敏锐，持续挖掘出新的优化空间。全程零上下文退化、零指令漂移、零死循环！不得不说，这件事的难点不在1000次工具调用本身。MCP协议铺开之后，调1000次工具不算稀奇。难点在于，35小时的连贯推理。绝大多数模型跑长任务时会崩盘：要么上下文越积越乱，前半段定的目标到后面忘得干干净净；要么进入死循环，反复尝试同一个失败的方案。 Qwen3.7-Max把“持续做对事”这件事，做出来了。核心技术揭秘 Qwen3.7-Max这波编程跃升，我们理解核心可能与两个训练方法的升级有关。第一个是，环境扩展。 Qwen3.7-Max在做编程训练时，每个任务会被拆成三个独立维度，任务本身、执行框架、验证方式，三者自由组合。同一道题，有时候在Claude Code的框架里做，有时候在OpenClaw里做，有时候换一种验证方式。效果就像一个实习生被轮岗到了所有项目组。它被迫学会的是解决问题的通用策略，不是“在某个特定框架里怎么取巧”。这解释了一个反直觉的现象，Qwen3.7-Max在Claude Code、OpenClaw、Qwen Code这几个框架里的表现都很稳，没有出现“在自家框架里很强、换一个就拉胯”的情况。第二个升级是，长程自主执行。在训练中，团队引入了“动态累积生存博弈”框架。也就是，让模型在持续变化的模拟环境中做超过一千步的连续决策，自己建立假设、根据反馈调整策略，而且不能因为跑太久就“上下文腐化”。这里有一个直观的数据，YC-Bench模拟创业公司经营一整年，Qwen3.7-Max做到了208万美元营收，是上一代（105万）的两倍。更关键的是，它展现出了策略进化，中期遇到危机能自主调整方向，识别并拉黑恶意客户，最终收敛到稳定的执行循环。这就是35小时kernel优化案例的底层支撑，也是为什么在Kernel Bench L3上，Qwen3.7-Max能让96%的场景跑出加速效果。而编程还只是第一个战场。这套长程推理加工具调用的底子，指向的是一个更大的野心——通用Agent基座。编程决赛，多了一个搅局者 Code Arena上线至今，考的从来都是硬活，多步推理、工具编排、完整项目交付，全是Agent级的真刀真枪。今天，Qwen3.7-Max凭借着1541分的成绩楔进了第四的位置，卡在Opus 4.6 Thinking和Opus 4.6之间。在这条Claude统治了大半年的赛道上，它给出了自己的回答，中国模型不只是追赶者，也可以是定义者。全球编程模型的竞赛，已经不再是硅谷的独角戏了。查看评论

全都是野榜啊哪里的AI榜更有参考价值？

LinuxDo 最新话题 · 2026-05-26 17:04:53+08:00 · tech

每个榜都有人说是刷的野榜哪里的榜单更加值得一看？推荐推荐 12 个帖子 - 10 位参与者阅读完整话题

Qwen在B站发布动态，声称”千问3.7编程仅次于Claude“

LinuxDo 最新话题 · 2026-05-26 12:25:42+08:00 · tech

动态：刚刚，全球权威编程榜单 Code Arena正式放榜，千问最新旗舰模型 Qwen3.7-Max得分 1541，超越GPT-5.5、Gemini-3.5-Flash、GLM-5.1、Kimi-K2.6等一众模型，仅次于Claude系列，在大模型厂商中排名全球第二。全球权威编程榜单 Code Arena 这是由知名第三方大模型盲测平台 LMArena 推出的最具影响力的编程能力榜单之一。与传统的代码基准测试不同，Code Arena 由开发者出题，要求模型从零生成完整的、可交互的 Web 应用程序，并交由用户对匿名模型进行两两 PK 盲测投票，根据投票综合生成最终榜单。因此，Code Arena 也被视为目前全球最具公信力的 AI 编程能力评测之一。编程突出的 Qwen3.7-Max Qwen3.7-Max 在 Code Arena 榜单中斩获 1541 分，次于最强模型Claude-opus-4.7，可媲美Claude-opus-4.6，是目前榜单中唯一突破 1540 分大关的国产大模型。在真实项目交付能力上，Qwen3.7-Max 同样表现出色：能在数小时内独立完成专业团队耗时 2 周的复杂项目端到端交付；可持续运行 35 小时，累计完成超 1000 次工具调用的复杂长程任务，甚至能自我编程优化芯片内核。感谢全球开发者的每一次投票和反馈，我们将继续努力，打磨更好的模型给大家。链接：千问大模型的动态 - 哔哩哔哩 24 个帖子 - 24 位参与者阅读完整话题

/tag/榜单