WWW.YOUINFO.SITE
标签聚合 榜单

/tag/榜单

LinuxDo 最新话题 · 2026-06-08 17:49:46+08:00 · tech

《华尔街日报》领导力研究所联合 Bendable Labs 发布了首届「面向未来的最佳公司」 (Best Companies for the Future) 榜单对标准普尔 500 指数 (S&P 500) 成分股公司进行评估。 在人工智能重塑商业版图的背景下,芯片巨头英伟达 (Nvidia) 夺得头魁,在六大核心评估维度中的五项名列第一或第二。 紧随其后位列前五的依次是谷歌母公司 Alphabet、微软 (Microsoft)、Meta 和思科 (Cisco Systems),这批科技中坚力量主要得益于在创新、财务实力以及「AI准备度」 (AI readiness) 方面的优异表现。 该榜单基于 20 家数据提供商的 30 项指标,从 AI 准备度、更广泛的创新力、人才准备度(含招聘、留存和员工满意度)、财务状况、供应链韧性与地缘政治风险曝光,以及企业敏捷性等六大维度对企业进行综合诊断。在整体排名中,科技生产与服务类公司占据了前 100 名中的三分之一,在前 25 名中更占据了 18 席。研究表明,尽管评估未将市值直接纳入考量,但规模较大的公司普遍表现更好。然而,体量并非决定性因素:AMD 凭借敏捷性、创新和 AI 准备度位列第 16 名;而市值是 AMD 两倍多的博通 (Broadcom) 却因 AI 准备度、人才和韧性得分较低,仅排在第 110 名。 备受关注的苹果公司 (Apple) 整体排名第 12,但在 AI 准备度单项上仅排第 56 名,在 AI 采用、投资、并购及战略合作等维度均落后于其他「美股七巨头」成员。分析指出,这主要是由于该评估高度依赖公开披露,而苹果习惯对未发布技术保持神秘,实际投入未必低。此外,榜单在人才评估中特别融入了对 Z 世代 (Gen Z) 员工的保留率及远程办公友好度等指标,非科技公司在此表现亮眼,例如达美航空 (Delta Air Lines) 摘得人才准备度单项桂冠(但因创新和财务状况欠佳,整体排名第 103)。 https://www.wsj.com/lifestyle/careers/2026-best-companies-future-nvidia-f6744e03?mod=hp_lead_pos3 1 个帖子 - 1 位参与者 阅读完整话题

cnBeta全文版 · 2026-06-06 15:35:22+08:00 · tech

企业支出管理平台Ramp于6月3日发布的6月软件供应商榜单显示, DeepSeek位居榜首 ,成为当月 美国企业首次付费采购增长最猛 的基础大模型厂商。Ramp首席经济学家阿拉·哈拉扎良(Ara Kharazian)指出,企业这次并非只是自行部署DeepSeek的开源模型,而是 直接向DeepSeek付费、传输和接收数据 。一年多前美国企业对DeepSeek的热度是浅尝辄止的尝鲜,这次变成了真实的付费使用。 ▲Ramp 2026年6月热门软件供应商榜单(图源:Ramp) Ramp是一家总部位于纽约的金融科技公司,依托企业信用卡与账单支付平台,每月处理数十亿美元的企业支出,同时按月统计客户首次采购合作的新增服务商并进行排名,借此直观展现新兴市场动向、高速成长企业等行业信息。 这份榜单的统计口径来自Ramp今年推出的供应商数据库Ramp Rate,依托平台上5万多家企业的真实交易,跟踪各品类的市场份额、企业采用率与增长趋势。 更值得关注的是这股回流背后的大趋势。在AI开支不断膨胀、企业普遍收紧预算的背景下,越来越多美国公司正从OpenAI和Anthropic分流, 转向开源模型和更便宜的模型 ,而中国厂商DeepSeek的登顶,只是这条成本线上最 扎眼的一个信号 。 一、DeepSeek美国企业采用率回升,使用方式出现新变化 DeepSeek并非首次出现在Ramp的榜单上。哈拉扎良写道, 去年1月DeepSeek曾经历一轮不大不小的热度 ,在Ramp AI指数中的企业采用率一度升至0.3%,但随后 迅速回落 ,仅剩约0.1%的美国企业仍在使用。 如今美国企业再度选用DeepSeek,而且据Ramp的支出数据,美国企业是在向DeepSeek直接付费。 这一结果出乎哈拉扎良的预料。让他意外的,不只是DeepSeek重新出现,而是它出现的方式。 哈拉扎良说,这一次美国企业正在直接通过DeepSeek传输和接收数据,也就是说,它们是在直接使用DeepSeek提供的商业服务,而非仅仅运行其开源模型。 不过哈拉扎良也提醒,不宜高估这一趋势的持续性,对企业来说,直接接入DeepSeek存在实实在在的 竞争与安全顾虑 , 这股回流随时可能逆转 。 作为对照,在今年4月,Anthropic和OpenAI以34.4%和32.3%的采用率稳居指数前两位,DeepSeek 远未对二者构成实质冲击 。也就是说,它这次登上的是 “相对自身规模增速最快”的突破性榜单 ,而非绝对采用量榜首,Ramp也并未公布其6月的具体市场份额。 ▲美国企业AI付费采购渗透率趋势图(图源:Ramp) 二、AI支出失控,企业转向更便宜的模型调用方案 回流中国模型只是更大转向的一部分。哈拉扎良说,企业正越来越多地使用开源模型,在一定程度上从OpenAI和Anthropic分流,转而借助第三方平台完成模型部署与调用,他点名了AI推理平台Fireworks AI、fal AI和DeepInfra。 在他看来,这背后是 企业管理不断膨胀的AI开支的现实需求 。他由此向美国模型厂商喊话,认为对方应当通过更便宜的模型或智能路由(smart routing)来回应这种压力,帮助客户管住失控的AI支出。 与此同时,AI并未横扫所有软件品类。尽管外界一直在讨论Claude会不会取代设计工具,但设计软件Figma和Paper本月双双进入榜单,说明专业设计软件的需求依然稳固。 结语:成本影响企业AI采购选择 哈拉扎良此前就已预判,企业会更多尝试开源模型以及来自OpenAI、Anthropic和Google的更便宜(性能稍弱)的模型,只是他没料到美国企业会真的用上中国对手DeepSeek。 对OpenAI和Anthropic等美国模型厂商而言,价格与成本已经成为企业选择的关键变量,在性能与开支之间给出更优解,才能留住正在精打细算的企业客户。 查看评论

cnBeta全文版 · 2026-06-04 13:35:40+08:00 · tech

2026年《财富》美国500强排行榜正式发布,这是《财富》第72年发布该榜单,上榜公司收入和利润均创历史新高。 榜上全部500家公司总收入由去年的19.91万亿美元上升到20.98万亿美元,较前一年增长约5.4%。上榜公司总收入相当于美国当年GDP的三分之二。 2025年,这些美国最大企业的总利润约2.1万亿美元,比上一年增长约12%。 亚马逊超越沃尔玛位列榜首,打破了沃尔玛连续十三年蝉联榜首的纪录。 沃尔玛位列第二,联合健康集团位列第三,苹果公司和Alphabet公司紧随其后,分别位列第四、五位。 从盈利能力来看,科技和金融行业仍然是最赚钱的行业。Alphabet公司去年盈利1,321.7亿美元,较上一年增长约32%,蝉联利润榜榜首。 英伟达去年盈利达到了创纪录的1,200.67亿美元,较上一年大幅增长约64.8%,上升至利润榜第二位。 苹果公司去年盈利1,120.1亿美元,较上一年增长约19.5%,但在利润榜中的排名下滑一位,位列第三。 “美股七巨头”中,除特斯拉、苹果排位保持不变,其余五家公司的排名均有所提升,Google母公司Alphabet公司、英伟达、苹果、微软在去年的净利润均超过千亿美元。 今年的榜单中有15家公司为股东实现的10年年化总回报率超过30%,包括英伟达、超威半导体公司、博通、特斯拉和礼来公司。 其中,英伟达2025年10年年化股东总回报率为72%,在榜单中居于首位。 50家最赚钱公司排名: 查看评论

LinuxDo 最新话题 · 2026-06-03 22:09:54+08:00 · tech

本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容: 我的帖子已经打上 开源推广 标签: 是 我的开源项目完整开源,无未开源部分: 是 我的开源项目已链接认可 LINUX DO 社区: 是 我帖子内的项目介绍,AI生成、润色内容部分已截图发出: 是 以上选择我承诺是永久有效的,接受社区和佬友监督: 是 以下为项目介绍正文内容,AI生成、润色内容已使用截图方式发出 github.com GitHub - fish2018/webhtv: WebHomeTV 基于FongMi二次开发,增强了 WebHome 自定义首页、App... WebHomeTV 基于FongMi二次开发,增强了 WebHome 自定义首页、App Native SDK、网盘链接检测 和 Nostr推荐首页。 这个项目的核心目标是让 CSP 站点首页可以变成一个真正可开发的网页应用:开发者可以用 HTML/CSS/JavaScript 定制首页,再通过 App 暴露的 Native 能力完成搜索、播放、跨域请求、资源代理、最近观看、网盘检测和状态同步。 觉得好使的戳一下(20积分),感谢打赏 LINUX DO Credit 主要增强功能 自定义web作为app主页 Nostr推荐榜单,基于去中心化技术实现,根据真实用户观影数据自动发布榜单 内置 网盘搜索(盘搜) 和网盘链接有效性检测 局域网一键同步,方便电视端配置 站点注入,方便在线接口随时添加自定义CSP 支持壳代理 下载地址: https://github.com/fish2018/webhtv/releases 效果演示录屏 电视端 手机端 4 个帖子 - 3 位参与者 阅读完整话题

LinuxDo 最新话题 · 2026-06-01 23:45:42+08:00 · tech

叠个甲,本篇帖子并不是以说教的口吻宣导,只是个人感受分享。 最近国内外厂商争相推新,百家争鸣,然而也催生了一类又一类的评测榜单,建议各位佬友明确自我对大模型的需求,不要受榜单影响,我个人观察到因为一类又一类AI大模型的榜单出现,社区的拉踩现象也越来越严重,不局限于L站,L站的风气相对好一些,可见各位佬友的理智还是在线的,一个工具而已,哪个更适合自己,自然就选择哪个,现在除了深度适配deepseek的以外,其它切大模型几乎是0成本,实在是没必要为大模型去浪费口舌。 比如有些榜单,拿几轮对话能解决问题来衡量智能程度的,我也尝试使用描述清晰的提示词给到deepseek-flash[high],也能做到一轮对话解决,这是不是等于直接打脸所有榜单?难道同样就能证明deepseek-flash[high]就可以比肩opus4.6\4.7\4.8、gpt-5.5这些了么,很明显不是的。 同样也说明了另一个点,即使不是顶尖的模型,只要适用得当,也可以比肩顶尖模型,能达到自己的需要,我现在编码的唯一选择也就只有flash(图他便宜),在不断在积累vide coding案例、harness案例之后,也能够很流畅完全日常各类工作,甚至是智能体的研发。 就我个人使用体验来说,运用好claude code的plan模式,其实啥模型都能完成我的工作,更多的是发现了模型的不足,再通过提示词进行弥补即可,而不是 让大模型来弥补提示词的不足,那这成本太高了 。 15 个帖子 - 13 位参与者 阅读完整话题

IT之家 · 2026-05-30 23:16:22+08:00 · tech

IT之家 5 月 30 日消息,“智元 AGIBOT”官方公众号 29 日发文宣布:具身领域热门榜单 WorldArena Track1( 世界模型感知与动作响应赛道 )最新评测结果揭晓,智元自研的世界模型 Genie Envisioner-Sim 2.0(IT之家注:以下简称 GE 2.0)登顶榜单。 所谓“世界模型”,简单来说就是 能理解物理世界规律 的 AI 大模型。机器人若具备“世界模型”能力,就能知道杯子掉地上会碎、水往低处流、积木搭太高会倒等常识。 在该赛道评测中,智元团队使用了原生的世界模型 GE 2.0,并未针对赛题进行特殊设计优化,仅基于榜单数据进行了基础微调(Finetune)。 根据介绍,GE 2.0 在功能上首次全面覆盖了 长时序生成、多视角生成、本体状态生成、近实时推理以及奖励判别 等核心环节,构建了世界模拟器完整的技术能力闭环。 在长时序推理任务中,GE 2.0 表现出极强的稳定性,画面质量随推理时长的衰减显著弱于行业基线方案。即使在连续推演 40-50 秒的长视频片段时,其生成质量依然超越了基线模型前 10 秒内的表现。 团队验证了大量闭环评测结果,证明 GE 2.0 在多项任务上均 与真实世界保持着强相关 性。 这种相关性不止步于宏观统计意义上的“成功率一致”,团队还进行了逐案(Case-by-case)的 rollout 结果对比分析,并通过混淆矩阵(Confusion Matrix)提供了严谨的量化佐证,进一步证明了 GE 2.0 作为策略评测器的可靠性。 在奖励模型(Reward Model)的加持下,GE 2.0 能够对闭环评测的 rollout 过程进行自动化筛选, 将世界模型中产出的有效高质量数据精准回流给策略模型(Policy Model)。 实验证明,这一机制在多项任务上均助力策略模型实现了显著的性能涨点。 此外,据上观新闻报道,智元 GE 2.0 此次与英伟达最新模型 DreamDojo、清华联合斯坦福的 Ctrl-World 团队等国内外 AI 顶尖团队直接竞争,并最终夺冠。GE 2.0 仅用 20 亿(2B)参数的模型 ,结果比英伟达、微软等 超大参数的旗舰模型 效果更优秀,也验证了在人形机器人应用方面,轻量化模型的适配性不逊于超大参数模型。

LinuxDo 最新话题 · 2026-05-28 14:59:19+08:00 · tech

现在有各种各样的大模型榜单,但是大伙好像对榜单的认可度不高?而且还有和体感不符的情况? 那么现在要找编码能力强的模型那个榜单更有参考价值呢? 附上自己在看的榜单: artificialanalysis.ai AI Model & API Providers Analysis | Artificial Analysis Comparison and analysis of AI models and API hosting providers. Independent benchmarks across key performance metrics including quality, price, output speed & latency. WebDev AI Leaderboard - Best AI Models for Web Development WebDev AI Leaderboard - Best AI Models for Web Development View overall rankings across AI models on front-end web development tasks, including agentic coding workflows that require multi-step reasoning and tool use. DeepSWE DeepSWE DeepSWE measures frontier coding agents on original, long-horizon software engineering tasks. 正在处理:2a4a7846-b75f-496f-bdc7-d43cf60fcad8.png… 5 个帖子 - 4 位参与者 阅读完整话题

LinuxDo 最新话题 · 2026-05-27 15:54:33+08:00 · tech

就在今天,Code Arena最新榜单出炉!Qwen3.7-Max以1541分闯入全球前四,一举超越了GPT-5.5、Gemini 3.5 Flash等一众顶尖模型。排在它前面的,只剩Claude Opus 4.7和Opus 4.6。 换句话说,在全球编程模型的竞技场上,阿里是唯一杀进这张牌桌的中国厂商,仅次于Anthropic,位列第二。 Qwen3.7-Max闯入全球前五 唯一非Claude模型 其实在Code Arena放榜之前,Qwen3.7-Max在海外开发者圈子里已经杀出了名声。 Atomic Chat做了一场硬碰硬的对比,让Opus 4.7、GPT-5.5和Qwen3.7-Max同台竞技,任务是写一个能自我训练的俄罗斯方块AI。 结果,Qwen3.7-Max不仅只用$1.32的token成本就把Opus 4.7和GPT-5.5都超越了,而且性能还提升了56%。 另一位海外开发者选择让Qwen3.7-Max构建了一个宇宙的3D模型,效果足以用震撼形容。 在“3D像素风微缩宝塔模型”的生成任务中,Qwen3.7-Max的输出速度和质量同样全面胜出。 左右 开发者Paul Couvert更是盛赞,Qwen3.7-Max接入Hermes Agent和OpenCode之后,基本可以替掉GPT-5.5和Opus 4.7。 编程,太能打了 不过跑分再高,不如真刀真枪拉出来练练。 我们给Qwen3.7-Max安排了一场硬核的“赛车游戏”挑战。 一段详细的prompt丢进去,不一会儿功夫,Qwen3.7-Max直出一个可玩的HTML的文件。 第一版有个小bug,A/D转向键左右搞反了。 但经过第二轮简单对话微调,一个体验完整的3D赛车游戏就跑了起来。 打开的瞬间,说实话,有点被惊到了。 4车同台,3圈环形赛道竞速,赛道上散落着100多枚金币,碰到障碍物会减速、失控。 赛后成绩面板,排名、用时、金币数、最快单圈,一项不缺。 但真正让人意外的,是两个只有Qwen3.7-Max做到的细节。 一个是开始界面。四个模型横向测完,只有它给游戏做了一个正经的开始页面,点“Start”才进入比赛。其他三家全是打开即跑,连个标题画面都没有。 另一个是音效。prompt最后附了一条要求,加上发动机轰鸣和吃金币的音效。 四个模型里,也只有它把这个bonus吃进去了,引擎声和金币叮咚都安排上了。 再看看其他选手的表现。 Gemini 3.5 Flash的画面明显单薄了一档,缺少那种呼之欲出的立体感。 UI布局也有问题,仪表盘信息分散在屏幕四角,视觉焦点一盘散沙。 相比之下,Qwen3.7-Max的处理方式是把关键指标集中到画面中央,更符合玩家视线的自然落点。 Claude Opus 4.6的效果,有点让人一言难尽了。 不仅赛道上金币少得可怜,而且3辆AI赛车几乎同步行驶,毫无随机性,像复制粘贴出来的。 最后是GPT-5.5。 可以看到,画面质感确实比前两家强了不少,操作起来也更流畅。 但不知道为什么,金币被做成了黄色的“甜甜圈”…… 造型倒是小事。关键是,Gemini、Claude、ChatGPT三家都修了好几轮bug才跑通全部功能。 只有Qwen3.7-Max首轮生成就基本可玩。 跑分接近,实测不虚,价格只有几分之一。剩下的结论,等开发者用脚投票就行了。 Agent时代的“基座”模型 Qwen3.7-Max之所以能在最卷的编程擂台上打出如此水平,答案就藏在它的产品定位里。 几天前,阿里发布Qwen3.7-Max的时候,给了它一个非常特殊的标签: Agent基座模型 。 它生来,就是为 长时间自主执行任务 设计的模型。 内测数据显示,在一次自主编程任务中,Qwen3.7-Max连续运行35个小时,执行1158次工具调用。 最终生成的代码相较于Triton参考实现,达到了惊人的10倍几何平均加速。 更令人震撼的是它的“持久战”能力—— 在推演进行到第30个小时之后,模型依然保持敏锐,持续挖掘出新的优化空间。 全程零上下文退化、零指令漂移、零死循环! 不得不说,这件事的难点不在1000次工具调用本身。MCP协议铺开之后,调1000次工具不算稀奇。 难点在于,35小时的连贯推理。 绝大多数模型跑长任务时会崩盘:要么上下文越积越乱,前半段定的目标到后面忘得干干净净;要么进入死循环,反复尝试同一个失败的方案。 Qwen3.7-Max把“持续做对事”这件事,做出来了。 核心技术揭秘 Qwen3.7-Max这波编程跃升,我们理解核心可能与两个训练方法的升级有关。 第一个 是, 环境扩展。 Qwen3.7-Max在做编程训练时,每个任务会被拆成三个独立维度,任务本身、执行框架、验证方式,三者自由组合。 同一道题,有时候在Claude Code的框架里做,有时候在OpenClaw里做,有时候换一种验证方式。 效果就像一个实习生被轮岗到了所有项目组。它被迫学会的是解决问题的通用策略,不是“在某个特定框架里怎么取巧”。 这解释了一个反直觉的现象,Qwen3.7-Max在Claude Code、OpenClaw、Qwen Code这几个框架里的表现都很稳,没有出现“在自家框架里很强、换一个就拉胯”的情况。 第二个升级是 , 长程自主执行。 在训练中,团队引入了“动态累积生存博弈”框架。 也就是,让模型在持续变化的模拟环境中做超过一千步的连续决策,自己建立假设、根据反馈调整策略,而且不能因为跑太久就“上下文腐化”。 这里有一个直观的数据,YC-Bench模拟创业公司经营一整年,Qwen3.7-Max做到了208万美元营收,是上一代(105万)的两倍。 更关键的是,它展现出了策略进化,中期遇到危机能自主调整方向,识别并拉黑恶意客户,最终收敛到稳定的执行循环。 这就是35小时kernel优化案例的底层支撑,也是为什么在Kernel Bench L3上,Qwen3.7-Max能让96%的场景跑出加速效果。 而编程还只是第一个战场。这套长程推理加工具调用的底子,指向的是一个更大的野心——通用Agent基座。 编程决赛,多了一个搅局者 Code Arena上线至今,考的从来都是硬活,多步推理、工具编排、完整项目交付,全是Agent级的真刀真枪。 今天,Qwen3.7-Max凭借着1541分的成绩楔进了第四的位置,卡在Opus 4.6 Thinking和Opus 4.6之间。 在这条Claude统治了大半年的赛道上,它给出了自己的回答,中国模型不只是追赶者,也可以是定义者。 全球编程模型的竞赛,已经不再是硅谷的独角戏了。 15 个帖子 - 15 位参与者 阅读完整话题

cnBeta全文版 · 2026-05-27 13:35:34+08:00 · tech

就在今天,Code Arena最新榜单出炉!Qwen3.7-Max以1541分闯入全球前四,一举超越了GPT-5.5、Gemini 3.5 Flash等一众顶尖模型。排在它前面的,只剩Claude Opus 4.7和Opus 4.6。 换句话说,在全球编程模型的竞技场上,阿里是唯一杀进这张牌桌的中国厂商,仅次于Anthropic,位列第二。 Qwen3.7-Max闯入全球前五 唯一非Claude模型 其实在Code Arena放榜之前,Qwen3.7-Max在海外开发者圈子里已经杀出了名声。 Atomic Chat做了一场硬碰硬的对比,让Opus 4.7、GPT-5.5和Qwen3.7-Max同台竞技,任务是写一个能自我训练的俄罗斯方块AI。 结果,Qwen3.7-Max不仅只用$1.32的token成本就把Opus 4.7和GPT-5.5都超越了,而且性能还提升了56%。 另一位海外开发者选择让Qwen3.7-Max构建了一个宇宙的3D模型,效果足以用震撼形容。 在“3D像素风微缩宝塔模型”的生成任务中,Qwen3.7-Max的输出速度和质量同样全面胜出。 左右 开发者Paul Couvert更是盛赞,Qwen3.7-Max接入Hermes Agent和OpenCode之后,基本可以替掉GPT-5.5和Opus 4.7。 编程,太能打了 不过跑分再高,不如真刀真枪拉出来练练。 我们给Qwen3.7-Max安排了一场硬核的“赛车游戏”挑战。 一段详细的prompt丢进去,不一会儿功夫,Qwen3.7-Max直出一个可玩的HTML的文件。 第一版有个小bug,A/D转向键左右搞反了。 但经过第二轮简单对话微调,一个体验完整的3D赛车游戏就跑了起来。 打开的瞬间,说实话,有点被惊到了。 4车同台,3圈环形赛道竞速,赛道上散落着100多枚金币,碰到障碍物会减速、失控。 赛后成绩面板,排名、用时、金币数、最快单圈,一项不缺。 但真正让人意外的,是两个只有Qwen3.7-Max做到的细节。 一个是开始界面。四个模型横向测完,只有它给游戏做了一个正经的开始页面,点“Start”才进入比赛。其他三家全是打开即跑,连个标题画面都没有。 另一个是音效。prompt最后附了一条要求,加上发动机轰鸣和吃金币的音效。 四个模型里,也只有它把这个bonus吃进去了,引擎声和金币叮咚都安排上了。 再看看其他选手的表现。 Gemini 3.5 Flash的画面明显单薄了一档,缺少那种呼之欲出的立体感。 UI布局也有问题,仪表盘信息分散在屏幕四角,视觉焦点一盘散沙。 相比之下,Qwen3.7-Max的处理方式是把关键指标集中到画面中央,更符合玩家视线的自然落点。 Claude Opus 4.6的效果,有点让人一言难尽了。 不仅赛道上金币少得可怜,而且3辆AI赛车几乎同步行驶,毫无随机性,像复制粘贴出来的。 最后是GPT-5.5。 可以看到,画面质感确实比前两家强了不少,操作起来也更流畅。 但不知道为什么,金币被做成了黄色的“甜甜圈”…… 造型倒是小事。关键是,Gemini、Claude、ChatGPT三家都修了好几轮bug才跑通全部功能。 只有Qwen3.7-Max首轮生成就基本可玩。 跑分接近,实测不虚,价格只有几分之一。剩下的结论,等开发者用脚投票就行了。 Agent时代的“基座”模型 Qwen3.7-Max之所以能在最卷的编程擂台上打出如此水平,答案就藏在它的产品定位里。 几天前,阿里发布Qwen3.7-Max的时候,给了它一个非常特殊的标签: Agent基座模型 。 它生来,就是为 长时间自主执行任务 设计的模型。 内测数据显示,在一次自主编程任务中,Qwen3.7-Max连续运行35个小时,执行1158次工具调用。 最终生成的代码相较于Triton参考实现,达到了惊人的10倍几何平均加速。 更令人震撼的是它的“持久战”能力—— 在推演进行到第30个小时之后,模型依然保持敏锐,持续挖掘出新的优化空间。 全程零上下文退化、零指令漂移、零死循环! 不得不说,这件事的难点不在1000次工具调用本身。MCP协议铺开之后,调1000次工具不算稀奇。 难点在于,35小时的连贯推理。 绝大多数模型跑长任务时会崩盘:要么上下文越积越乱,前半段定的目标到后面忘得干干净净;要么进入死循环,反复尝试同一个失败的方案。 Qwen3.7-Max把“持续做对事”这件事,做出来了。 核心技术揭秘 Qwen3.7-Max这波编程跃升,我们理解核心可能与两个训练方法的升级有关。 第一个 是, 环境扩展。 Qwen3.7-Max在做编程训练时,每个任务会被拆成三个独立维度,任务本身、执行框架、验证方式,三者自由组合。 同一道题,有时候在Claude Code的框架里做,有时候在OpenClaw里做,有时候换一种验证方式。 效果就像一个实习生被轮岗到了所有项目组。它被迫学会的是解决问题的通用策略,不是“在某个特定框架里怎么取巧”。 这解释了一个反直觉的现象,Qwen3.7-Max在Claude Code、OpenClaw、Qwen Code这几个框架里的表现都很稳,没有出现“在自家框架里很强、换一个就拉胯”的情况。 第二个升级是 , 长程自主执行。 在训练中,团队引入了“动态累积生存博弈”框架。 也就是,让模型在持续变化的模拟环境中做超过一千步的连续决策,自己建立假设、根据反馈调整策略,而且不能因为跑太久就“上下文腐化”。 这里有一个直观的数据,YC-Bench模拟创业公司经营一整年,Qwen3.7-Max做到了208万美元营收,是上一代(105万)的两倍。 更关键的是,它展现出了策略进化,中期遇到危机能自主调整方向,识别并拉黑恶意客户,最终收敛到稳定的执行循环。 这就是35小时kernel优化案例的底层支撑,也是为什么在Kernel Bench L3上,Qwen3.7-Max能让96%的场景跑出加速效果。 而编程还只是第一个战场。这套长程推理加工具调用的底子,指向的是一个更大的野心——通用Agent基座。 编程决赛,多了一个搅局者 Code Arena上线至今,考的从来都是硬活,多步推理、工具编排、完整项目交付,全是Agent级的真刀真枪。 今天,Qwen3.7-Max凭借着1541分的成绩楔进了第四的位置,卡在Opus 4.6 Thinking和Opus 4.6之间。 在这条Claude统治了大半年的赛道上,它给出了自己的回答,中国模型不只是追赶者,也可以是定义者。 全球编程模型的竞赛,已经不再是硅谷的独角戏了。 查看评论

LinuxDo 最新话题 · 2026-05-26 12:25:42+08:00 · tech

动态: 刚刚,全球权威编程榜单 Code Arena正式放榜,千问最新旗舰模型 Qwen3.7-Max得分 1541,超越GPT-5.5、Gemini-3.5-Flash、GLM-5.1、Kimi-K2.6等一众模型,仅次于Claude系列,在大模型厂商中排名全球第二。 全球权威编程榜单 Code Arena 这是由知名第三方大模型盲测平台 LMArena 推出的最具影响力的编程能力榜单之一。与传统的代码基准测试不同,Code Arena 由开发者出题,要求模型从零生成完整的、可交互的 Web 应用程序,并交由用户对匿名模型进行两两 PK 盲测投票,根据投票综合生成最终榜单。因此,Code Arena 也被视为目前 全球最具公信力的 AI 编程能力评测 之一。 编程突出的 Qwen3.7-Max Qwen3.7-Max 在 Code Arena 榜单中斩获 1541 分,次于最强模型Claude-opus-4.7,可媲美Claude-opus-4.6,是目前榜单中唯一突破 1540 分大关的国产大模型。 在真实项目交付能力上,Qwen3.7-Max 同样表现出色:能在数小时内独立完成专业团队耗时 2 周的复杂项目端到端交付;可持续运行 35 小时,累计完成超 1000 次工具调用的复杂长程任务,甚至能自我编程优化芯片内核。 感谢全球开发者的每一次投票和反馈,我们将继续努力,打磨更好的模型给大家。 链接: 千问大模型的动态 - 哔哩哔哩 24 个帖子 - 24 位参与者 阅读完整话题