Arena Leaderboard | Compare & Benchmark the Best Frontier AI Models Arena Leaderboard | Compare & Benchmark the Best Frontier AI Models See how leading AI models stack up across text, image, vision, and more. This page provides a high-level snapshot of each Arena. Explore dedicated tabs for deeper insights. 用过的佬感觉如何,真的这么强吗 2 个帖子 - 2 位参与者 阅读完整话题
满足各位暂时还没用上Fable5的佬们的好奇心探索欲,来测测它的战力几何?究竟是神话,还是。。。 X 上的 Arena.ai:“Claude Fable 5 by @AnthropicAI is in Agent Mode! Come test out its agentic capabilities for accomplishing your real-world tasks. Every session contributes to the Agent Arena leaderboard. We’ll see scores soon. https://t.co/Ozu8B590Qb” / X 1 个帖子 - 1 位参与者 阅读完整话题
最近在 arena.ai 看到了这个模型,便想着取试一试,结果发现这个东西不简单啊,是分图层生成的,水货要点时间但是幽蝶鞍特别,而且我看效果也不差,但是上L站一搜发现好像没谁提这个玩意 1 个帖子 - 1 位参与者 阅读完整话题
Arena Blog – 4 Jun 26 Agent Arena: Causal Evaluation of Agents in the Real World Agents are increasingly doing real work. The resulting task distribution has greatly expanded. We desire an agent evaluation that scales along with usage and capability. Agent Arena: AI Model Agentic Performance Leaderboard Agent Arena: AI Model Agentic Performance Leaderboard Dynamic ranking of models on how well they orchestrate tools for real-world agentic tasks, based on signals like tool reliability, task completion, and steerability. 1 个帖子 - 1 位参与者 阅读完整话题
IT之家 6 月 4 日消息,GSMArena 今日发现,华为在全球市场悄然推出了新款入门级 4G 手机 nova Y74。新机提供黑色与蓝色两种配色可选,售价及具体上市时间暂未公布。 该机配备 6.67 英寸屏幕与 6620mAh 电池,具体芯片型号暂未公布,但整体配置与此前在国内上市的畅享 90 Plus 基本一致。 屏幕方面,华为 nova Y74 采用一块 6.67 英寸 LCD 显示屏,支持 90Hz 刷新率、HD+ 分辨率(1604 × 720),峰值亮度可达 850 尼特。 续航是这款新机的主打卖点。nova Y74 内置 6620mAh 大容量电池,支持 40W 有线快充,官方宣称单次充电可支撑长达 25 小时的在线视频播放。 影像方面,该机后置一枚 5000 万像素主摄,置于方形相机模组内,前置则为一颗 800 万像素自拍镜头。 系统部分,nova Y74 运行 EMUI 12,并配有华为 X 键,支持一键快速调起应用、快捷方式及其他功能。 其他方面,该机还提供蓝牙 5.1、Wi-Fi、NFC、GPS、USB Type-C 接口以及双 SIM 卡 4G 网络支持,侧面配备指纹识别模块用于生物识别认证,厚约 8.32 毫米,重约 210 克。
最近在玩的宝藏 AI 工具站: https://ducttape3.org Arena 上匿名测出来之后,我把它包成了一个能直接选档位用的在线生成器。prompt 遵循非常凶,尤其是海报、产品 mock 、带文字排版的广告场景,出图质量比 nanobanana 2 稳一截。图生图也支持批量参考图上传
WebDev AI Leaderboard - Best AI Models for Web Development WebDev AI Leaderboard - Best AI Models for Web Development View overall rankings across AI models on front-end web development tasks, including agentic coding workflows that require multi-step reasoning and tool use. qwen看排行榜,coding已经和claude-opus-4-7 能旗鼓相当了?有没有用过的佬友评论一下 1 个帖子 - 1 位参与者 阅读完整话题
众所周知,arena.ai从sidebyside/direct模式里删去了很多模型,例如opus(gemini的模型不在此列,可以直接用),而battle虽然有,但是抽到opus的几率太小,怎么办呢 如果你不知道arena.ai是什么,请允许我先向你介绍:这个平台,就是ai排行榜的产生地,在其中可以免费使用任何新的强力模型(之前全可以选择sidebyside/direct模式直接聊,现在部分模型你只能选择battle随机出来,包括opus),而且没有降智(放竞技场的模型还降智真的是不想要排名了)。不强coding聊天居多的佬友可以去试试 回到正题,注意到只有部分模型能读取pdf,而且相较于读图,读pdf的大多高智模型,于是我们上传一个空的pdf 好了,你现在随机到的只会是能读pdf的高智模型了 注:空pdf要求空的文档自己转,改后缀名是吃不了的 1 个帖子 - 1 位参与者 阅读完整话题
IT之家 5 月 30 日消息,“智元 AGIBOT”官方公众号 29 日发文宣布:具身领域热门榜单 WorldArena Track1( 世界模型感知与动作响应赛道 )最新评测结果揭晓,智元自研的世界模型 Genie Envisioner-Sim 2.0(IT之家注:以下简称 GE 2.0)登顶榜单。 所谓“世界模型”,简单来说就是 能理解物理世界规律 的 AI 大模型。机器人若具备“世界模型”能力,就能知道杯子掉地上会碎、水往低处流、积木搭太高会倒等常识。 在该赛道评测中,智元团队使用了原生的世界模型 GE 2.0,并未针对赛题进行特殊设计优化,仅基于榜单数据进行了基础微调(Finetune)。 根据介绍,GE 2.0 在功能上首次全面覆盖了 长时序生成、多视角生成、本体状态生成、近实时推理以及奖励判别 等核心环节,构建了世界模拟器完整的技术能力闭环。 在长时序推理任务中,GE 2.0 表现出极强的稳定性,画面质量随推理时长的衰减显著弱于行业基线方案。即使在连续推演 40-50 秒的长视频片段时,其生成质量依然超越了基线模型前 10 秒内的表现。 团队验证了大量闭环评测结果,证明 GE 2.0 在多项任务上均 与真实世界保持着强相关 性。 这种相关性不止步于宏观统计意义上的“成功率一致”,团队还进行了逐案(Case-by-case)的 rollout 结果对比分析,并通过混淆矩阵(Confusion Matrix)提供了严谨的量化佐证,进一步证明了 GE 2.0 作为策略评测器的可靠性。 在奖励模型(Reward Model)的加持下,GE 2.0 能够对闭环评测的 rollout 过程进行自动化筛选, 将世界模型中产出的有效高质量数据精准回流给策略模型(Policy Model)。 实验证明,这一机制在多项任务上均助力策略模型实现了显著的性能涨点。 此外,据上观新闻报道,智元 GE 2.0 此次与英伟达最新模型 DreamDojo、清华联合斯坦福的 Ctrl-World 团队等国内外 AI 顶尖团队直接竞争,并最终夺冠。GE 2.0 仅用 20 亿(2B)参数的模型 ,结果比英伟达、微软等 超大参数的旗舰模型 效果更优秀,也验证了在人形机器人应用方面,轻量化模型的适配性不逊于超大参数模型。
就在今天,Code Arena最新榜单出炉!Qwen3.7-Max以1541分闯入全球前四,一举超越了GPT-5.5、Gemini 3.5 Flash等一众顶尖模型。排在它前面的,只剩Claude Opus 4.7和Opus 4.6。 换句话说,在全球编程模型的竞技场上,阿里是唯一杀进这张牌桌的中国厂商,仅次于Anthropic,位列第二。 Qwen3.7-Max闯入全球前五 唯一非Claude模型 其实在Code Arena放榜之前,Qwen3.7-Max在海外开发者圈子里已经杀出了名声。 Atomic Chat做了一场硬碰硬的对比,让Opus 4.7、GPT-5.5和Qwen3.7-Max同台竞技,任务是写一个能自我训练的俄罗斯方块AI。 结果,Qwen3.7-Max不仅只用$1.32的token成本就把Opus 4.7和GPT-5.5都超越了,而且性能还提升了56%。 另一位海外开发者选择让Qwen3.7-Max构建了一个宇宙的3D模型,效果足以用震撼形容。 在“3D像素风微缩宝塔模型”的生成任务中,Qwen3.7-Max的输出速度和质量同样全面胜出。 左右 开发者Paul Couvert更是盛赞,Qwen3.7-Max接入Hermes Agent和OpenCode之后,基本可以替掉GPT-5.5和Opus 4.7。 编程,太能打了 不过跑分再高,不如真刀真枪拉出来练练。 我们给Qwen3.7-Max安排了一场硬核的“赛车游戏”挑战。 一段详细的prompt丢进去,不一会儿功夫,Qwen3.7-Max直出一个可玩的HTML的文件。 第一版有个小bug,A/D转向键左右搞反了。 但经过第二轮简单对话微调,一个体验完整的3D赛车游戏就跑了起来。 打开的瞬间,说实话,有点被惊到了。 4车同台,3圈环形赛道竞速,赛道上散落着100多枚金币,碰到障碍物会减速、失控。 赛后成绩面板,排名、用时、金币数、最快单圈,一项不缺。 但真正让人意外的,是两个只有Qwen3.7-Max做到的细节。 一个是开始界面。四个模型横向测完,只有它给游戏做了一个正经的开始页面,点“Start”才进入比赛。其他三家全是打开即跑,连个标题画面都没有。 另一个是音效。prompt最后附了一条要求,加上发动机轰鸣和吃金币的音效。 四个模型里,也只有它把这个bonus吃进去了,引擎声和金币叮咚都安排上了。 再看看其他选手的表现。 Gemini 3.5 Flash的画面明显单薄了一档,缺少那种呼之欲出的立体感。 UI布局也有问题,仪表盘信息分散在屏幕四角,视觉焦点一盘散沙。 相比之下,Qwen3.7-Max的处理方式是把关键指标集中到画面中央,更符合玩家视线的自然落点。 Claude Opus 4.6的效果,有点让人一言难尽了。 不仅赛道上金币少得可怜,而且3辆AI赛车几乎同步行驶,毫无随机性,像复制粘贴出来的。 最后是GPT-5.5。 可以看到,画面质感确实比前两家强了不少,操作起来也更流畅。 但不知道为什么,金币被做成了黄色的“甜甜圈”…… 造型倒是小事。关键是,Gemini、Claude、ChatGPT三家都修了好几轮bug才跑通全部功能。 只有Qwen3.7-Max首轮生成就基本可玩。 跑分接近,实测不虚,价格只有几分之一。剩下的结论,等开发者用脚投票就行了。 Agent时代的“基座”模型 Qwen3.7-Max之所以能在最卷的编程擂台上打出如此水平,答案就藏在它的产品定位里。 几天前,阿里发布Qwen3.7-Max的时候,给了它一个非常特殊的标签: Agent基座模型 。 它生来,就是为 长时间自主执行任务 设计的模型。 内测数据显示,在一次自主编程任务中,Qwen3.7-Max连续运行35个小时,执行1158次工具调用。 最终生成的代码相较于Triton参考实现,达到了惊人的10倍几何平均加速。 更令人震撼的是它的“持久战”能力—— 在推演进行到第30个小时之后,模型依然保持敏锐,持续挖掘出新的优化空间。 全程零上下文退化、零指令漂移、零死循环! 不得不说,这件事的难点不在1000次工具调用本身。MCP协议铺开之后,调1000次工具不算稀奇。 难点在于,35小时的连贯推理。 绝大多数模型跑长任务时会崩盘:要么上下文越积越乱,前半段定的目标到后面忘得干干净净;要么进入死循环,反复尝试同一个失败的方案。 Qwen3.7-Max把“持续做对事”这件事,做出来了。 核心技术揭秘 Qwen3.7-Max这波编程跃升,我们理解核心可能与两个训练方法的升级有关。 第一个 是, 环境扩展。 Qwen3.7-Max在做编程训练时,每个任务会被拆成三个独立维度,任务本身、执行框架、验证方式,三者自由组合。 同一道题,有时候在Claude Code的框架里做,有时候在OpenClaw里做,有时候换一种验证方式。 效果就像一个实习生被轮岗到了所有项目组。它被迫学会的是解决问题的通用策略,不是“在某个特定框架里怎么取巧”。 这解释了一个反直觉的现象,Qwen3.7-Max在Claude Code、OpenClaw、Qwen Code这几个框架里的表现都很稳,没有出现“在自家框架里很强、换一个就拉胯”的情况。 第二个升级是 , 长程自主执行。 在训练中,团队引入了“动态累积生存博弈”框架。 也就是,让模型在持续变化的模拟环境中做超过一千步的连续决策,自己建立假设、根据反馈调整策略,而且不能因为跑太久就“上下文腐化”。 这里有一个直观的数据,YC-Bench模拟创业公司经营一整年,Qwen3.7-Max做到了208万美元营收,是上一代(105万)的两倍。 更关键的是,它展现出了策略进化,中期遇到危机能自主调整方向,识别并拉黑恶意客户,最终收敛到稳定的执行循环。 这就是35小时kernel优化案例的底层支撑,也是为什么在Kernel Bench L3上,Qwen3.7-Max能让96%的场景跑出加速效果。 而编程还只是第一个战场。这套长程推理加工具调用的底子,指向的是一个更大的野心——通用Agent基座。 编程决赛,多了一个搅局者 Code Arena上线至今,考的从来都是硬活,多步推理、工具编排、完整项目交付,全是Agent级的真刀真枪。 今天,Qwen3.7-Max凭借着1541分的成绩楔进了第四的位置,卡在Opus 4.6 Thinking和Opus 4.6之间。 在这条Claude统治了大半年的赛道上,它给出了自己的回答,中国模型不只是追赶者,也可以是定义者。 全球编程模型的竞赛,已经不再是硅谷的独角戏了。 15 个帖子 - 15 位参与者 阅读完整话题
微软近日发布其最新一代文本生成图像模型 MAI-Image-2.5,并在 Arena 的最新文生图排行榜中首发即拿下第三名的位置,显示其在 AI 图像生成领域的整体实力正明显追赶行业领先者。 目前在这一榜单上,OpenAI 的 gpt-image-2 以 1388 分位居第一。 微软表示,MAI-Image-2.5 在多种图像风格上的表现全面提升,能够更好地贴合用户提示生成图像,并在文字渲染与画面细节方面有显著改进。 微软最初于去年推出自研图像生成模型 MAI-Image-1,该模型在 Arena 的 Image Arena 排名中仅位列第 9 名,与当时其他实验室的顶级模型存在明显差距,随后微软将该模型整合到 Bing.com/create 以及 Bing 手机应用中向用户开放。 今年 3 月,微软 AI 团队发布第二代 MAI-Image-2,在自然光表现、肤色还原等方面带来明显提升,并首次闯入 Arena 排行榜前三,仅落后于Google的 gemini-3.1-flash-image-preview 和 OpenAI 的 gpt-image-1.5-high-fidelity,并同步接入 Copilot、Bing Image Creator 和 Microsoft Foundry API,供开发者调用。 在此基础上,新一代 MAI-Image-2.5 进一步强化了模型整体能力。微软介绍称,MAI-Image-2.5 能更精确地理解和执行用户的文字提示,生成的图像在细节和整体结构上更加连贯,且在文字内容的绘制上更加可靠。 该模型的视觉推理能力也有所增强,对物体、光照、比例、场景结构以及空间关系的理解更加准确,有助于生成更符合真实场景和用户预期的画面。 微软特别强调,MAI-Image-2.5 在文字渲染、风格化插画以及商业类图像上的进步最为明显,包括海报、包装打样、品牌创意和产品图等场景,都能产生更高质量的输出。 相比前代模型,新模型生成图像中的文字更加清晰锐利,版式布局更加稳定,品牌视觉元素也更突出、更具整体质感,更契合商业设计和营销应用需求。 微软 AI 负责人 Mustafa Suleyman 在社交平台上表示,MAI-Image-2.5 登上 Arena 文生图排行榜第三名,标志着图像生成质量又迎来一次重要跃迁,并预告在即将到来的 Build 大会上,微软 AI 团队还将带来更多相关更新与发布。 他称,这只是微软在 AI 图像领域发力的又一步,后续还会持续推进模型能力和产品形态的迭代。 目前,MAI-Image-2.5 已通过 Arena 面向所有用户开放试用,用户可以直接在该平台上与其他模型进行对比体验。 按照微软的计划,这一新模型也将在未来两周内陆续登陆 MAI Playground 和 Microsoft Foundry,为普通用户与开发者提供更多样化的生成式图像创作与集成选项。 查看评论
IT之家 5 月 27 日消息,微软研究院昨日(5 月 26 日)发布博文,宣布推出 MAI-Image-2.5,是其 MAI-Image 系列最强图像生成模型, 并在 Arena 文生图榜单升至第 3 名。 产品定位方面,微软官方将 MAI-Image-2.5 描述为“更接近可商用”的图像生成能力,该模型不仅覆盖各种风格,还能更准确理解用户指令,在文字渲染、画面细节和整体一致性上比前代更稳定,输出更贴近用户预期。 相比较上一代 MAI-Image-2,微软最新 MAI-Image-2.5 重点增强文字渲染,可以胜任信息图、海报、包装、标签等需要准确呈现文字的任务。 其次是风格化插画与商业图像,模型在品牌视觉、产品展示和商业物料上打磨得更成熟,画面完成度更高。 微软还特别提到该模型的视觉推理能力。它在物体、场景结构、光照、比例以及空间关系等方面表现更强,这意味着用户只需给出较简单的描述,模型也能生成结构更完整、逻辑更连贯、观感更精致的图像结果。 在落地节奏上,微软表示用户已可在 Arena 体验 MAI-Image-2.5,该模型还将在未来 2 周内上线 MAI Playground 与 Foundry。 IT之家附上参考地址 MAI-Image-2.5 launches at No. 3 on Arena
就在今天,Code Arena最新榜单出炉!Qwen3.7-Max以1541分闯入全球前四,一举超越了GPT-5.5、Gemini 3.5 Flash等一众顶尖模型。排在它前面的,只剩Claude Opus 4.7和Opus 4.6。 换句话说,在全球编程模型的竞技场上,阿里是唯一杀进这张牌桌的中国厂商,仅次于Anthropic,位列第二。 Qwen3.7-Max闯入全球前五 唯一非Claude模型 其实在Code Arena放榜之前,Qwen3.7-Max在海外开发者圈子里已经杀出了名声。 Atomic Chat做了一场硬碰硬的对比,让Opus 4.7、GPT-5.5和Qwen3.7-Max同台竞技,任务是写一个能自我训练的俄罗斯方块AI。 结果,Qwen3.7-Max不仅只用$1.32的token成本就把Opus 4.7和GPT-5.5都超越了,而且性能还提升了56%。 另一位海外开发者选择让Qwen3.7-Max构建了一个宇宙的3D模型,效果足以用震撼形容。 在“3D像素风微缩宝塔模型”的生成任务中,Qwen3.7-Max的输出速度和质量同样全面胜出。 左右 开发者Paul Couvert更是盛赞,Qwen3.7-Max接入Hermes Agent和OpenCode之后,基本可以替掉GPT-5.5和Opus 4.7。 编程,太能打了 不过跑分再高,不如真刀真枪拉出来练练。 我们给Qwen3.7-Max安排了一场硬核的“赛车游戏”挑战。 一段详细的prompt丢进去,不一会儿功夫,Qwen3.7-Max直出一个可玩的HTML的文件。 第一版有个小bug,A/D转向键左右搞反了。 但经过第二轮简单对话微调,一个体验完整的3D赛车游戏就跑了起来。 打开的瞬间,说实话,有点被惊到了。 4车同台,3圈环形赛道竞速,赛道上散落着100多枚金币,碰到障碍物会减速、失控。 赛后成绩面板,排名、用时、金币数、最快单圈,一项不缺。 但真正让人意外的,是两个只有Qwen3.7-Max做到的细节。 一个是开始界面。四个模型横向测完,只有它给游戏做了一个正经的开始页面,点“Start”才进入比赛。其他三家全是打开即跑,连个标题画面都没有。 另一个是音效。prompt最后附了一条要求,加上发动机轰鸣和吃金币的音效。 四个模型里,也只有它把这个bonus吃进去了,引擎声和金币叮咚都安排上了。 再看看其他选手的表现。 Gemini 3.5 Flash的画面明显单薄了一档,缺少那种呼之欲出的立体感。 UI布局也有问题,仪表盘信息分散在屏幕四角,视觉焦点一盘散沙。 相比之下,Qwen3.7-Max的处理方式是把关键指标集中到画面中央,更符合玩家视线的自然落点。 Claude Opus 4.6的效果,有点让人一言难尽了。 不仅赛道上金币少得可怜,而且3辆AI赛车几乎同步行驶,毫无随机性,像复制粘贴出来的。 最后是GPT-5.5。 可以看到,画面质感确实比前两家强了不少,操作起来也更流畅。 但不知道为什么,金币被做成了黄色的“甜甜圈”…… 造型倒是小事。关键是,Gemini、Claude、ChatGPT三家都修了好几轮bug才跑通全部功能。 只有Qwen3.7-Max首轮生成就基本可玩。 跑分接近,实测不虚,价格只有几分之一。剩下的结论,等开发者用脚投票就行了。 Agent时代的“基座”模型 Qwen3.7-Max之所以能在最卷的编程擂台上打出如此水平,答案就藏在它的产品定位里。 几天前,阿里发布Qwen3.7-Max的时候,给了它一个非常特殊的标签: Agent基座模型 。 它生来,就是为 长时间自主执行任务 设计的模型。 内测数据显示,在一次自主编程任务中,Qwen3.7-Max连续运行35个小时,执行1158次工具调用。 最终生成的代码相较于Triton参考实现,达到了惊人的10倍几何平均加速。 更令人震撼的是它的“持久战”能力—— 在推演进行到第30个小时之后,模型依然保持敏锐,持续挖掘出新的优化空间。 全程零上下文退化、零指令漂移、零死循环! 不得不说,这件事的难点不在1000次工具调用本身。MCP协议铺开之后,调1000次工具不算稀奇。 难点在于,35小时的连贯推理。 绝大多数模型跑长任务时会崩盘:要么上下文越积越乱,前半段定的目标到后面忘得干干净净;要么进入死循环,反复尝试同一个失败的方案。 Qwen3.7-Max把“持续做对事”这件事,做出来了。 核心技术揭秘 Qwen3.7-Max这波编程跃升,我们理解核心可能与两个训练方法的升级有关。 第一个 是, 环境扩展。 Qwen3.7-Max在做编程训练时,每个任务会被拆成三个独立维度,任务本身、执行框架、验证方式,三者自由组合。 同一道题,有时候在Claude Code的框架里做,有时候在OpenClaw里做,有时候换一种验证方式。 效果就像一个实习生被轮岗到了所有项目组。它被迫学会的是解决问题的通用策略,不是“在某个特定框架里怎么取巧”。 这解释了一个反直觉的现象,Qwen3.7-Max在Claude Code、OpenClaw、Qwen Code这几个框架里的表现都很稳,没有出现“在自家框架里很强、换一个就拉胯”的情况。 第二个升级是 , 长程自主执行。 在训练中,团队引入了“动态累积生存博弈”框架。 也就是,让模型在持续变化的模拟环境中做超过一千步的连续决策,自己建立假设、根据反馈调整策略,而且不能因为跑太久就“上下文腐化”。 这里有一个直观的数据,YC-Bench模拟创业公司经营一整年,Qwen3.7-Max做到了208万美元营收,是上一代(105万)的两倍。 更关键的是,它展现出了策略进化,中期遇到危机能自主调整方向,识别并拉黑恶意客户,最终收敛到稳定的执行循环。 这就是35小时kernel优化案例的底层支撑,也是为什么在Kernel Bench L3上,Qwen3.7-Max能让96%的场景跑出加速效果。 而编程还只是第一个战场。这套长程推理加工具调用的底子,指向的是一个更大的野心——通用Agent基座。 编程决赛,多了一个搅局者 Code Arena上线至今,考的从来都是硬活,多步推理、工具编排、完整项目交付,全是Agent级的真刀真枪。 今天,Qwen3.7-Max凭借着1541分的成绩楔进了第四的位置,卡在Opus 4.6 Thinking和Opus 4.6之间。 在这条Claude统治了大半年的赛道上,它给出了自己的回答,中国模型不只是追赶者,也可以是定义者。 全球编程模型的竞赛,已经不再是硅谷的独角戏了。 查看评论
动态: 刚刚,全球权威编程榜单 Code Arena正式放榜,千问最新旗舰模型 Qwen3.7-Max得分 1541,超越GPT-5.5、Gemini-3.5-Flash、GLM-5.1、Kimi-K2.6等一众模型,仅次于Claude系列,在大模型厂商中排名全球第二。 全球权威编程榜单 Code Arena 这是由知名第三方大模型盲测平台 LMArena 推出的最具影响力的编程能力榜单之一。与传统的代码基准测试不同,Code Arena 由开发者出题,要求模型从零生成完整的、可交互的 Web 应用程序,并交由用户对匿名模型进行两两 PK 盲测投票,根据投票综合生成最终榜单。因此,Code Arena 也被视为目前 全球最具公信力的 AI 编程能力评测 之一。 编程突出的 Qwen3.7-Max Qwen3.7-Max 在 Code Arena 榜单中斩获 1541 分,次于最强模型Claude-opus-4.7,可媲美Claude-opus-4.6,是目前榜单中唯一突破 1540 分大关的国产大模型。 在真实项目交付能力上,Qwen3.7-Max 同样表现出色:能在数小时内独立完成专业团队耗时 2 周的复杂项目端到端交付;可持续运行 35 小时,累计完成超 1000 次工具调用的复杂长程任务,甚至能自我编程优化芯片内核。 感谢全球开发者的每一次投票和反馈,我们将继续努力,打磨更好的模型给大家。 链接: 千问大模型的动态 - 哔哩哔哩 24 个帖子 - 24 位参与者 阅读完整话题
附链接: WebDev AI Leaderboard - Best AI Models for Web Development 8 个帖子 - 5 位参与者 阅读完整话题
IT之家 5 月 26 日消息,科技媒体 GSMArena 昨日(5 月 25 日)发布博文,报道称小米 17T 和小米 17T Pro 手机在 5 月 28 日正式发布前, 已现身沙特阿拉伯的零售商平台,提前曝光相关配置和价格。 价格方面,IT之家附上相关售价信息如下: 小米 17T: 256GB 版售价 2199 沙特里亚尔(当前约合 3980.42 元人民币) 512GB 版售价 2599 沙特里亚尔(当前约合 4704.46 元人民币) 小米 17T Pro: 512GB 版售价 3299 沙特里亚尔(当前约合 5971.53 元人民币) 发售日期方面,小米计划 5 月 28 日海外发布小米 17T 系列,其中最值得关注是,将于 6 月 4 日在印度市场发售小米 17T 手机, 被认为是时隔 4 年重返印度市场 。 小米 17T 外观方面,小米 17T 提供黑色、紫色和白色三种配色,搭载 6.59 英寸屏幕,分辨率为 1280×2772,支持 120Hz 刷新率。 影像部分为后置三摄,规格分别是 5000 万像素、5000 万像素和 1200 万像素,前摄为 3200 万像素。 规格方面,小米 17T 手机配备联发科天玑 8500 芯片,配备 12GB RAM 和 6500mAh 电池,并支持 67W 有线充电。 小米 17T Pro 小米 17T Pro 提供深蓝和深紫两种颜色,屏幕增至 6.83 英寸,分辨率同样为 1280×2772,但刷新率提升到 144Hz。 该机后置三摄 5000 万像素+5000 万像素+1200 万像素,以及 3200 万像素前摄,配联发科天玑 9500 芯片,配备 12GB RAM、7000mAh 电池,并支持 100W 有线充电和 50W 无线充电。
image2已从竞技场arena下线 不考虑公益站 无路可走 1 个帖子 - 1 位参与者 阅读完整话题
佬们的还在吗? Arena AI: The Official AI Ranking & LLM Leaderboard Arena AI: The Official AI Ranking & LLM Leaderboard Chat, compare, vote for the world's best AI models. Join the community shaping the public leaderboard for LLMs, image, and code models through real-world evaluation. 1 个帖子 - 1 位参与者 阅读完整话题
qwen-3.7-max这个GA版本比qwen-3.7-max-preview还不稳定,我在arena用提示词对比两个模型,GA制作的html经常有bug导致无法运行而preview的却可以正常运行,所以GA反而退步了?这个稳定性太差劲了,真的可以搬出来当GA模型吗?我重来没有想过一个稳定性这么差的模型可以作为一个GA模型发布 先放个gpt5.5的作为参照: gpt-5.5-xhigh-water_morph.txt (22.5 KB) gpt-5.5-xhigh-minecraft_end_voxel_scene.txt (43.3 KB) 然后是preview: qwen-3.7-max-preview.txt (50.1 KB) qwen-3.7-max-preview-末地3.txt (44.9 KB) qwen-3.7-max-preview-mc1.txt (46.1 KB) qwen-3.7-max-preview-末地1.txt (53.4 KB) qwen-3.7-max-preview-末地2.txt (61.9 KB) qwen-3.7-max-preview-2.txt (13.4 KB) qwen-3.7-max-preview-1.2.txt (17.7 KB) 然后是GA的: qwen-3.7-max-GA-1.txt (51.2 KB) qwen-3.7-max-GA-mc.txt (59.2 KB) qwen-3.7-max-GA-1.1.txt (62.0 KB) qwen-3.7-max-GA-2.txt (26.6 KB) qwen-3.7-max-GA-末地1.txt (62.0 KB) qwen-3.7-max-GA-末地2.txt (57.5 KB) qwen-3.7-max-GA-末地3.txt (50.9 KB) 1 个帖子 - 1 位参与者 阅读完整话题
2 个帖子 - 1 位参与者 阅读完整话题