Arena Leaderboard | Compare & Benchmark the Best Frontier AI Models Arena Leaderboard | Compare & Benchmark the Best Frontier AI Models See how leading AI models stack up across text, image, vision, and more. This page provides a high-level snapshot of each Arena. Explore dedicated tabs for deeper insights. 用过的佬感觉如何,真的这么强吗 2 个帖子 - 2 位参与者 阅读完整话题
如题,这一周黄金一落千丈啊,久违的回到了888了 佬友们快抄底,直接领先我100了 看到了,另外的一个讨论火热的帖子 黄金、原油、Ai股 搞七捻三 黄金: 高利率 黄金暂时起不来 长期看好 现在大概不是买点 除非地缘风险暴涨或跌到经济衰退 一个是黄金避险压过高利率 一个是交易降息 都不太可能 原油: 美以伊大概是折中方案和谈,美以无法避免伊朗有核武器,除非地面战争爆发,但这对对于将来要竭力避免苏伊士时刻的美国来讲是不可能的,颠覆政权也能避免拥核,但都做不到几乎,所以只能是折中方案和谈 和谈进展不太可预期,但时间确实很近了 资金一… 17 个帖子 - 14 位参与者 阅读完整话题
英国苹果认证翻新商 Hoxton Macs 最新报告显示,在相同使用年限和条件下,搭载 Apple Silicon 芯片的 MacBook 出现硬件故障并被退回维修或更换的比例,仅为英特尔芯片 Mac 的一半。 这一数据基于该公司超过十年的翻新与售后记录,进一步强化了苹果在硬件可靠性方面的行业口碑。 报告指出,2025 年该公司售出的 Apple Silicon Mac 中,仅有 0.9% 在售出一年内因硬件故障而需要保修维修或更换。 而在同一时期、同样以“销售后一年内的硬件故障”为统计口径下,英特尔芯片 Mac 的故障返修比例则约为前者的两倍。 为保证可比性,Hoxton Macs 将 2016 款 MacBook Pro 在 2016–2018 年间的故障情况,与 2020 年款 M1 MacBook Air 在 2020–2022 年间的故障情况进行对应比对,即以设备服役年限而非上市时间作为基准。 从整体趋势来看,Hoxton Macs 称其过去三年间所有 Mac 机型的综合保修返修率已经“减半”。 2023 年所有机型的硬件故障返修率为 2.9%,而到 2025 年已降至 1.1%。 该公司总结称,“在机龄相同的前提下,英特尔 Mac 出现硬件故障并被送回维修的频率,大约是 Apple Silicon 机型的两倍;主板和电池等关键部件的故障率在英特尔机型上同样高出约一倍”。 AppleInsider 称,这一关于英特尔机型更高故障率的结论,与其此前在美国东海岸多家 Apple Store 收集到的 2010–2020 年间售后数据基本一致。在整个 PC 行业中,设备故障率“整体有走高趋势”,而苹果却在 Apple Silicon 时代呈现出相反方向的改善曲线。 在故障原因方面,Hoxton Macs 认为 Apple Silicon 时代的架构转变在其中起到了重要作用。 在英特尔时代,由于芯片功耗与发热更高,电池往往需要承受更频繁的充电循环,导致电池磨损更快、更早需要更换。 相比之下,Apple Silicon MacBook 的能效更高,整机功耗更低,电池循环次数明显减少,从而延缓了电池老化进程,降低了电池相关的返修需求。 该公司基于回收与翻新设备的电池循环次数绘制的统计图显示,在不同机龄区间内,Apple Silicon MacBook 的电池循环次数一贯明显低于同龄英特尔机型。 报告举例称,当一台服役三到四年的 Apple Silicon MacBook 被送至翻新流程时,其电池循环次数大约只有同龄英特尔 MacBook 的一半左右。 除了电池,英特尔时期 Mac 机型的 USB‑C 接口也被指出存在更高的故障率。 Hoxton Macs 表示,在其返修和翻新记录中,英特尔 Mac 的 USB‑C 端口损坏问题更为常见,而在 Apple Silicon 机型上同类故障相对较少。 散热设计的差异也被认为是可靠性差距的重要因素之一。 Apple Silicon 版本的 MacBook Air 采用无风扇被动散热设计,而英特尔版本的 MacBook Air 则配备风扇。 报告指出,风扇在提供主动散热的同时,会持续吸入外界空气并夹带灰尘,长期积累后容易堵塞散热通道,降低散热效率,进而引发与过热相关的硬件问题。 对于采用无风扇设计的 Apple Silicon MacBook Air 来说,这类由风扇吸尘引发的堵塞与故障隐患则基本不存在。 在芯片与系统架构层面,Hoxton Macs 还推测 Apple Silicon 机型整体使用了更少的高发热元件,使整机在设计上更加“凉快”。 相比之下,一些英特尔机型还搭载了独立显卡等高热量组件,故障常常集中在这些高热区域附近,包括主板和图形子系统周边。 这份翻新与售后数据延续了苹果在电脑硬件可靠性方面长期以来的良好口碑,并认为 Apple Silicon 时代在这一维度上进一步拉开了与前代产品的差距。 不过,在客户满意度方面,苹果也并非毫无压力:美国消费者满意度指数(ACSI)2025 年 9 月的年度调查显示,苹果的个人电脑满意度得分从此前的 85 分下滑至 82 分,被惠普以微弱优势反超,退居第二位。 在软件支持层面,苹果已经在 macOS 27“Golden Gate”中彻底停止对英特尔硬件的支持。 这意味着仍在使用英特尔 Mac 的用户,如果希望继续获得最新版系统及相关功能更新,将不得不考虑升级到 Apple Silicon 平台。 从 Hoxton Macs 的统计来看,那些最终选择更换到 Apple Silicon MacBook 的用户,不仅能获得更长的软件支持周期,同时也更有机会得到一台硬件可靠性明显优于旧机型的笔记本电脑。 查看评论
Claude Fable 5 遥遥领先啊(包括价格 ),Cursor的榜单佬友们觉得参考价值大吗? Cursor · CursorBench — Cursor · CursorBench 9 个帖子 - 8 位参与者 阅读完整话题
A 社发布 Claude Fable 5 和 Claude Mythos 5 模型,这些模型面向普通用户提供,其编码能力要远远领先于其他模型。 以上模型来源于 Claude Mythos Preview,但已经设置完善的安全措施用来防止滥用,例如当检测到与网络安全、生物学、化学、模型蒸馏等相关特定请求时,系统都会将其路由到 Opus 4.8 模型。 https://www.landian.news/archives/113385.html 1 个帖子 - 1 位参与者 阅读完整话题
经常听到论坛里面的佬说,这个豆包输入法现在语音输入已经断档领先了。但是我实测用下来的话,就是会发现这个英文识别会有很大的问题,就比方说这个终端应用 iTerm2,豆包输入法是完全没有办法输出这个东西的。它会识别成 Item2,我不知道是不是我的使用方式不太对,或者说要配置什么东西。想问一下,佬们一般都是怎么解决的? 另外我在考虑用 typeless,typeless 的识别准确度非常不错,唯一的缺点是太贵了,一个月要 200 块钱,还是不太想在语音输入一件事情上花这么多钱,不知道佬们怎么看。 1 个帖子 - 1 位参与者 阅读完整话题
从 suno 一出来就开始用了,一直到现在 v5.5 回过头看进步的非常明显,现在更加是独一档,其他几个都没法比 开源的 ace-step1.5 也是差距有点大 https://v.douyin.com/2Wm3_e9gDF8/ 昨天股市大跌,我就用 suno 写了一首《带刺的韭菜》
从 suno 一出来就开始用了,一直到现在 v5.5 回过头看进步的非常明显,现在更加是独一档,其他几个都没法比 开源的 ace-step1.5 也是差距有点大 https://v.douyin.com/2Wm3_e9gDF8/ 昨天股市大跌,我就用 suno 写了一首《带刺的韭菜》
IT之家 6 月 5 日消息, 上海蔚来汽车有限公司副总裁马麟今日发文 ,质疑理想 L9 与蔚来 ES9 底盘实测对比视频,引发网络热议。 今日下午,理想汽车产品线负责人汤靖发文称: 关于大家讨论的 L9 Livis 和某车底盘对比视频, 是我们内部想认真地学习一下,为什么斌哥会在发布会上讲 48v 比 800v 更领先? 据IT之家此前报道,理想汽车官方小程序今日发布了一段理想 L9 Livis 和蔚来 ES9 的波浪路实测对比。蔚来副总裁马麟对此表示:“蔚来 ES9 在标准模式下与在天行底盘工作强度极弱的超软模式下晃动速度一样甚至更快,这不符合我们的产品设定。 我们期待理想公司官方证实视频真实性 ,说清楚视频来源,以及测试时的环境和悬架设置等。”
IT之家 6 月 5 日消息,今天下午,小米创办人、董事长兼 CEO 雷军发文宣布:小米机器人团队,在最近两大国际赛事中拿下双料冠军,而且大幅领先第二名。 CVPR 2026 Workshops 中,小米匿名参赛模型「my16」以 40.89% 成功率 位列总榜第一,是本届唯一突破 40% 的模型。 ICRA 2026 WBC 中,小米机器人 综合得分 99.2 分(接近满分) ,整体成功率 94%,领先第二名 10 个百分点。 雷军表示,小米机器人的努力方向,就是让机器人 真正走进物理世界,干实际的活 。 雷军转发的 @小米技术 博文提到,CVPR 2026 Workshops-GigaBrain Challenge-RoboChallenge Track 系列任务共 30 个超难度真实任务,包括双臂灵巧任务、覆盖柔性物体操作、工具因果推理和跨平台鲁棒性,需进行 10 次连续无干扰测试,提交统一多任务模型,注重考验模型泛化能力。 IT之家从博文获悉,参赛模型「my16」为 WAM 模型,是面向真实机器人场景自研的「大小脑 + 长短期记忆」世界动作模型。在 RoboChallenge CVPR 2026 真机评测系列任务中成功率(Success Rate)以显著优势位居参赛模型首位,达 40.89%,是本届赛事 唯一突破 40% 成功率门槛 的模型,综合排名位列总榜第一名。 该模型通过“S1/S2 双系统 + 长短期记忆 + 跨本体预训练”的整体架构,把三项突出长板能力有机融合到一个统一的模型中,其既具备大模型的认知深度,又具备控制器的执行精度,更具备记忆系统的长程稳定性。 而在 ICRA 2026 WBC 赛事中,挑战赛道面向超市场景,要求机器人在 16 种大类,20 个小类别不同饮料中,根据指令从货架上抓取指定饮料,并将饮料放入购物车。 在本次评测中,小米团队综合得分达到 99.2 分,接近满分;整体成功率达到 94% ,是榜单中 唯一成功率超过 90% 的方案,并较第二名高出 10 个百分点。其中,简单任务成功率 100%,复杂任务成功率 90%。 参考 @小米技术 官微发布的技术详解
IT之家 6 月 2 日消息,铁建重工今日宣布,由其自主研制的我国首套千米级水平定向取心钻探装备通过国家建筑城建机械质量监督检验中心权威认证,核心指标达国际领先水平, 标志着我国首套千米级水平定向取心钻探装备成功问世 。 据介绍, 该装备系统集成了定向取心钻机、定向取心钻具、定向螺杆钻具、高精度陀螺测斜系统等核心设备 ,精准聚焦深地探测“卡脖子”技术,攻克了复杂地层中“钻不快、取不全、测不准”的行业难题,为国家重大地下工程建设提供了保障。 IT之家注意到,针对“钻不快”难题 , 铁建重工研制千米级定向取心钻机 ,整机配备自研宽转速大扭矩动力头(最大扭矩 15000N·m、最高转速 800rpm),支持转速、推进力、泵量无级调节;针对“取不全”难题, 铁建重工突破定向取心钻具核心技术 ,解决了“定向不能取心、取心不能定向”行业难题;针对“测不准”难题 , 铁建重工研制高精度陀螺测斜系统 ,克服了隧道内钢筋、设备密集导致的强磁干扰,方位角精度达 ±0.5°。
基准测试平台 Artificial Analysis 最新数据显示,英伟达新推出的开源大模型 Nemotron 3 Ultra 被评为目前美国能力最强的开源人工智能模型,但在整体水平上仍落后于中国头部开源模型。该模型采用混合专家架构,整体参数规模约为 5500 亿,其中任一时刻实际激活约 550 亿参数。 在 Artificial Analysis 的智能评分榜单中,Nemotron 3 Ultra 获得 48 分,明显领先于其他美国开源模型,例如Google Gemma 4 31B 的 39 分、英伟达上一代 Nemotron 3 Super 的 36 分,以及 gpt-oss-120b 的 33 分。 不过,与中国最强开源模型相比,Nemotron 3 Ultra 仍有差距:来自月之暗面的 Kimi K2.6 在同一榜单中获得 54 分,而当前综合实力最强的闭源模型 Claude Opus 4.8 则拿到 61 分。 Artificial Analysis 的可视化图表显示,Nemotron 3 Ultra 落在其划定的“最具吸引力象限”,在智能得分处于第一梯队的同时,推理和生成速度也位居前列。 在推理性能方面,托管 Nemotron 3 Ultra 的平台 DeepInfra 实测吞吐量超过每秒 300 个 token,而相近规模的 DeepSeek 和 Moonshot 模型目前通常只能达到每秒 50 至 100 个 token 左右,Nemotron 3 Ultra 在速度上的优势十分明显。 英伟达表示,Nemotron 3 Ultra 将于 6 月 4 日正式向开发者社区开放,首批将登陆 Hugging Face、OpenRouter 等主流模型托管与调用平台,方便企业和个人开发者集成与测试。 外界普遍认为,随着这一模型的发布,美国开源模型阵营在高端能力段获得了一次重要补强,但在综合智能和性能上与中国领先开源模型及国际顶级闭源模型之间仍存在一定差距。 查看评论
根据高盛周五发布的一个模型预测,西班牙是2026年世界杯的夺冠热门,领先于法国、阿根廷和巴西。该模型使用了各队的历史表现和排名数据。本届世界杯赛事将于 6 月 11 日至 7 月 19 日在美国、墨西哥和加拿大举行,该模型预测西班牙有 26% 的机会夺冠。 法国以19%位居第二,卫冕冠军阿根廷以14%紧随其后,巴西以8%位列第四,英格兰以5%位列第五。 高盛表示,其预测主要基于球队的Elo等级分(一种最初用于国际象棋,后经调整应用于足球的竞技水平排名系统),并结合了进攻天赋、近期势头、心态和地理位置等其他因素。 高盛表示:“西班牙预计将会赢得比赛,因为它拥有最高的 Elo 排名,并且拥有得分天赋和良好的比赛势头。” 高盛表示,其预测结果与博彩公司的赔率基本一致,但英格兰队获胜的概率低于博彩市场的预期。 该银行称,其模型利用自1978年以来近2万场强制性国际比赛的数据模拟比赛结果,并将在赛事期间每天比赛结束后进行更新。 查看评论
业界领先的轻量级文档解析视觉语言模型 PaddleOCR-VL-1.6 (0.9B) 。该模型以 96.3% 精度刷新 OmniDocBench v1.6,文本、公式、表格识别全面领先,并在古籍、生僻字、印章、图表等多场景能力显著增强,支持以 Markdown 和 JSON 格式输出结构化结果。 仓库地址: GitHub - PaddlePaddle/PaddleOCR: Turn any PDF or image document into structured data for your AI. A powerful, lightweight OCR toolkit that bridges the gap between images/PDFs and LLMs. Supports 100+ languages. · GitHub 权重: PaddlePaddle/PaddleOCR-VL-1.6 · Hugging Face 官网使用: PaddleOCR - 文档解析与智能文字识别 | 支持API调用与MCP服务 - 飞桨星河社区 1 个帖子 - 1 位参与者 阅读完整话题
据我长达两年半的观察,谁的模型领先,谁风控就严,除非gpt一直领先,否则迟早会放宽风控。 不知道是否有佬友记得gpt曾经的 降智大法 和claude曾经的 不支持地区有罪论 。 在不受监管的资本主义市场,垄断的企业一定会作恶,但是垄断的企业一般不会持续性垄断(指AI领域)。 14 个帖子 - 8 位参与者 阅读完整话题
规模最大的头部几家是什么 目前感觉都是小作坊。 10 个帖子 - 9 位参与者 阅读完整话题
IT之家 5 月 27 日消息,在今晚举行的蔚来 ES9 上市发布会上,蔚来创始人、董事长、CEO 李斌就主动悬架技术路线之争发表了明确观点。 蔚来 ES9 搭载 48V 集成式全主动悬架,李斌在演讲中明确表示,48V 集成式是比 400/800V 分体式领先一代的主动悬架技术。他提到,天行 48V 集成式全主动悬架具备更敏捷、更精准、更节能、更安静、更全面五大优势。 IT之家注意到,李斌进一步预测,48V 集成式主动悬架将成为下一代纯电动汽车的行业标准。他称,特斯拉 Cybertruck 也是用的 48V 配电架构。 相关阅读: 《 蔚来 ES9 旗舰 SUV 正式上市:整车购买 49.8 万-62.8 万起,租电 39 万-52 万元起 》
IT之家 5 月 26 日消息,科技媒体 PC Games Hardware 通过测试 15 款游戏,指出英特尔旗舰 Bartlett Lake 处理器酷睿 9 273PQE 并未明显领先消费级酷睿 i9-13900K 处理器。 IT之家注: 酷睿 9 273PQE 是英特尔面向嵌入式市场的 Bartlett Lake 旗舰处理器 ,在本次评测中,首次被拿来和消费级 Raptor Lake 旗舰正面对比。 测试结果显示, 酷睿 9 273PQE 拥有更多 P-Core(性能核),在游戏里也没有带来明显优势。 对普通玩家来说,这意味着单看核心数量,并不能判断谁更适合打游戏。 本次测试比较了多款处理器,并在功耗限制、内存配置等方面,尽量让 Bartlett Lake 平台贴近 Raptor Lake 的测试条件,显卡使用的是 GeForce RTX 5090。 从结果看,在约 15 款游戏里,酷睿 9 273PQE 都没能压过 Core i9-13900K,原文认为,这至少说明在当前游戏负载下,超过 8 个性能核后,继续堆核心数带来的收益已经不明显。
flow上试用了一下,现在只有omni flash,感觉除了新增了一个画布功能,omni flash对比veo3.1毫无进步。seedance没有对手啊。 话说各位佬用什么来做ai视频,现在seedance还有平替吗? 3 个帖子 - 3 位参与者 阅读完整话题
大意就是说o和a的模型能力完全是靠堆卡把推理深度拉到一个非常疯狂的程度来实现的,然后我又问为什么谷歌不堆卡,他说谷歌是上市公司,没法这么烧干钱去买卡,现在o和a这样的推理模式完全是爆亏,谷歌自己有卡但还是给a出去用也是钱的问题,最后问了下x的ai为什么那么拉,他说x的卡看着多,实际数据中心建的很仓促,稳定性很差 感觉都还挺合理的,像是真的在和业内人士聊天一样 3 个帖子 - 3 位参与者 阅读完整话题