来源: LLM Benchmark Leaderboard 7 个帖子 - 7 位参与者 阅读完整话题
如图,在nao佬的私人榜单上,qwen3.7max甚至仅次于5.5,而且这一骑绝尘的token消耗最终时间才300s,说明tps无敌。绝对是用了自己试的新注意力或者别的什么了。另外这opus4.8中位分数十分拉胯,证明这个模型稳定性不行啊,甚至不如4.6。 8 个帖子 - 6 位参与者 阅读完整话题
扣分榜,扣的越少越好:“工程扣分/使用体感(A~D)” (Claude模型没开推理仅供参考) 榜单网站: LLM Benchmark Dashboard 6 个帖子 - 6 位参与者 阅读完整话题
Toyama Nao的榜单上,gemini 3.5 flash逻辑成绩已出,非常亮眼。 极限成绩接近deepseek V4 Pro (max),中位成绩仅次于 gpt-5.5(xhigh) 和 opus 4.6(think)。 同样成本也大幅上涨,和Gemini 3.1 pro相当,但还是明显低于Opus 4.6 和gpt 5.5 编程已经在测,看起来也不错,估计有glm5.1的水准 llm2014.github.io LLM Benchmark Dashboard 6 个帖子 - 5 位参与者 阅读完整话题
大家看发言的这个人 是方舟coding plan群的运营 从公告可以看出来,之前toyoma nao爆出过一个神秘的国产模型 逻辑推理成绩很高 会是字节的新模型吗 4 个帖子 - 4 位参与者 阅读完整话题
加了个Rust的测试单项。很抱歉,没有让Rust大人使出全力。 1 个帖子 - 1 位参与者 阅读完整话题
剧透 据网友猜测,大概率国模A是字节的新模型,在加上高达171tokens/s的模型吞吐效率,符合字节之前公布的Seed Diffusion Preview扩散语言模型的技术。 外加上最近App Store上豆包的App Store页面曝光付费版本服务声明,三档订阅最高每月500元等收费消息,很有可能是大模型性能得到了进步 22 个帖子 - 14 位参与者 阅读完整话题
耗时低不缺卡,再加上豆包最近开启了收费计划,难道说 (注:这个榜是推理能力的榜单,就是做离散数学的题目,另一个代码榜单数据不太好) 36 个帖子 - 26 位参与者 阅读完整话题
nao佬群里的榜 25 个帖子 - 24 位参与者 阅读完整话题
Chat 体感上慢,事实上貌似也慢 看 Nao 佬的报告 ,Flash 的平均耗时甚至都超过大多数模型了 Tokens 消耗是别家的两倍甚至三倍,不过看见那么长的思考输出好像就释然了 可能是纯算力的原因吗(thinking 1 个帖子 - 1 位参与者 阅读完整话题
flash版本也很能打 llm2014.github.io LLM Benchmark Dashboard 18 个帖子 - 16 位参与者 阅读完整话题
同样来自Nao佬的网站 接上一篇编程测试: Deepseek v4 Pro的编程评测 - 前沿快讯 - LINUX DO (排行方式:中位分数) 网站: LLM Benchmark Dashboard 1 个帖子 - 1 位参与者 阅读完整话题
Nao佬的Deepseek编程评测出来了,在使用时 一定一定一定要开Max 从 DeepseekV4Pro的私有Coding测试集评测结果(对比GLM5.1) - 前沿快讯 - LINUX DO 继续 结论:V4 Pro 则基本上重新拿回了国模编程冠军的荣誉。在编码工程测试上,max 档位基本都能胜过前冠军GLM-5.1,大幅缩进了与Opus 的差距。而high 档位也都能跑完4 个工程。 全文: 短的结论:漫长等待的超值回报 基本情况: DeepSeek 确实是最早备战编程的厂家之一了,早在V2 时代就发过单独的V2 Coder 模型,直到V2.5 才合入主线。此后DeepSeek 的编程基本功一直在线,DeepSeek V3.2 在之前的编程V2 榜单上也一直是代码一遍过率最高的国模。只不过Agent 时代全面到来之后,V3.2 在越来越复杂的Agent 工况下,表现没那么突出了。 DeepSeek 原本无意竞争,但树欲静而风不止,在无尽的传言与漫长的等待之后,新一代V4 正式登场。 新的V4 有Flash 与 Pro 两个模型,分别支持多档推理。Flash 与主流的中小尺寸模型大小相近,高速,低价。而Pro 则以万亿身躯,主打智力上限。 V4 Pro 则基本上重新拿回了国模编程冠军的荣誉。在编码工程测试上,max 档位基本都能胜过前冠军GLM-5.1,大幅缩进了与Opus 的差距。而high 档位也都能跑完4 个工程。 附:这是扣分表,扣的越多表示模型在该项目表现越差。 测试方法参见: 大模型编程应用测试-V3榜单 细分来看,V4 Pro 在编程上有几个鲜明特点。 其一,广泛的编程知识。4 个工程,尤其C 和 F 非常需要各种细分领域知识,如果知识不足,就会出现很简单的Bug 也改不了的情况,比如没有正确配置storyboard 导致macos 的程序无法正常显示窗口等。V4 的知识量基本涵盖了这类非热门领域,并且面对各种边缘Case,V4 Pro 可以不靠猜,直接锁定Bug根因,这一点和GPT、Opus 等很像。比如E 项目中因为Canvas 配置错误导致渲染失败,V4 Pro 可以马上锁定问题,而之前测试的某一款国模在相同问题上耗费8 轮反复定位,也徒劳无获。开发完成后的自测阶段,V4 Pro 掌握的自测手段也很多,甚至会使用一些冷门方法进行代码正确性检查。V4 Flash 对于大面上的知识,掌握程度并不比Pro 少太多。Lite 只是弱在掌握的边缘知识少,遇到不直观的Bug 容易束手无策。 其二,长上下文的低幻觉。由于工程测试采取的是逐轮叠加功能的考察模式,因此在测试的后几轮,再提出全局性修改时,模型往往就需要重新阅读整个工程,找到所有关联细节。这对于GPT/Opus 等模型不是难事,但对于一众国产模型确是相当有门槛。V4 Pro、Flash 在high、max档位上,基本都能保持相当低的幻觉水平,长代码后续流程的Bug 率依然保持较低水准。 其三,偶发性的注意力失焦。遇到工程体量大,要求多的情况,V4 Pro 在high 档位下,受限于思考预算分配,会有概率随机丢弃一些实现细节,但好在经过提醒,加自测一到两轮后,问题基本都能修复,这对智力足够的V4 来说不是难事。而在max 档位下,由于思考预算充足,这类badcase 出现概率就明显下降,复杂功能一遍过的概率大幅提升。不过注意力问题并没有根除,即便在max 档位也会有小概率出现。相比Codex/Opus 这类一线模型,他们基本不犯这类小错,一般是某些小细节考虑不周导致扣分。而且V4 Pro 在Bug 定位的方法论训练上还不够充分,遇到生僻的Bug 最初也没有正确定位思路,一般要人工提示加log 跟踪。 其四,不讲究的架构与UI。V4 基本保留了之前DeepSeek V3 在各类架构设计上的思路,不讲究,不够精致,但也不糊弄,该有的分层,解耦,都会有。做不到Opus 那样一看就出自大手的规范性架构。UI 方面同样如此,直出效果不算优秀,偶尔会有些精细表达,但多数时候就是基本能用的程度。甚至high 档位偶尔下限更低,考虑不周全。如果实际开发配合设计稿,那么问题不大。但如果是纯vibe coding,那实现效果就需要反复抽卡。 总体上看,V4 Pro 的max 和 high 档位,都有着相当高的可用性。在一轮开发中,会较为严格的遵循先充分思考,再一次性写对代码,最后自测收尾的流程。没有出现边写代码边思考,或者自测到一半去改设计的情况。这种严格的编码纪律帮助V4 Pro 规避了大量可能流出的低级错误。 并且max 的消耗没有比high 高太多,平均输出基本持平,但工具调用轮数,工程文件阅读深度会明显高于high 档,至多会多出60%。这意味着使用max 档位,经济成本不会高太多,但完成任务的耗时会大幅提高。 V4 Flash 在编程上整体情况没有差V4 Pro high 档位多少,在中低难度的oneshot 任务上,二者表现几乎一致。在处理较复杂功能时,V4 Pro 一遍过的概率更高,而Lite 总会犯一些小错。并且Flash 的随机性更高,上下限差异大,相同提示词,V4 Flash 可能在完全不可用且几遍也改不好,到一遍过之间随机。不过小尺寸模型大都有此问题,并非V4 Flash 特有。V4 Flash 在Token 消耗上,显著高于V4 Pro,不过综合其单价和TPS,可用性和任务适应性也非常可观。 由于DeepSeek V4 模型整体测试规模很大,因此逻辑部分另外行文,望海涵和耐心等待。 原文链接: https://mp.weixin.qq.com/s/DwleBgjy3EiS7zWqlrsTEw 4 个帖子 - 4 位参与者 阅读完整话题
Meta高管Naomi Gleit称,Meta计划成立一个新部门,为企业客户定制人工智能服务。新组织将被命名为Enterprise Solutions,由产品经理和工程师组成。上周发布的备忘录并未说明该团队将推广的具体产品和服务。Meta发言人表示,该部门将专注于帮助企业客户顺利整合Meta的AI工具,并“在此过程中建立可复用的操作方案和工具,以便相关工作能够随着时间推移实现规模化”。(新浪财经)