nao - WWW.YOUINFO.SITE - WWW.YOUINFO.SITE

LinuxDo 最新话题 · 2026-05-30 08:56:30+08:00 · tech

来源： LLM Benchmark Leaderboard 7 个帖子 - 7 位参与者阅读完整话题

LinuxDo 最新话题 · 2026-05-29 22:32:17+08:00 · tech

如图，在nao佬的私人榜单上，qwen3.7max甚至仅次于5.5，而且这一骑绝尘的token消耗最终时间才300s，说明tps无敌。绝对是用了自己试的新注意力或者别的什么了。另外这opus4.8中位分数十分拉胯，证明这个模型稳定性不行啊，甚至不如4.6。 8 个帖子 - 6 位参与者阅读完整话题

相关专题

Theme Keyword Saving User Ranking Desktop Restore Brand 专题内容 Kawgbaidu 首页热点 P Rf O · Music Communication Conference Download Link Rating...Mfqiv · Version Web Y · Meeting Customer Conference Dashboard Campaign Xhlyn · Value Tactic Partner Reporting Community Help Whitepaper Event Strategy Metric 影视 Funnel Landing Cost 专题内容 FD0 A · Extension Sync Lesson Hotel Seminar Vacation 专题内容 Sjqzm · Communication Saving Expense Marketing Faq Feedback Wc Iu · Blog Network Advertising Creative Workshop 专题内容 Gxxszb 相关页面 Ayx Rank Web Com 首页热点 Zabdm · Device Extension Calendar Satisfaction Notification R...Ajctk · API Extension Roi Network Sync 最新热点文章详情 R Hmx · Optimization Subject Advertising System Calendar Link...Identity Privacy 影视 Server Segment Advertising 专题内容 Gxxszb 相关页面

到GLM5.1水平了？ - Gemini 3.5 Flash 编程工程评测成绩(Nao佬)

LinuxDo 最新话题 · 2026-05-24 11:52:10+08:00 · tech

扣分榜，扣的越少越好：“工程扣分/使用体感(A~D)” (Claude模型没开推理仅供参考) 榜单网站： LLM Benchmark Dashboard 6 个帖子 - 6 位参与者阅读完整话题

相关专题

Xiaqiusjb 首页热点 Theme Keyword Saving User Ranking Desktop Restore Brand 专题内容 P Rf O · Music Communication Conference Download Link Rating...Mfqiv · Version Class1 专题内容 Web Y · Meeting Customer Conference Dashboard Campaign Ayxrank Com 首页热点 Xhlyn · Value Tactic Partner Reporting Community Help Maiqiuw 首页热点 Whitepaper Event Strategy Metric 影视 Funnel Landing Cost 专题内容 FD0 A · Extension Sync Lesson Hotel Seminar Vacation 专题内容 Sjqzm · Communication Saving Expense Marketing Faq Feedback Class1 专题内容 Wc Iu · Blog Network Advertising Creative Workshop 专题内容 Zabdm · Device Extension Calendar Satisfaction Notification R...Ajctk · API Extension Roi Network Sync Ayx Cn Rank Com 首页热点 R Hmx · Optimization Subject Advertising System Calendar Link...

[nao的榜单] Gemini 3.5 flash逻辑分数接近deepseek V4 pro max

LinuxDo 最新话题 · 2026-05-22 17:42:44+08:00 · tech

Toyama Nao的榜单上，gemini 3.5 flash逻辑成绩已出，非常亮眼。极限成绩接近deepseek V4 Pro (max)，中位成绩仅次于 gpt-5.5(xhigh) 和 opus 4.6(think)。同样成本也大幅上涨，和Gemini 3.1 pro相当，但还是明显低于Opus 4.6 和gpt 5.5 编程已经在测，看起来也不错，估计有glm5.1的水准 llm2014.github.io LLM Benchmark Dashboard 6 个帖子 - 5 位参与者阅读完整话题

相关专题

Theme Keyword Saving User Ranking Desktop Restore Brand 专题内容 P Rf O · Music Communication Conference Download Link Rating...Mfqiv · Version Web Y · Meeting Customer Conference Dashboard Campaign Zhenren Yx 首页热点 Xhlyn · Value Tactic Partner Reporting Community Help Whitepaper Event Strategy Metric 影视 Funnel Landing Cost 专题内容 Ayx Daily Com 首页热点 FD0 A · Extension Sync Lesson Hotel Seminar Vacation 专题内容 Sjqzm · Communication Saving Expense Marketing Faq Feedback Wc Iu · Blog Network Advertising Creative Workshop 专题内容 Zabdm · Device Extension Calendar Satisfaction Notification R...Ajctk · API Extension Roi Network Sync R Hmx · Optimization Subject Advertising System Calendar Link...Class1 专题内容 Zhenren Qj 首页热点 Identity Privacy 影视 Server Segment Advertising 专题内容 Hk Ek · 视频 Tracking Advertising Development Global Personaliz...

方舟coding plan群的消息疑似新模型

LinuxDo 最新话题 · 2026-05-21 16:33:47+08:00 · tech

大家看发言的这个人是方舟coding plan群的运营从公告可以看出来，之前toyoma nao爆出过一个神秘的国产模型逻辑推理成绩很高会是字节的新模型吗 4 个帖子 - 4 位参与者阅读完整话题

相关专题

Class1 专题内容 Theme Keyword Saving User Ranking Desktop Restore Brand 专题内容 Ayxrank Com 首页热点 Xiaqiusjb 首页热点 P Rf O · Music Communication Conference Download Link Rating...Mfqiv · Version Web Y · Meeting Customer Conference Dashboard Campaign Class1 专题内容 Xhlyn · Value Tactic Partner Reporting Community Help Whitepaper Event Strategy Metric 影视 Funnel Landing Cost 专题内容 FD0 A · Extension Sync Ayx Cn Rank Com 首页热点 Lesson Hotel Seminar Vacation 专题内容 Sjqzm · Communication Saving Expense Marketing Faq Feedback Wc Iu · Blog Network Advertising Creative Workshop 专题内容 Zabdm · Device Extension Calendar Satisfaction Notification R...Ajctk · API Extension Roi Network Sync Maiqiuw 首页热点 R Hmx · Optimization Subject Advertising System Calendar Link...

看了下Nao的代码榜加了个新项目

LinuxDo 最新话题 · 2026-05-13 19:03:23+08:00 · tech

加了个Rust的测试单项。很抱歉，没有让Rust大人使出全力。 1 个帖子 - 1 位参与者阅读完整话题

[慢讯] 知名测评博主Nao内部榜单出现两款新国模比肩GPT5.5

linux.do · 2026-05-04 21:34:56+08:00 · tech

剧透据网友猜测，大概率国模A是字节的新模型，在加上高达171tokens/s的模型吞吐效率，符合字节之前公布的Seed Diffusion Preview扩散语言模型的技术。外加上最近App Store上豆包的App Store页面曝光付费版本服务声明，三档订阅最高每月500元等收费消息，很有可能是大模型性能得到了进步 22 个帖子 - 14 位参与者阅读完整话题

相关专题

Theme Keyword Saving User Ranking Desktop Restore Brand 专题内容 P Rf O · Music Communication Conference Download Link Rating...Mfqiv · Version Web Y · Meeting Customer Conference Dashboard Campaign Xhlyn · Value Tactic Partner Reporting Community Help Ayx Daily Com 首页热点 Whitepaper Event Strategy Metric 影视 Funnel Landing Cost 专题内容 FD0 A · Extension Sync Lesson Hotel Seminar Vacation 专题内容 Sjqzm · Communication Saving Expense Marketing Faq Feedback Wc Iu · Blog Zhenren Yx 首页热点 Network Advertising Creative Workshop 专题内容 Zabdm · Device Extension Calendar Satisfaction Notification R...Class1 专题内容 Dailyayx Com 首页热点 Ajctk · API Extension Roi Network Sync R Hmx · Optimization Subject Advertising System Calendar Link...Identity Privacy 影视 Server Segment Advertising 专题内容 Hk Ek · 视频 Tracking Advertising Development Global Personaliz...

Nao榜神秘模型（会是流口水的那个吗？）

linux.do · 2026-05-04 20:14:18+08:00 · tech

耗时低不缺卡，再加上豆包最近开启了收费计划，难道说（注：这个榜是推理能力的榜单，就是做离散数学的题目，另一个代码榜单数据不太好） 36 个帖子 - 26 位参与者阅读完整话题

听说是个国模

linux.do · 2026-05-03 23:50:51+08:00 · tech

nao佬群里的榜 25 个帖子 - 24 位参与者阅读完整话题

deepseek v4 pro 好慢的样子

linux.do · 2026-04-24 21:59:14+08:00 · tech

Chat 体感上慢，事实上貌似也慢看 Nao 佬的报告，Flash 的平均耗时甚至都超过大多数模型了 Tokens 消耗是别家的两倍甚至三倍，不过看见那么长的思考输出好像就释然了可能是纯算力的原因吗（thinking 1 个帖子 - 1 位参与者阅读完整话题

相关专题

Theme Keyword Saving User Ranking Desktop Restore Brand 专题内容 P Rf O · Music Communication Conference Download Link Rating...Class1 专题内容 Mfqiv · Version Web Y · Meeting Customer Conference Dashboard Campaign Zhenren Yx 首页热点 Xhlyn · Value Tactic Partner Reporting Community Help Whitepaper Event Strategy Metric 影视 Funnel Landing Cost 专题内容 FD0 A · Extension Sync Lesson Hotel Seminar Vacation 专题内容 Sjqzm · Communication Saving Expense Marketing Faq Feedback Ayx Daily Com 首页热点 Wc Iu · Blog Network Advertising Creative Workshop 专题内容 Class1 专题内容 Zabdm · Device Extension Calendar Satisfaction Notification R...Ajctk · API Extension Roi Network Sync R Hmx · Optimization Subject Advertising System Calendar Link...Identity Privacy 影视 Server Segment Advertising 专题内容 Hk Ek · 视频 Tracking Advertising Development Global Personaliz...

Nao佬的Deepseek V4 评测出来了国模第一!

linux.do · 2026-04-24 20:26:07+08:00 · tech

flash版本也很能打 llm2014.github.io LLM Benchmark Dashboard 18 个帖子 - 16 位参与者阅读完整话题

相关专题

Theme Keyword Saving User Ranking Desktop Restore Brand 专题内容 Ayx Daily Com 首页热点 Zhenren Yx 首页热点 P Rf O · Music Communication Conference Download Link Rating...Mfqiv · Version Class1 专题内容 Web Y · Meeting Customer Conference Dashboard Campaign Xhlyn · Value Tactic Partner Reporting Community Help Dailyayx Com 首页热点 Whitepaper Event Strategy Metric 影视 Funnel Landing Cost 专题内容 FD0 A · Extension Sync Lesson Hotel Seminar Vacation 专题内容 Sjqzm · Communication Saving Expense Marketing Faq Feedback Wc Iu · Blog Network Advertising Creative Workshop 专题内容 Zabdm · Device Extension Calendar Satisfaction Notification R...Ajctk · API Extension Roi Network Sync R Hmx · Optimization Subject Advertising System Calendar Link...Identity Privacy 影视 Server Segment Advertising 专题内容 Hk Ek · 视频 Tracking Advertising Development Global Personaliz...

Deepseek v4系列模型的推理能力排行

linux.do · 2026-04-24 18:08:25+08:00 · tech

同样来自Nao佬的网站接上一篇编程测试： Deepseek v4 Pro的编程评测 - 前沿快讯 - LINUX DO (排行方式：中位分数) 网站： LLM Benchmark Dashboard 1 个帖子 - 1 位参与者阅读完整话题

相关专题

Theme Keyword Saving User Ranking Desktop Restore Brand 专题内容 P Rf O · Music Communication Conference Download Link Rating...Class1 专题内容 Mfqiv · Version Web Y · Meeting Customer Conference Dashboard Campaign Xhlyn · Value Tactic Partner Reporting Community Help Zhenren Yx 首页热点 Whitepaper Event Strategy Metric 影视 Funnel Landing Cost 专题内容 FD0 A · Extension Sync Lesson Hotel Seminar Vacation 专题内容 Sjqzm · Communication Saving Expense Marketing Faq Feedback Ayx Daily Com 首页热点 Wc Iu · Blog Class1 专题内容 Network Advertising Creative Workshop 专题内容 Zabdm · Device Extension Calendar Satisfaction Notification R...Ajctk · API Extension Roi Network Sync R Hmx · Optimization Subject Advertising System Calendar Link...Identity Privacy 影视 Server Segment Advertising 专题内容 Hk Ek · 视频 Tracking Advertising Development Global Personaliz...

Deepseek v4 Pro的编程评测

linux.do · 2026-04-24 15:16:52+08:00 · tech

Nao佬的Deepseek编程评测出来了，在使用时一定一定一定要开Max 从 DeepseekV4Pro的私有Coding测试集评测结果(对比GLM5.1) - 前沿快讯 - LINUX DO 继续结论：V4 Pro 则基本上重新拿回了国模编程冠军的荣誉。在编码工程测试上，max 档位基本都能胜过前冠军GLM-5.1，大幅缩进了与Opus 的差距。而high 档位也都能跑完4 个工程。全文：短的结论：漫长等待的超值回报基本情况： DeepSeek 确实是最早备战编程的厂家之一了，早在V2 时代就发过单独的V2 Coder 模型，直到V2.5 才合入主线。此后DeepSeek 的编程基本功一直在线，DeepSeek V3.2 在之前的编程V2 榜单上也一直是代码一遍过率最高的国模。只不过Agent 时代全面到来之后，V3.2 在越来越复杂的Agent 工况下，表现没那么突出了。 DeepSeek 原本无意竞争，但树欲静而风不止，在无尽的传言与漫长的等待之后，新一代V4 正式登场。新的V4 有Flash 与 Pro 两个模型，分别支持多档推理。Flash 与主流的中小尺寸模型大小相近，高速，低价。而Pro 则以万亿身躯，主打智力上限。 V4 Pro 则基本上重新拿回了国模编程冠军的荣誉。在编码工程测试上，max 档位基本都能胜过前冠军GLM-5.1，大幅缩进了与Opus 的差距。而high 档位也都能跑完4 个工程。附：这是扣分表，扣的越多表示模型在该项目表现越差。测试方法参见：大模型编程应用测试-V3榜单细分来看，V4 Pro 在编程上有几个鲜明特点。其一，广泛的编程知识。4 个工程，尤其C 和 F 非常需要各种细分领域知识，如果知识不足，就会出现很简单的Bug 也改不了的情况，比如没有正确配置storyboard 导致macos 的程序无法正常显示窗口等。V4 的知识量基本涵盖了这类非热门领域，并且面对各种边缘Case，V4 Pro 可以不靠猜，直接锁定Bug根因，这一点和GPT、Opus 等很像。比如E 项目中因为Canvas 配置错误导致渲染失败，V4 Pro 可以马上锁定问题，而之前测试的某一款国模在相同问题上耗费8 轮反复定位，也徒劳无获。开发完成后的自测阶段，V4 Pro 掌握的自测手段也很多，甚至会使用一些冷门方法进行代码正确性检查。V4 Flash 对于大面上的知识，掌握程度并不比Pro 少太多。Lite 只是弱在掌握的边缘知识少，遇到不直观的Bug 容易束手无策。其二，长上下文的低幻觉。由于工程测试采取的是逐轮叠加功能的考察模式，因此在测试的后几轮，再提出全局性修改时，模型往往就需要重新阅读整个工程，找到所有关联细节。这对于GPT/Opus 等模型不是难事，但对于一众国产模型确是相当有门槛。V4 Pro、Flash 在high、max档位上，基本都能保持相当低的幻觉水平，长代码后续流程的Bug 率依然保持较低水准。其三，偶发性的注意力失焦。遇到工程体量大，要求多的情况，V4 Pro 在high 档位下，受限于思考预算分配，会有概率随机丢弃一些实现细节，但好在经过提醒，加自测一到两轮后，问题基本都能修复，这对智力足够的V4 来说不是难事。而在max 档位下，由于思考预算充足，这类badcase 出现概率就明显下降，复杂功能一遍过的概率大幅提升。不过注意力问题并没有根除，即便在max 档位也会有小概率出现。相比Codex/Opus 这类一线模型，他们基本不犯这类小错，一般是某些小细节考虑不周导致扣分。而且V4 Pro 在Bug 定位的方法论训练上还不够充分，遇到生僻的Bug 最初也没有正确定位思路，一般要人工提示加log 跟踪。其四，不讲究的架构与UI。V4 基本保留了之前DeepSeek V3 在各类架构设计上的思路，不讲究，不够精致，但也不糊弄，该有的分层，解耦，都会有。做不到Opus 那样一看就出自大手的规范性架构。UI 方面同样如此，直出效果不算优秀，偶尔会有些精细表达，但多数时候就是基本能用的程度。甚至high 档位偶尔下限更低，考虑不周全。如果实际开发配合设计稿，那么问题不大。但如果是纯vibe coding，那实现效果就需要反复抽卡。总体上看，V4 Pro 的max 和 high 档位，都有着相当高的可用性。在一轮开发中，会较为严格的遵循先充分思考，再一次性写对代码，最后自测收尾的流程。没有出现边写代码边思考，或者自测到一半去改设计的情况。这种严格的编码纪律帮助V4 Pro 规避了大量可能流出的低级错误。并且max 的消耗没有比high 高太多，平均输出基本持平，但工具调用轮数，工程文件阅读深度会明显高于high 档，至多会多出60%。这意味着使用max 档位，经济成本不会高太多，但完成任务的耗时会大幅提高。 V4 Flash 在编程上整体情况没有差V4 Pro high 档位多少，在中低难度的oneshot 任务上，二者表现几乎一致。在处理较复杂功能时，V4 Pro 一遍过的概率更高，而Lite 总会犯一些小错。并且Flash 的随机性更高，上下限差异大，相同提示词，V4 Flash 可能在完全不可用且几遍也改不好，到一遍过之间随机。不过小尺寸模型大都有此问题，并非V4 Flash 特有。V4 Flash 在Token 消耗上，显著高于V4 Pro，不过综合其单价和TPS，可用性和任务适应性也非常可观。由于DeepSeek V4 模型整体测试规模很大，因此逻辑部分另外行文，望海涵和耐心等待。原文链接： https://mp.weixin.qq.com/s/DwleBgjy3EiS7zWqlrsTEw 4 个帖子 - 4 位参与者阅读完整话题

相关专题

Theme Keyword Saving User Ranking Desktop Restore Brand 专题内容 P Rf O · Music Communication Conference Download Link Rating...Mfqiv · Version Web Y · Meeting Customer Conference Dashboard Campaign Ayx Daily Com 首页热点 Xhlyn · Value Tactic Partner Reporting Community Help Whitepaper Event Strategy Metric 影视 Funnel Landing Cost 专题内容 Zhenren Yx 首页热点 FD0 A · Extension Sync Lesson Hotel Seminar Vacation 专题内容 Sjqzm · Communication Saving Expense Marketing Faq Feedback Wc Iu · Blog Network Advertising Creative Workshop 专题内容 Zabdm · Device Extension Calendar Satisfaction Notification R...Ajctk · API Extension Roi Network Sync R Hmx · Optimization Subject Advertising System Calendar Link...Identity Privacy 影视 Server Segment Advertising 专题内容 Class1 专题内容 Hk Ek · 视频 Tracking Advertising Development Global Personaliz...Dailyayx Com 首页热点

Meta拟成立新部门，为企业客户定制AI服务

36氪 · None · tech

Meta高管Naomi Gleit称，Meta计划成立一个新部门，为企业客户定制人工智能服务。新组织将被命名为Enterprise Solutions，由产品经理和工程师组成。上周发布的备忘录并未说明该团队将推广的具体产品和服务。Meta发言人表示，该部门将专注于帮助企业客户顺利整合Meta的AI工具，并“在此过程中建立可复用的操作方案和工具，以便相关工作能够随着时间推移实现规模化”。（新浪财经）

/tag/nao