SOTA - WWW.YOUINFO.SITE - WWW.YOUINFO.SITE

LinuxDo 最新话题 · 2026-06-04 10:28:52+08:00 · tech

主要是我干的活确实简单，SOTA模型对我也不是必要的。主要就是些CRUD，所以需要一些量大管饱，能听指挥干活的就行。应该选GLM-pro-149套餐还是kimi-199套餐呢？ GLM-¥149/月 KIMI-$199/月点击以查看投票。 3 个帖子 - 3 位参与者阅读完整话题

【开源自荐】Vibebench - 一个AI外行消费者做的LLM前端横评展示项目（Claude/GPT/Gemini/GLM/Kimi/Qwen/Minimax/Mimo...SOTA模型大乱斗）

LinuxDo 最新话题 · 2026-05-29 16:16:30+08:00 · tech

本帖使用社区开源推广，符合推广要求。我申明并遵循社区要求的以下内容：我的帖子已经打上开源推广标签：是我的开源项目完整开源，无未开源部分：是我的开源项目已链接认可 LINUX DO 社区：是我帖子内的项目介绍，AI生成、润色内容部分已截图发出：是以上选择我承诺是永久有效的，接受社区和佬友监督：是以下为项目介绍正文内容，AI生成、润色内容已使用截图方式发出嗯，大概两个月前，我开启了这个项目 github.com GitHub - kirenath/vibebench: AI Vibe Coding横评展示平台 — Same challenge, different... AI Vibe Coding横评展示平台 — Same challenge, different models, side-by-side comparison. No scores, just vibes ✨ 简单来说，就是让不同渠道的不同模型，做相同的赛题，然后展示出来目前的成果： vibebench.app VibeBench — AI Vibe Coding 横向展示平台同一道前端题，不同 AI 各展风格。浏览、对比、分享不同模型的前端作品。 For Whom？市面上的benchmark，其实更多的是面向AI的研究者，面向AI的厂商，面向媒体KOL，面向股价，而非消费者所以vibebench的manifesto是：真实渠道，测试AI在不同渠道的表现消费者不止调用API，消费者用手机APP，用AI IDE，用AI CLI，用Web Chat 消费者的渠道不止正价官方API，还有集合渠道和逆向中转完全透明，没有打分，只有展示与对比，唯一的评判标准是消费者的看法所有题目的提示词公开，任何人都可以尝试复现。所有的作品公开，没有黑盒评分。一次定生死（One Shot测试）没有pass@10，没有Best of N 消费者视角把评判权交还给消费者，并列展示同一道题目的所有作品，提供匿名横评功能和直接对比功能 WHY HTML? HTML是AI能力的金丝雀测试（canary test），AI的训练数据中HTML的内容不计其数，假设某个AI，HTML写的很好，那么想要直接推断出AI的全方位能力很强，那么并不科学，就像矿坑中的金丝雀，假设金丝雀存活，并不直接代表矿坑安全，但是假设某个AI，HTML写的很差，那么就像矿坑中的金丝雀直接死亡，说明矿坑非常危险，那么就有必要质疑AI的代码能力。或许有人会觉得，写HTML不好，不代表代码能力很差，那么问题来了，AI被厂商训练并被宣传成“通才”，假设写HTML的水平都很差，那么有必要质疑通才的含金量还有HTML本身的优势：零门槛验证，不需要编译，只要打开浏览器，就能观察结果（有些作品引用了外部CDN，此时需要联网）；考察综合能力，HTML中同时检验了css/js/算法等内容；难度可调整，从简单的AI自我介绍的静态页面，到3D渲染的页面，有足够低的起点和足够高的天花板。开源一共分为两个部分，首先是框架本身：其次是赛题，同样基于AGPL-3.0开源，使用、转载、分享请署名原作者。那么究竟有什么赛题？工具类：base64转码、简单的密钥生成、时钟工具箱、cron翻译器、RGB渐变调色板…… 视觉类：滚动叙事、无尽DOM套娃、字体博物馆、苹果风首页、人生选择地图…… 游戏类：21点、24点、打地鼠、吃豆人、俄罗斯方块、打砖块、2048、贪吃蛇…… 算法类：迷宫生成与求解、模拟万花尺、模拟高尔顿板、排序算法可视化…… 复刻类：Amazoom、Readit、Spotifly、Epoch 游戏商城…… 赛题数量？目前已经上传并公开的有120道大赛题，每个赛题分为独立的phase，共260+phase，phase包括简单提示词、复杂提示词、增加design system、PRD驱动等，除非特别标注，否则不同的phase之间互相独立，无上下文关联缺陷？ One Shot，模型输出具有不稳定性； HTML，对于其他编程语言的代表性有限；多种渠道，不同模型的表现不同；作者本人能力有限，赛题本身可能就有缺陷致谢感谢 @ocean-zhc 佬友授权，一开始的项目来源于用mimo v2 pro free 搞一个好玩的东西后来慢慢扩展成vibebench 感谢 @yeahhe 佬友授权，有几道赛题来自 https://linux.do/t/topic/286836 的前端生成题库，例如转盘题、天气卡片感谢 @kingd 佬友帮助，帮忙做了Opus 4.8的一部分赛题感谢L站，我的非常多渠道都是通过L站得知，L站极大地减少了AI时代的信息差 1 个帖子 - 1 位参与者阅读完整话题

【假的】Claude Opus 4.8 疑似跑分图泄露：全维度SOTA？

LinuxDo 最新话题 · 2026-05-28 23:31:06+08:00 · tech

如果是真的也太猛了吧？不过希望能和4.6一样讲人话然后看看啥时候能用上any大善人的4.8 经佬友指正此图来源是 https://fxtwitter.com/HarshithLucky3/status/2059978470105776281 原帖是：“what if …”。 12 个帖子 - 10 位参与者阅读完整话题

IT之家 · 2026-05-26 11:31:13+08:00 · tech

IT之家 5 月 26 日消息，小米技术官方宣布，小米汽车今日发布 Xiaomi Auto World Model 全新框架，为业界辅助驾驶世界模型提供了新的框架路径，推动行业从“场景感知”向“认知推演、场景进化”的高阶形态跃迁。据介绍，这是小米首次将三维重建与视频生成深度耦合的一体化架构，以「重建锚定几何、生成填补想象」的新范式，打破行业长期采用的重建、生成独立拆分路线。在 Waymo、nuScenes 等主流基准测试中全面取得 SOTA ，并已在小米汽车合成数据、仿真测试、智能座舱三大核心场景完成业务落地。 ▲ Xiaomi Auto World Model 效果展示目前，世界模型有两条主要技术路线 —— 重建（WorldRec）与生成（WorldGen），各有明确的优势与短板：重建从多视角观测恢复几何精确的 3D 场景，优势是高保真、强一致性，但只能还原已见内容，缺乏想象能力；生成通过扩散模型直接预测未来画面，能 " 想象 " 未观测视角和未发生场景，但缺乏显式 3D 结构，且长时序下容易漂移失真。 Xiaomi Auto World Model 则是提出一个全新的整合框架，将重建模块与生成模块深度耦合，让两者在结构上互相约束。重建提供 3D 几何作为结构化锚点，约束生成过程的稳定性；生成则把预测能力延伸到观测之外，弥补重建的边界。两者形成闭环、互相增益，从三个关键维度实现了“1+1>2”的协同增益：高稳定性： WorldRec 的确定性几何约束，有效抑制长时序自回归中的误差累积与内容漂移。高一致性： 4D 场景表征作为跨帧共享记忆，确保不同时刻、不同视角下场景内容全局一致。高真实性： WorldGen 以 WorldRec 渲染的 RGB 图像为几何骨架，使合成内容既符合物理布局，又贴近真实传感器观测，显著缩小了“仿真-现实”的领域鸿沟。 ▲ WorldGen 的极端场景效果 Xiaomi Auto World Model 已经在小米汽车三大实际场景中落地：合成数据生成：已交付超过 10 万 clips 高质量合成数据，直接用于感知模型训练，提升车辆在危险场景下的识别能力。仿真测试：构建闭环仿真环境，优化测试效率，完备测试规范，可在仿真中复现真实事故进行定向优化。辅助驾驶学堂：利用世界模型动态生成第一人称驾驶教学视频，用户面对复杂路况时，系统以生成式视频展示正确操作。目前已经上线小米全车型的辅助驾驶学堂 - 实景模拟场景。 IT之家附相关技术主页与论文链接如下：技术主页： https://JointWM.github.io/ 论文链接： https://arxiv.org/pdf/2605.18137

[分享创造] 做了一个 AI 工作流 SOTA 诊断 skill，希望能直接基于工作空间给出最优改进方案

v2ex · 2026-05-13 13:40:41+08:00 · tech

先说真话—— 发这帖主要是想找几个 fellow ，一起追 Claude Code / Cursor / MCP / agent 这一摊东西的当前 SOTA 。我自己用 Claude Code 半年，从 hooks / skills / MCP / subagent 一路跟着出新，但每周还是会怀疑两次"我这套 harness 是不是已经落后了"——你们应该也有过这种感觉。 X 和即刻上人人都在晒 setup ，没人讲「你当前 workspace 在哪一档 / 跟 SOTA 差哪几条 / 下一步先装哪个能消化的」。所以我做了一个工具 lorejump.com ，但更想做的是建一个小群，30 人左右，互相戳一下姿势。工具长什么样两种用法：轻量看一眼：直接在 lorejump.com 首页输入框聊两句，它跑一个自适应问卷（ A 问卷 → B 出分 → C 深聊）给你一个 7 维诊断。看完想深扫再装 skill 。深扫：在你自己 Claude Code 里装 skill + 配 MCP ， /lorejump-optimize 一下，它扫你的 CLAUDE.md / .claude/ 配置 / 仓库结构 / spec 体系，用你自己的 agent 对照 SOTA 知识库打分 —— 输出 7 维分数 + 落后维度 + 1-3 条"当下能消化、可验证"的下一步（不强推完整 harness 模板让你 copy ）。评分逻辑在 agent 侧，知识库在 MCP 侧（只有 2 个 tool： get_sota_pack 拉 SOTA 画像 + submit_report 回执）。你的代码 / prompt 不离开你的机器。 7 个维度：D1 Spec 驱动 / D2 上下文管理 / D3 版本控制 / D4 测试质量 / D5 多 Agent 利用 / D6 文档体系 / D7 工作流自动化（ D1 + D5 是我赌的"还没被占据的差异化维度"，D3/4/6/7 对齐既有 SOTA ）。跑完一次后再跑 /lorejump-harness ，server 会带「自上次以来 N 条新实践、K 条与你相关」的 diff 文本——这是我真正想做的事：演变追踪 + 集体经验，不靠"top X%"这种统计学套路。承诺：skill 跑出来你觉得没对上你的姿势 / 没给到有用的东西 —— 直接来群里 @ 我，我个人帮你看。范围限 AI 工作流（ Claude Code / Cursor / Codex / MCP / skill / subagent / hooks ），我都跑过。我也不会的，我帮你在群里找到会的人。还没想清楚的 3 个问题 SOTA 怎么定义：现在 1 周扫一次 Claude / Anthropic / Cursor / Codex 官方更新 + 部分活跃 dev 实践，server 直读 markdown 而非 BI schema 。但热点变化更快——要不要做"用户自报实践"反向喂？喂了怎么验真？ W0-W4 阶段识别：skill 现在用扫描信号反推用户 workspace 形态（ W0 裸项目 → W4 完整 harness 五层齐全），按当前档推下一步。独立开发 / 团队 lead / 内容创作者关心的事不一样——同一档下要不要分流推荐？跑完一次之后凭什么再来：我现在只敢做 H1 diff digest （附在 nudge 文本里，不做独立邮件 / streak / wrapped ）。但这够不够拉人回来？还是说就该接受"一次性诊断 + 偶尔回看"，不强求留存？这 3 条都想拉群里聊。群的规则 30 人左右，群里就是我（ GIL ）—— 我能管多少管多少，挤不下再说，不写 waitlist 我每条 @ 都会接，但不承诺时效（一个人，老实说） repo 现在没公开（一个人搞，文档比代码乱），关键决策我直接群里贴进来后第一周认真用一次（ Web 试 or skill 深扫都行）+ 反馈 3 条具体的，就算共创怎么进群：楼下回复。我看到就拉群。不指望刷屏。同样在追 SOTA 的兄弟来一个我珍惜一个，每条回复都会接。

[分享创造] 做了一个 AI 工作流 SOTA 诊断 skill，希望能直接基于工作空间给出最优改进方案

v2ex · 2026-05-13 13:40:41+08:00 · tech

先说真话—— 发这帖主要是想找几个 fellow ，一起追 Claude Code / Cursor / MCP / agent 这一摊东西的当前 SOTA 。我自己用 Claude Code 半年，从 hooks / skills / MCP / subagent 一路跟着出新，但每周还是会怀疑两次"我这套 harness 是不是已经落后了"——你们应该也有过这种感觉。 X 和即刻上人人都在晒 setup ，没人讲「你当前 workspace 在哪一档 / 跟 SOTA 差哪几条 / 下一步先装哪个能消化的」。所以我做了一个工具 lorejump.com ，但更想做的是建一个小群，30 人左右，互相戳一下姿势。工具长什么样两种用法：轻量看一眼：直接在 lorejump.com 首页输入框聊两句，它跑一个自适应问卷（ A 问卷 → B 出分 → C 深聊）给你一个 7 维诊断。看完想深扫再装 skill 。深扫：在你自己 Claude Code 里装 skill + 配 MCP ， /lorejump-optimize 一下，它扫你的 CLAUDE.md / .claude/ 配置 / 仓库结构 / spec 体系，用你自己的 agent 对照 SOTA 知识库打分 —— 输出 7 维分数 + 落后维度 + 1-3 条"当下能消化、可验证"的下一步（不强推完整 harness 模板让你 copy ）。评分逻辑在 agent 侧，知识库在 MCP 侧（只有 2 个 tool： get_sota_pack 拉 SOTA 画像 + submit_report 回执）。你的代码 / prompt 不离开你的机器。 7 个维度：D1 Spec 驱动 / D2 上下文管理 / D3 版本控制 / D4 测试质量 / D5 多 Agent 利用 / D6 文档体系 / D7 工作流自动化（ D1 + D5 是我赌的"还没被占据的差异化维度"，D3/4/6/7 对齐既有 SOTA ）。跑完一次后再跑 /lorejump-harness ，server 会带「自上次以来 N 条新实践、K 条与你相关」的 diff 文本——这是我真正想做的事：演变追踪 + 集体经验，不靠"top X%"这种统计学套路。承诺：skill 跑出来你觉得没对上你的姿势 / 没给到有用的东西 —— 直接来群里 @ 我，我个人帮你看。范围限 AI 工作流（ Claude Code / Cursor / Codex / MCP / skill / subagent / hooks ），我都跑过。我也不会的，我帮你在群里找到会的人。还没想清楚的 3 个问题 SOTA 怎么定义：现在 1 周扫一次 Claude / Anthropic / Cursor / Codex 官方更新 + 部分活跃 dev 实践，server 直读 markdown 而非 BI schema 。但热点变化更快——要不要做"用户自报实践"反向喂？喂了怎么验真？ W0-W4 阶段识别：skill 现在用扫描信号反推用户 workspace 形态（ W0 裸项目 → W4 完整 harness 五层齐全），按当前档推下一步。独立开发 / 团队 lead / 内容创作者关心的事不一样——同一档下要不要分流推荐？跑完一次之后凭什么再来：我现在只敢做 H1 diff digest （附在 nudge 文本里，不做独立邮件 / streak / wrapped ）。但这够不够拉人回来？还是说就该接受"一次性诊断 + 偶尔回看"，不强求留存？这 3 条都想拉群里聊。群的规则 30 人左右，群里就是我（ GIL ）—— 我能管多少管多少，挤不下再说，不写 waitlist 我每条 @ 都会接，但不承诺时效（一个人，老实说） repo 现在没公开（一个人搞，文档比代码乱），关键决策我直接群里贴进来后第一周认真用一次（ Web 试 or skill 深扫都行）+ 反馈 3 条具体的，就算共创怎么进群：楼下回复。我看到就拉群。不指望刷屏。同样在追 SOTA 的兄弟来一个我珍惜一个，每条回复都会接。

字节跳动发布 3D 生成大模型 Seed3D 2.0，在几何 / 纹理材质生成上取得 SOTA

www.ithome.com · 2026-04-23 12:48:48+08:00 · tech

IT之家 4 月 23 日消息，字节跳动今日正式发布更高精度的新一代 3D 生成大模型 —— Seed3D 2.0 ，目前 Seed3D 2.0 技术报告已公开，API 也已上线火山引擎。字节跳动表示，在与现有 3D 生成模型的对比评测中，Seed3D 2.0 在几何生成、纹理材质生成两项核心指标上均取得 SOTA 结果（指在某项具体任务或基准测试中表现最优的模型或方法）。模型对复杂结构的还原更加精细，PBR 材质的生成也具有更强的真实感和稳定性。 ▲ 几何生成维度的定性对比字节跳动招募了 60 位具有 3D 建模经验的人类打分员，对 Seed3D 2.0 和六个主流模型的生成质量进行两两盲评对比。 ▲ 评估分为纯几何结构生成对比和带有纹理贴图的 3D 生成两部分 Seed3D 2.0 在几何形状生成的对比测试中展现出显著优势，相比所有其他 3D 生成模型呈现更高的偏好率（人类打分员认为其生成质量更优的比例），验证了架构创新带来的几何质量提升。在纹理 3D 内容生成的人类打分中，Seed3D 2.0 同样领先其他基线方法，面对目前行业内主流模型，Seed3D 2.0 的偏好率达到 69% 以上。 IT之家附技术报告概述如下： Seed3D 2.0 引入 Coarse-to-Fine 两阶段生成策略，把“整体结构”和“几何细节”解耦，分开优化，从而在锐利边缘、薄壁结构和复杂拓扑等几何生成难点上取得突破。 ▲ Seed3D 2.0 几何生成的完整流程同时，Seed3D 2.0 采用统一的 PBR 生成模型联合建模完整 PBR 贴图，使用 MoE 架构提升高分辨率材质细节与边界精度，并且引入 VLM 先验，增强未知光照下的材质分解稳定性与准确性。 ▲ Seed3D 2.0 的纹理生成流程在几何与纹理之外，Seed3D 2.0 能完成部件级分割与补全、铰接资产生成以及基于图像、视频或文本的场景组合生成，让生成式 3D 模型可应用于实际部署。 ▲ Seed3D 2.0 的仿真场景生成流程

Gemini 3.1 Pro模型性能

linux.do · 2026-04-22 22:23:28+08:00 · tech

从 AI Leaderboard可以看出 Gemini 3.1 Pro 其实对比指标已经sota，为啥大家用的却不是很多呀？很早我就有这个疑惑，他的二道贩子价格其实很便宜，那是因为接口转换不方便？gemini CLI的做得不够好？还是大家已经用的很多，只是我没有接触到？第一次发帖，期待佬友的解答！感谢大家交流，我继续补加2个问题：如果使用 gemini 3.1 pro大模型 + claude code，是否可以缓解模型风格问题呀？（我个人现在很喜欢用gpt5.4+claude code，我觉得比直接codex要好，大家是怎么样？因为我这边直接用codex写的代码又臭又长，很多不必要的循环判断语句去保证代码的运行，最后我都看不懂了）其中上下文限制是大模型的问题，还是他们家的CLI问题？（我个人很不喜欢用他家的CLI，openai to claude接口很多，确实我也很少见gemini 2 claude接口）。 15 个帖子 - 13 位参与者阅读完整话题

百灵Ling-2.6-flash正式发布：104B参数实现SOTA级Agent 仅需1/10 Token消耗

plink.anyfeeder.com · 2026-04-22 15:35:11+08:00 · tech

今日，蚂蚁百灵正式推出 Ling-2.6-flash —— 一款总参数量 104B、激活参数 7.4B 的 Instruct 模型。该模型主打“Token 效率（Token Efficiency）”，在保持竞争力智能水平的同时，更快、更省以及更适合大规模真实应用。据权威三方评测Artificial Analysis 数据，Ling-2.6-flash 展现了突出的 Token Efficiency 优势，以 15M output tokens 实现了 26 分的 Intelligence Index，在保持较强智能水平的同时，将输出消耗控制在相对更低的位置。据了解，Ling-2.6-flash 沿用了 Ling 2.5 的混合线性架构设计，这种高度稀疏化的 MoE 架构在硬件表现上优势明显。在 4 卡 H20 条件下推理速度最快可达到 340 tokens/s，Prefill 吞吐达到 Nemotron-3-Super 的 2.2 倍。在 Output Speed 测评中，Ling-2.6-flash以 215 tokens/s 的稳定输出速度位列同参数级别模型的第一梯队。从 Token 消耗来看，Ling-2.6-flash 的智效比显著提升。在 Artificial Analysis 完整测评中，Ling-2.6-flash 总消耗为 15M tokens，而 Nemotron-3-Super 等模型达到或超过 110M tokens。这意味着，Ling-2.6-flash 仅用约 1/10 的 token 消耗完成了同类评测任务。 Ling-2.6-flash 面向 Agent 场景进行了定向增强，在控制 Token 消耗的前提下，依然保持了极强的任务执行力，模型在 BFCL-V4、TAU2-bench、SWE-bench Verified、Claw-Eval、PinchBench 等Agent 相关基准上达到同尺寸 SOTA 水平。与此同时，Ling-2.6-flash 在通用知识、数学推理、指令遵循及长文本解析等维度保持优秀水准。 API 定价方面，Ling-2.6-flash 输入每百万tokens定价 0.1 美元，输出 0.3 美元。目前，Ling-2.6-flash 的 API 已正式向用户开放，并提供为期一周的限时免费试用。用户可以通过OpenRouter 、百灵大模型 tbox 获取对应服务。据了解，该模型后续将通过蚂蚁数科发布商业版本LingDT，服务全球开发者及中小企业。查看评论

Opus 4.7 直接把 agentic CAD 玩成 SOTA 了！

linux.do · 2026-04-19 00:22:36+08:00 · tech

3 个帖子 - 2 位参与者阅读完整话题

火山引擎：视频生成领域全球 SOTA 模型 Seedance 2.0 全面开放 API 服务

www.ithome.com · 2026-04-14 14:35:27+08:00 · tech

IT之家 4 月 14 日消息，今日，火山引擎宣布正式上线 Seedance 2.0 系列 API 服务，企业和个人用户现在可以调用其视频生成能力，重塑工作流、探索全新的产品形态和应用场景。官方称，作为视频生成领域的全球 SOTA 模型，Seedance 2.0 支持文字、图片、音频、视频四种模态输入，集成了目前业界最全面的多模态内容参考和编辑能力；同时，它在复杂交互和运动场景下的可用率更高，物理准确度、逼真度、可控性显著增强，更加贴合工业级创作场景的需求。 AI 视频创作的规模化应用，离不开完善的合规与安全机制。为此，火山引擎为 Seedance 2.0 建立了肖像与版权安全标准，覆盖视频生成涉及的各种模态和创作前后的全部流程。与此同时，火山引擎围绕安全创作，为企业和个人用户提供一系列配套能力。例如：用户可通过火山方舟控制台便捷地完成人脸验证与肖像授权，授权后即可将该形象用于创作，兼顾效率与合规；火山方舟预置超过 1 万个高质量虚拟人像，涵盖不同年龄、职业等虚拟人物特征，用户可直接用于视频创作，进一步丰富创作选择。 IT之家注意到，在海外市场，BytePlus 已同步上线 Seedance 2.0 系列模型 API 服务。

/tag/SOTA