WWW.YOUINFO.SITE
标签聚合 SOTA

/tag/SOTA

LinuxDo 最新话题 · 2026-05-29 16:16:30+08:00 · tech

本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容: 我的帖子已经打上 开源推广 标签: 是 我的开源项目完整开源,无未开源部分: 是 我的开源项目已链接认可 LINUX DO 社区: 是 我帖子内的项目介绍,AI生成、润色内容部分已截图发出: 是 以上选择我承诺是永久有效的,接受社区和佬友监督: 是 以下为项目介绍正文内容,AI生成、润色内容已使用截图方式发出 嗯,大概两个月前,我开启了这个项目 github.com GitHub - kirenath/vibebench: AI Vibe Coding横评展示平台 — Same challenge, different... AI Vibe Coding横评展示平台 — Same challenge, different models, side-by-side comparison. No scores, just vibes ✨ 简单来说,就是让不同渠道的不同模型,做相同的赛题,然后展示出来 目前的成果: vibebench.app VibeBench — AI Vibe Coding 横向展示平台 同一道前端题,不同 AI 各展风格。浏览、对比、分享不同模型的前端作品。 For Whom? 市面上的benchmark,其实更多的是面向AI的研究者,面向AI的厂商,面向媒体KOL,面向股价,而非消费者 所以vibebench的manifesto是: 真实渠道,测试AI在不同渠道的表现 消费者不止调用API,消费者用手机APP,用AI IDE,用AI CLI,用Web Chat 消费者的渠道不止正价官方API,还有集合渠道和逆向中转 完全透明,没有打分,只有展示与对比,唯一的评判标准是消费者的看法 所有题目的提示词公开,任何人都可以尝试复现。 所有的作品公开,没有黑盒评分。 一次定生死(One Shot测试) 没有pass@10,没有Best of N 消费者视角 把评判权交还给消费者,并列展示同一道题目的所有作品,提供匿名横评功能和直接对比功能 WHY HTML? HTML是AI能力的金丝雀测试(canary test),AI的训练数据中HTML的内容不计其数,假设某个AI,HTML写的很好,那么想要直接推断出AI的全方位能力很强,那么并不科学,就像矿坑中的金丝雀,假设金丝雀存活,并不直接代表矿坑安全,但是假设某个AI,HTML写的很差,那么就像矿坑中的金丝雀直接死亡,说明矿坑非常危险,那么就有必要质疑AI的代码能力。 或许有人会觉得,写HTML不好,不代表代码能力很差,那么问题来了,AI被厂商训练并被宣传成“通才”,假设写HTML的水平都很差,那么有必要质疑通才的含金量 还有HTML本身的优势: 零门槛验证,不需要编译,只要打开浏览器,就能观察结果(有些作品引用了外部CDN,此时需要联网); 考察综合能力,HTML中同时检验了css/js/算法等内容; 难度可调整,从简单的AI自我介绍的静态页面,到3D渲染的页面,有足够低的起点和足够高的天花板。 开源一共分为两个部分,首先是框架本身: 其次是赛题,同样基于AGPL-3.0开源,使用、转载、分享请署名原作者。 那么究竟有什么赛题? 工具类:base64转码、简单的密钥生成、时钟工具箱、cron翻译器、RGB渐变调色板…… 视觉类:滚动叙事、无尽DOM套娃、字体博物馆、苹果风首页、人生选择地图…… 游戏类:21点、24点、打地鼠、吃豆人、俄罗斯方块、打砖块、2048、贪吃蛇…… 算法类:迷宫生成与求解、模拟万花尺、模拟高尔顿板、排序算法可视化…… 复刻类:Amazoom、Readit、Spotifly、Epoch 游戏商城…… 赛题数量? 目前已经上传并公开的有120道大赛题,每个赛题分为独立的phase,共260+phase,phase包括简单提示词、复杂提示词、增加design system、PRD驱动等,除非特别标注,否则不同的phase之间互相独立,无上下文关联 缺陷? One Shot,模型输出具有不稳定性; HTML,对于其他编程语言的代表性有限; 多种渠道,不同模型的表现不同; 作者本人能力有限,赛题本身可能就有缺陷 致谢 感谢 @ocean-zhc 佬友授权,一开始的项目来源于 用mimo v2 pro free 搞一个好玩的东西 后来慢慢扩展成vibebench 感谢 @yeahhe 佬友授权,有几道赛题来自 https://linux.do/t/topic/286836 的前端生成题库,例如转盘题、天气卡片 感谢 @kingd 佬友帮助,帮忙做了Opus 4.8的一部分赛题 感谢L站,我的非常多渠道都是通过L站得知,L站极大地减少了AI时代的信息差 1 个帖子 - 1 位参与者 阅读完整话题

IT之家 · 2026-05-26 11:31:13+08:00 · tech

IT之家 5 月 26 日消息,小米技术官方宣布,小米汽车今日发布 Xiaomi Auto World Model 全新框架,为业界辅助驾驶世界模型提供了新的框架路径,推动行业从“场景感知”向“认知推演、场景进化”的高阶形态跃迁。 据介绍,这是小米首次将三维重建与视频生成深度耦合的一体化架构,以「重建锚定几何、生成填补想象」的新范式,打破行业长期采用的重建、生成独立拆分路线。 在 Waymo、nuScenes 等主流基准测试中全面取得 SOTA ,并已在小米汽车合成数据、仿真测试、智能座舱三大核心场景完成业务落地。 ▲ Xiaomi Auto World Model 效果展示 目前,世界模型有两条主要技术路线 —— 重建(WorldRec)与生成(WorldGen),各有明确的优势与短板: 重建从多视角观测恢复几何精确的 3D 场景,优势是高保真、强一致性,但只能还原已见内容,缺乏想象能力; 生成通过扩散模型直接预测未来画面,能 " 想象 " 未观测视角和未发生场景,但缺乏显式 3D 结构,且长时序下容易漂移失真。 Xiaomi Auto World Model 则是提出一个全新的整合框架, 将重建模块与生成模块深度耦合 ,让两者在结构上互相约束。重建提供 3D 几何作为结构化锚点,约束生成过程的稳定性;生成则把预测能力延伸到观测之外,弥补重建的边界。两者形成闭环、互相增益,从三个关键维度实现了“1+1>2”的协同增益: 高稳定性: WorldRec 的确定性几何约束,有效抑制长时序自回归中的误差累积与内容漂移。 高一致性: 4D 场景表征作为跨帧共享记忆,确保不同时刻、不同视角下场景内容全局一致。 高真实性: WorldGen 以 WorldRec 渲染的 RGB 图像为几何骨架,使合成内容既符合物理布局,又贴近真实传感器观测,显著缩小了“仿真-现实”的领域鸿沟。 ▲ WorldGen 的极端场景效果 Xiaomi Auto World Model 已经在小米汽车三大实际场景中落地: 合成数据生成: 已交付超过 10 万 clips 高质量合成数据,直接用于感知模型训练,提升车辆在危险场景下的识别能力。 仿真测试: 构建闭环仿真环境,优化测试效率,完备测试规范,可在仿真中复现真实事故进行定向优化。 辅助驾驶学堂: 利用世界模型动态生成第一人称驾驶教学视频,用户面对复杂路况时,系统以生成式视频展示正确操作。目前已经上线小米全车型的辅助驾驶学堂 - 实景模拟场景。 IT之家附相关技术主页与论文链接如下: 技术主页 : https://JointWM.github.io/ 论文链接 : https://arxiv.org/pdf/2605.18137

v2ex · 2026-05-13 13:40:41+08:00 · tech

先说真话—— 发这帖主要是想找几个 fellow , 一起追 Claude Code / Cursor / MCP / agent 这一摊东西的当前 SOTA 。 我自己用 Claude Code 半年,从 hooks / skills / MCP / subagent 一路跟着出新,但每周还是会怀疑两次"我这套 harness 是不是已经落后了"——你们应该也有过这种感觉。 X 和即刻上人人都在晒 setup ,没人讲「 你当前 workspace 在哪一档 / 跟 SOTA 差哪几条 / 下一步先装哪个能消化的」。所以我做了一个工具 lorejump.com , 但更想做的是建一个小群 ,30 人左右,互相戳一下姿势。 工具长什么样 两种用法: 轻量看一眼 :直接在 lorejump.com 首页输入框聊两句,它跑一个自适应问卷( A 问卷 → B 出分 → C 深聊)给你一个 7 维诊断。看完想深扫再装 skill 。 深扫 :在 你自己 Claude Code 里 装 skill + 配 MCP , /lorejump-optimize 一下,它扫你的 CLAUDE.md / .claude/ 配置 / 仓库结构 / spec 体系, 用你自己的 agent 对照 SOTA 知识库打分 —— 输出 7 维分数 + 落后维度 + 1-3 条"当下能消化、可验证"的下一步 (不强推完整 harness 模板让你 copy )。 评分逻辑在 agent 侧,知识库在 MCP 侧(只有 2 个 tool: get_sota_pack 拉 SOTA 画像 + submit_report 回执)。 你的代码 / prompt 不离开你的机器 。 7 个维度:D1 Spec 驱动 / D2 上下文管理 / D3 版本控制 / D4 测试质量 / D5 多 Agent 利用 / D6 文档体系 / D7 工作流自动化( D1 + D5 是我赌的"还没被占据的差异化维度",D3/4/6/7 对齐既有 SOTA )。 跑完一次后再跑 /lorejump-harness ,server 会带「自上次以来 N 条新实践、K 条与你相关」的 diff 文本——这是我真正想做的事: 演变追踪 + 集体经验 ,不靠"top X%"这种统计学套路。 承诺 :skill 跑出来你觉得没对上你的姿势 / 没给到有用的东西 —— 直接来群里 @ 我,我个人帮你看 。范围限 AI 工作流( Claude Code / Cursor / Codex / MCP / skill / subagent / hooks ),我都跑过。我也不会的,我帮你在群里找到会的人。 还没想清楚的 3 个问题 SOTA 怎么定义 :现在 1 周扫一次 Claude / Anthropic / Cursor / Codex 官方更新 + 部分活跃 dev 实践,server 直读 markdown 而非 BI schema 。但热点变化更快——要不要做"用户自报实践"反向喂?喂了怎么验真? W0-W4 阶段识别 :skill 现在用扫描信号反推用户 workspace 形态( W0 裸项目 → W4 完整 harness 五层齐全),按当前档推下一步。独立开发 / 团队 lead / 内容创作者关心的事不一样——同一档下要不要分流推荐? 跑完一次之后凭什么再来 :我现在只敢做 H1 diff digest (附在 nudge 文本里,不做独立邮件 / streak / wrapped )。但这够不够拉人回来?还是说就该接受"一次性诊断 + 偶尔回看",不强求留存? 这 3 条都想拉群里聊。 群的规则 30 人左右,群里就是我( GIL )—— 我能管多少管多少,挤不下再说,不写 waitlist 我每条 @ 都会接,但 不承诺时效 (一个人,老实说) repo 现在没公开(一个人搞,文档比代码乱),关键决策我直接群里贴 进来后第一周认真用一次( Web 试 or skill 深扫都行)+ 反馈 3 条具体的,就算共创 怎么进群 :楼下回复。我看到就拉群。 不指望刷屏。 同样在追 SOTA 的兄弟来一个我珍惜一个 ,每条回复都会接。

v2ex · 2026-05-13 13:40:41+08:00 · tech

先说真话—— 发这帖主要是想找几个 fellow , 一起追 Claude Code / Cursor / MCP / agent 这一摊东西的当前 SOTA 。 我自己用 Claude Code 半年,从 hooks / skills / MCP / subagent 一路跟着出新,但每周还是会怀疑两次"我这套 harness 是不是已经落后了"——你们应该也有过这种感觉。 X 和即刻上人人都在晒 setup ,没人讲「 你当前 workspace 在哪一档 / 跟 SOTA 差哪几条 / 下一步先装哪个能消化的」。所以我做了一个工具 lorejump.com , 但更想做的是建一个小群 ,30 人左右,互相戳一下姿势。 工具长什么样 两种用法: 轻量看一眼 :直接在 lorejump.com 首页输入框聊两句,它跑一个自适应问卷( A 问卷 → B 出分 → C 深聊)给你一个 7 维诊断。看完想深扫再装 skill 。 深扫 :在 你自己 Claude Code 里 装 skill + 配 MCP , /lorejump-optimize 一下,它扫你的 CLAUDE.md / .claude/ 配置 / 仓库结构 / spec 体系, 用你自己的 agent 对照 SOTA 知识库打分 —— 输出 7 维分数 + 落后维度 + 1-3 条"当下能消化、可验证"的下一步 (不强推完整 harness 模板让你 copy )。 评分逻辑在 agent 侧,知识库在 MCP 侧(只有 2 个 tool: get_sota_pack 拉 SOTA 画像 + submit_report 回执)。 你的代码 / prompt 不离开你的机器 。 7 个维度:D1 Spec 驱动 / D2 上下文管理 / D3 版本控制 / D4 测试质量 / D5 多 Agent 利用 / D6 文档体系 / D7 工作流自动化( D1 + D5 是我赌的"还没被占据的差异化维度",D3/4/6/7 对齐既有 SOTA )。 跑完一次后再跑 /lorejump-harness ,server 会带「自上次以来 N 条新实践、K 条与你相关」的 diff 文本——这是我真正想做的事: 演变追踪 + 集体经验 ,不靠"top X%"这种统计学套路。 承诺 :skill 跑出来你觉得没对上你的姿势 / 没给到有用的东西 —— 直接来群里 @ 我,我个人帮你看 。范围限 AI 工作流( Claude Code / Cursor / Codex / MCP / skill / subagent / hooks ),我都跑过。我也不会的,我帮你在群里找到会的人。 还没想清楚的 3 个问题 SOTA 怎么定义 :现在 1 周扫一次 Claude / Anthropic / Cursor / Codex 官方更新 + 部分活跃 dev 实践,server 直读 markdown 而非 BI schema 。但热点变化更快——要不要做"用户自报实践"反向喂?喂了怎么验真? W0-W4 阶段识别 :skill 现在用扫描信号反推用户 workspace 形态( W0 裸项目 → W4 完整 harness 五层齐全),按当前档推下一步。独立开发 / 团队 lead / 内容创作者关心的事不一样——同一档下要不要分流推荐? 跑完一次之后凭什么再来 :我现在只敢做 H1 diff digest (附在 nudge 文本里,不做独立邮件 / streak / wrapped )。但这够不够拉人回来?还是说就该接受"一次性诊断 + 偶尔回看",不强求留存? 这 3 条都想拉群里聊。 群的规则 30 人左右,群里就是我( GIL )—— 我能管多少管多少,挤不下再说,不写 waitlist 我每条 @ 都会接,但 不承诺时效 (一个人,老实说) repo 现在没公开(一个人搞,文档比代码乱),关键决策我直接群里贴 进来后第一周认真用一次( Web 试 or skill 深扫都行)+ 反馈 3 条具体的,就算共创 怎么进群 :楼下回复。我看到就拉群。 不指望刷屏。 同样在追 SOTA 的兄弟来一个我珍惜一个 ,每条回复都会接。

www.ithome.com · 2026-04-23 12:48:48+08:00 · tech

IT之家 4 月 23 日消息,字节跳动今日正式发布更高精度的新一代 3D 生成大模型 —— Seed3D 2.0 ,目前 Seed3D 2.0 技术报告 已公开,API 也已上线火山引擎。 字节跳动表示,在与现有 3D 生成模型的对比评测中,Seed3D 2.0 在 几何生成、纹理材质生成 两项核心指标上均 取得 SOTA 结果 (指在某项具体任务或基准测试中表现最优的模型或方法)。模型对复杂结构的还原更加精细,PBR 材质的生成也具有更强的真实感和稳定性。 ▲ 几何生成维度的定性对比 字节跳动招募了 60 位具有 3D 建模经验的人类打分员,对 Seed3D 2.0 和六个主流模型的生成质量进行两两盲评对比。 ▲ 评估分为纯几何结构生成对比和带有纹理贴图的 3D 生成两部分 Seed3D 2.0 在几何形状生成的对比测试中展现出显著优势,相比所有其他 3D 生成模型呈现更高的偏好率(人类打分员认为其生成质量更优的比例),验证了架构创新带来的几何质量提升。 在纹理 3D 内容生成的人类打分中,Seed3D 2.0 同样领先其他基线方法,面对目前行业内主流模型,Seed3D 2.0 的偏好率达到 69% 以上。 IT之家附技术报告概述如下: Seed3D 2.0 引入 Coarse-to-Fine 两阶段生成策略,把“整体结构”和“几何细节”解耦,分开优化,从而在锐利边缘、薄壁结构和复杂拓扑等几何生成难点上取得突破。 ▲ Seed3D 2.0 几何生成的完整流程 同时,Seed3D 2.0 采用统一的 PBR 生成模型联合建模完整 PBR 贴图,使用 MoE 架构提升高分辨率材质细节与边界精度,并且引入 VLM 先验,增强未知光照下的材质分解稳定性与准确性。 ▲ Seed3D 2.0 的纹理生成流程 在几何与纹理之外,Seed3D 2.0 能完成部件级分割与补全、铰接资产生成以及基于图像、视频或文本的场景组合生成,让生成式 3D 模型可应用于实际部署。 ▲ Seed3D 2.0 的仿真场景生成流程

linux.do · 2026-04-22 22:23:28+08:00 · tech

从 AI Leaderboard可以看出 Gemini 3.1 Pro 其实对比指标已经sota,为啥大家用的却不是很多呀? 很早我就有这个疑惑,他的二道贩子价格其实很便宜,那是因为接口转换不方便?gemini CLI的做得不够好?还是大家已经用的很多,只是我没有接触到? 第一次发帖,期待佬友的解答! 感谢大家交流,我继续补加2个问题: 如果使用 gemini 3.1 pro大模型 + claude code,是否可以缓解模型风格问题呀?(我个人现在很喜欢用gpt5.4+claude code,我觉得比直接codex要好,大家是怎么样?因为我这边直接用codex写的代码又臭又长,很多不必要的循环判断语句去保证代码的运行,最后我都看不懂了) 其中上下文限制是大模型的问题,还是他们家的CLI问题?(我个人很不喜欢用他家的CLI,openai to claude接口很多,确实我也很少见gemini 2 claude接口)。 15 个帖子 - 13 位参与者 阅读完整话题

plink.anyfeeder.com · 2026-04-22 15:35:11+08:00 · tech

今日,蚂蚁百灵正式推出 Ling-2.6-flash —— 一款总参数量 104B、激活参数 7.4B 的 Instruct 模型。 该模型主打“Token 效率(Token Efficiency)”,在保持竞争力智能水平的同时,更快、更省以及更适合大规模真实应用。 据权威三方评测Artificial Analysis 数据,Ling-2.6-flash 展现了突出的 Token Efficiency 优势,以 15M output tokens 实现了 26 分 的 Intelligence Index,在保持较强智能水平的同时,将输出消耗控制在相对更低的位置。 据了解,Ling-2.6-flash 沿用了 Ling 2.5 的混合线性架构设计,这种高度稀疏化的 MoE 架构在硬件表现上优势明显。 在 4 卡 H20 条件下推理速度最快可达到 340 tokens/s,Prefill 吞吐达到 Nemotron-3-Super 的 2.2 倍。 在 Output Speed 测评中,Ling-2.6-flash以 215 tokens/s 的稳定输出速度位列同参数级别模型的第一梯队。 从 Token 消耗来看,Ling-2.6-flash 的智效比显著提升。 在 Artificial Analysis 完整测评中,Ling-2.6-flash 总消耗为 15M tokens,而 Nemotron-3-Super 等模型达到或超过 110M tokens。这意味着,Ling-2.6-flash 仅用约 1/10 的 token 消耗完成了同类评测任务。 Ling-2.6-flash 面向 Agent 场景进行了定向增强,在控制 Token 消耗的前提下,依然保持了极强的任务执行力,模型在 BFCL-V4、TAU2-bench、SWE-bench Verified、Claw-Eval、PinchBench 等Agent 相关基准上达到同尺寸 SOTA 水平。 与此同时,Ling-2.6-flash 在通用知识、数学推理、指令遵循及长文本解析等维度保持优秀水准。 API 定价方面,Ling-2.6-flash 输入每百万tokens定价 0.1 美元,输出 0.3 美元。 目前,Ling-2.6-flash 的 API 已正式向用户开放,并提供为期一周的限时免费试用。 用户可以通过OpenRouter 、百灵大模型 tbox 获取对应服务。据了解,该模型后续将通过蚂蚁数科发布商业版本LingDT,服务全球开发者及中小企业。 查看评论

www.ithome.com · 2026-04-14 14:35:27+08:00 · tech

IT之家 4 月 14 日消息,今日,火山引擎宣布正式上线 Seedance 2.0 系列 API 服务,企业和个人用户现在可以调用其视频生成能力,重塑工作流、探索全新的产品形态和应用场景。 官方称,作为视频生成领域的全球 SOTA 模型,Seedance 2.0 支持文字、图片、音频、视频四种模态输入,集成了目前业界最全面的多模态内容参考和编辑能力;同时,它在复杂交互和运动场景下的可用率更高,物理准确度、逼真度、可控性显著增强,更加贴合工业级创作场景的需求。 AI 视频创作的规模化应用,离不开完善的合规与安全机制。为此,火山引擎为 Seedance 2.0 建立了肖像与版权安全标准,覆盖视频生成涉及的各种模态和创作前后的全部流程。 与此同时,火山引擎围绕安全创作,为企业和个人用户提供一系列配套能力。例如:用户可通过火山方舟控制台便捷地完成人脸验证与肖像授权,授权后即可将该形象用于创作,兼顾效率与合规;火山方舟预置超过 1 万个高质量虚拟人像,涵盖不同年龄、职业等虚拟人物特征,用户可直接用于视频创作,进一步丰富创作选择。 IT之家注意到,在海外市场,BytePlus 已同步上线 Seedance 2.0 系列模型 API 服务。