WWW.YOUINFO.SITE
标签聚合 VLA

/tag/VLA

V2EX - 技术 · 2026-05-26 00:15:02+08:00 · tech

做独立开发、内容创作最怕一句话没说好,隔天被敏感群体误读甚至冲上负面。 毕竟我们自己看自己写的文案,往往有“知识的诅咒”和盲区。 于是整了个新活,开源了一个内容风控/评论区模拟器:Kevlar-4u 。 💡 它是干嘛的? 把准备发的产品介绍、公告或贴文丢给它。它内置了 9 种经过严格脱敏的“基本盘画像”(如:理性严密男性视角、独立女性视角、务实职场人、硬核消费者等)。 抢在真网民开喷之前,让 AI 先在沙盒里对你进行一顿“模拟毒打”,提前找出措辞隐患或逻辑漏洞。 🛠️ 技术实现 基于 Multi-Agent 架构 + 本地 MCP (Model Context Protocol) 服务。 原生支持 Claude Desktop 、Codex 、WorkBuddy 等客户端,即插即用,确保内容隐私安全。 项目刚开源,初衷是帮大家在 Launch 产品时少踩雷。欢迎体验、提 Issue 或送个 Star ⭐️! GitHub: [ https://github.com/9Churze/kevlar-4u ]

V2EX - 技术 · 2026-05-25 22:19:40+08:00 · tech

做独立开发、内容创作最怕一句话没说好,隔天被敏感群体误读甚至冲上负面。 毕竟我们自己看自己写的文案,往往有“知识的诅咒”和盲区。 于是整了个新活,开源了一个内容风控/评论区模拟器:Kevlar-4u 。 💡 它是干嘛的? 把准备发的产品介绍、公告或贴文丢给它。它内置了 9 种经过严格脱敏的“基本盘画像”(如:理性严密男性视角、独立女性视角、务实职场人、硬核消费者等)。 抢在真网民开喷之前,让 AI 先在沙盒里对你进行一顿“模拟毒打”,提前找出措辞隐患或逻辑漏洞。 🛠️ 技术实现 基于 Multi-Agent 架构 + 本地 MCP (Model Context Protocol) 服务。 原生支持 Claude Desktop 、Codex 、WorkBuddy 等客户端,即插即用,确保内容隐私安全。 项目刚开源,初衷是帮大家在 Launch 产品时少踩雷。欢迎体验、提 Issue 或送个 Star ⭐️! GitHub: [ https://github.com/9Churze/kevlar-4u ]

v2ex · 2026-05-25 17:06:32+08:00 · tech

很多内容创作者都有一种经历,你觉得自己已经表达得很清楚了。 但作品发布后才发现: · 用户理解错重点 · 评论区开始歪楼 · 一句话被断章取义 · 读者根本没看懂 这种“理解偏差”很多时候是因为, 作者脑海中的意思,和公众实际接收到的意思,并不是一回事。 开源项目:Kevlar-4u 。 它本质上是一个:“评论区模拟器”。 你把准备发布的内容丢给 Kevlar 不会只告诉你:“写得不错”。 而是会模拟不同人的真实反应: “所以你到底想表达什么?” “太抽象了” “重点不明确” “普通用户根本不会这样理解” “这句话很容易被误读” 很多反馈甚至会让人有点难受。但也往往非常真实。 项目基于 Multi-Agent + 本地 MCP 架构,纯本地,即插即用。 支持目前主流 AI 客户端,例如: Claude Codex WorkBuddy 等 项目地址: https://github.com/9Churze/kevlar-4u

v2ex · 2026-05-25 16:27:44+08:00 · tech

很多内容创作者都有一种经历,你觉得自己已经表达得很清楚了。 但作品发布后才发现: · 用户理解错重点 · 评论区开始歪楼 · 一句话被断章取义 · 读者根本没看懂 这种“理解偏差”很多时候是因为, 作者脑海中的意思,和公众实际接收到的意思,并不是一回事。 开源项目:Kevlar-4u 。 它本质上是一个:“评论区模拟器”。 你把准备发布的内容丢给 Kevlar 不会只告诉你:“写得不错”。 而是会模拟不同人的真实反应: “所以你到底想表达什么?” “太抽象了” “重点不明确” “普通用户根本不会这样理解” “这句话很容易被误读” 很多反馈甚至会让人有点难受。但也往往非常真实。 项目基于 Multi-Agent + 本地 MCP 架构,纯本地,即插即用。 支持目前主流 AI 客户端,例如: Claude Codex WorkBuddy 等 项目地址: https://github.com/9Churze/kevlar-4u

v2ex · 2026-05-25 15:55:45+08:00 · tech

很多内容创作者都有一种经历,你觉得自己已经表达得很清楚了。 但作品发布后才发现: · 用户理解错重点 · 评论区开始歪楼 · 一句话被断章取义 · 读者根本没看懂 这种“理解偏差”很多时候是因为, 作者脑海中的意思,和公众实际接收到的意思,并不是一回事。 开源项目:Kevlar-4u 。 它本质上是一个:“评论区模拟器”。 你把准备发布的内容丢给 Kevlar 不会只告诉你:“写得不错”。 而是会模拟不同人的真实反应: “所以你到底想表达什么?” “太抽象了” “重点不明确” “普通用户根本不会这样理解” “这句话很容易被误读” 很多反馈甚至会让人有点难受。但也往往非常真实。 项目基于 Multi-Agent + 本地 MCP 架构,纯本地,即插即用。 支持目前主流 AI 客户端,例如: Claude Codex WorkBuddy 等 项目地址: https://github.com/9Churze/kevlar-4u

IT之家 · 2026-05-14 08:57:28+08:00 · tech

IT之家 5 月 14 日消息,小米技术昨日正式发布并开源 Xiaomi OneVL 一步式潜空间语言视觉推理框架。 小米创办人、董事长兼 CEO 雷军昨晚发文谈及了小米自动驾驶模型 Xiaomi OneVL。他表示, Xiaomi OneVL 在业内率先通过潜空间推理,将 VLA、世界模型统一到同一套框架中 。 雷军还提到,在推理、规划等多个主流基准上, Xiaomi OneVL 全面刷新了潜在推理方法的性能上限 。模型与代码全面开源。雷军最后还向全球开发者、研究人员发出邀请,探索自动驾驶大模型更多可能性。 根据小米技术官方介绍,Xiaomi OneVL 在业内率先实现 VLA、世界模型、潜空间推理等多个技术路线的统一,在具备 XLA 模型强悍推理能力的基础上,大幅提升了推理的速度和精度,是行业内具备开创性的方案,在精度上超越显式 CoT、在速度上对齐“仅答案”预测的潜空间 CoT 方案。 小米已将 Xiaomi OneVL 的模型权重和训练、推理代码全面开源,IT之家汇总链接如下: 技术报告: https://arxiv.org/abs/2604.18486 项目主页: https://Xiaomi-Embodied-Intelligence.github.io/OneVL 开源代码: https://github.com/xiaomi-research/onevl

IT之家 · 2026-05-13 17:10:35+08:00 · tech

IT之家 5 月 13 日消息,小米技术今日正式发布并开源 Xiaomi OneVL 一步式潜空间语言视觉推理框架。 官方表示,该模型 在业内率先实现 VLA、世界模型、潜空间推理等多个技术路线的统一 ,在具备 XLA 模型强悍推理能力的基础上,大幅提升了推理的速度和精度,是行业内具备开创性的方案,在精度上超越显式 CoT、在速度上对齐“仅答案”预测的潜空间 CoT 方案。 过去,VLA 和世界模型是自动驾驶领域两条相对独立的技术路线:VLA 专注于理解场景并输出驾驶动作,世界模型专注于预测未来场景的演变。 Xiaomi OneVL 通过潜空间推理,首次将两者统一到同一套框架中。 在涵盖感知、推理与规划的多个主流基准上,Xiaomi OneVL 全面刷新了潜在推理方法的性能上限。 ▲ 在 ROADWork、Impromptu、Alpamayo-R1 三项基准上均达到 SOTA,在 NAVSIM 上取得优越性能 同时,Xiaomi OneVL 能为模型决策提供语言和视觉双维度的可解释性 —— 既能用文字说明“为什么这样开”,也能用预测画面展示“接下来会发生什么”。 ▲ 为模型决策提供语言以及视觉的可解释性 小米已将 Xiaomi OneVL 的模型权重和训练、推理代码全面开源 ,IT之家汇总链接如下: 技术报告: https://arxiv.org/abs/2604.18486 项目主页: https://Xiaomi-Embodied-Intelligence.github.io/OneVL 开源代码: https://github.com/xiaomi-research/onevl

www.ithome.com · 2026-04-27 14:56:27+08:00 · tech

IT之家 4 月 27 日消息,在 2026 北京国际车展期间,小鹏集团董事长兼 CEO 何小鹏在媒体交流中重申,今年 8 月将在中国市场实现 VLA(视觉-语言-动作模型)智驾系统对特斯拉 FSD 的全面超越。 何小鹏昨日在北京车展上表示,小鹏 VLA 与特斯拉 FSD 各有所长,但在特定场景下 VLA 已展现出明显优势。 他指出,在城市支路、乡村道路及结构复杂的城市穿行路段中,VLA 在通行效率和决策稳定性上表现更优;在跟车、应对加塞、长距离巡航等纵向运动控制场景中,VLA 的响应精度与平顺性也体现出了领先性。不过在横向路径规划和极端掉头等少数工况下,该系统仍有优化空间。 何小鹏表示,无论是在美国的特斯拉 FSD,还是中国的小鹏、蔚来、华为的辅助驾驶都非常棒。因为 FSD 满血版还没有进入中国,实际上它很难跟小鹏的 VLA 来进行比较。 “我认为互有所长,比如说在小路、有挑战的道路上,VLA 今天的效果会明显好过 FSD。”何小鹏同时指出,在纵向即前进方向上 VLA 也表现明显更优,但在横向能力和极端掉头场景中,今天的 VLA 仍在努力中。 何小鹏同时强调,FSD 本身也在快速迭代,用小鹏的动态来比较 FSD 的静态是不公平的。因此,小鹏给自己设定了一个明确的目标 —— 到 8 月份,在中国市场实现 VLA 综合能力全面超越 FSD。 所以我们给自己定了一个小小的目标,8 月份在中国的 VLA 超过在美国的 FSD。因为中国的道路环境更复杂,如果能够超过,我自己比较相信,技术整体的能力会是相对来说权威性的超过。 何小鹏认为,中国多样且高密度的道路环境,包括高频加塞、无标线路口、非机动车穿行及临时占道等典型场景,构成了对智驾系统最严苛也最具代表性的验证场域。“如果能在中国的复杂路况下实现超越,那么技术的整体实力将是相对权威性的领先。”他对此表示。 我相信小鹏的智能辅助驾驶在欧洲,在东南亚,比如说印尼、泰国、马来西亚都会非常好,因为越是窄的道路,越是人车多的道路小鹏的 VLA 表现力一定会更好,这是目前我们测试非常明显的结果。 实际上,早在 2025 年 12 月,何小鹏就宣布与自动驾驶团队的“赌约”。他发文称,如果在 2026 年 8 月 30 日前,小鹏的第二代 VLA 系统能在国内道路环境中达到特斯拉 FSD V14.2 版本在硅谷地区的整体效果,他将在硅谷筹建一家中国风味食堂;反之,小鹏自动驾驶中心负责人刘先明则承诺在金门大桥完成裸跑挑战。 彼时他曾表示,在硅谷试驾特斯拉最新 FSD V14.2 版本后,感受到 FSD 已进入“准 L4”阶段,虽尚有瑕疵,但较上一年度已有大幅提升。何小鹏当时也坦言,鉴于时间问题,小鹏 VLA 的第一个版本还无法完全实现 FSD V14.2 的全部能力,但团队正在全力以赴推进迭代。 相关阅读: 《 何小鹏打赌:若明年小鹏 VLA 国内表现无法赶上特斯拉 FSD V14.2 在硅谷的水平,员工承诺在金门大桥裸跑 》 《 何小鹏欢迎特斯拉 FSD 入华,小鹏图灵 AI 智驾将开启全球测试 》 《 小鹏汽车自动驾驶负责人体验特斯拉 FSD:中美路况差异显著,小鹏更适合中国复杂路况 》 《 何小鹏亲赴美国体验特斯拉 FSD 智驾功能,马斯克回应:中国车企最具竞争力 》

www.ithome.com · 2026-04-27 08:35:46+08:00 · tech

IT之家 4 月 27 日消息,小米于今年 2 月对外 发布并开源 VLA 模型 Xiaomi-Robotics-0 ,模型发布首月在 HuggingFace 全球 VLA 模型下载榜获第六名。 小米今日宣布,为了让其真正成为“开箱即用”的生产力利器,带来新的能力演示并正式发布 Xiaomi-Robotics-0 真机后训练(Post-training)全流程 。 基于预训练基座,小米称仅利用 20 小时的任务数据进行真机后训练,便让 Xiaomi-Robotics-0 掌握了“将耳机收纳进耳机盒”这一高难度动作,并能够连续丝滑地完成多个耳机的收纳。 官方表示,该任务涉及两大核心挑战: 耳机与槽位间公差极小,模型必须达到亚毫米级的空间感知精度,才能完成精准对位。 耳机与盒体表面粗糙度最低至 Ra0.03μm,极易在触碰过程发生位移,模型必须能快速修正动作偏差,避免装配失败。 IT之家附相关链接如下: 技术官网 : https://robotics.xiaomi.com 技术报告 : https://arxiv.org/abs/2602.12684 项目网站 : https://robotics.xiaomi.com/xiaomi-robotics-0.html 模型权重 : https://huggingface.co/XiaomiRobotics 开源代码 : https://github.com/XiaomiRobotics/Xiaomi-Robotics-0