VLM - WWW.YOUINFO.SITE - WWW.YOUINFO.SITE

LinuxDo 最新话题 · 2026-06-07 10:22:23+08:00 · tech

phoronix.com OpenCV 5.0 Released With Rewritten DNN Engine, Built-In LLM & VLM Support OpenCV 5.0 released today as a major update to this widely-used, open-source computer vision (CV) library. [!quote]+ OpenCV 5.0 今天发布，是这个广泛使用的开源计算机视觉 (CV) 库的重大更新。 OpenCV 5.0 采用了重写的深度神经网络（DNN）引擎，ONNX 覆盖率超过 80%，内置大型语言模型（LLM）和视觉语言模型（VLM）支持，以及新的硬件抽象层和更好的 3D 视觉工具包。 OpenCV 5.0 目前已为英特尔 IPP（内核经过 SSE/AVX 优化）、Arm KleidiCV、高通 FastCV 和 RISC-V Vector RVV 调整了路径。接下来，OpenCV 开发人员计划在其新的 DNN 引擎中开发原生 GPU 支持。 OpenCV 5.0 在与微软 ONNX Runtime 的较量中表现出色： OpenCV – 5 Jun 26 OpenCV 5 Is Here: The Biggest Leap in Years for Computer Vision OpenCV 5 is here! A massive modernization brings a graph-based DNN engine, over 80% ONNX coverage, hardware acceleration, LLM/VLM support, and a faster Python-first core. Learn why this isn't just an incremental update. Est. reading time: 19 minutes 3 个帖子 - 3 位参与者阅读完整话题

看到英伟达发布 LocateAnything 后，我用 5 天搞了个全自动 YOLO 标注工具

V2EX - 技术 · 2026-06-06 19:48:09+08:00 · tech

分享个自己最近开源的项目： VLM-AutoYOLO 。项目地址： https://github.com/Somnusochi/VLM-AutoYOLO 前几天看到英伟达（ NVIDIA ）正式公布了 LocateAnything 视觉大模型，它那种用一段文本就能直接定位物体的能力让我觉得很有意思。结合 Facebook 最近开源的 SAM2 抠图模型，我就想：完全可以用一句话代替手工画框，实现自动化的 YOLO 数据集标注。有了想法后，我在 AI 的辅助下大概花了 5 天时间，把这套全自动标注的流水线跑通了。它是怎么工作的？逻辑很简单，主要分三步：一句话找目标：输入你想找的东西（比如“有划痕的零件”），后端的 LocateAnything 模型会先找出它的大致位置。像素级抠图：把大概坐标扔给 SAM2 模型，由它负责精准吸附边缘，生成 Bounding Box 和 Mask 。一键导出：流水线跑完后，自动打包成标准的 YOLO 数据集格式，可以直接丢给 YOLOv8/v11 去训轻量级模型。技术实现细节为了保证业务数据不上云，这个项目设计成了 100% 纯本地运行。这就需要处理显存压力的问题。 **后端 (FastAPI / PyTorch)**：为了能在普通开发机上跑这套 30 亿参数的大模型，我在后端写了严格的显存清理机制。在我的 MacBook Pro (M4 Pro, 24GB) 上，开启 Apple MPS 加速后，处理一张高清图大概 4 秒。连续跑几百张图，系统内存占用稳在 12GB 左右，没有内存泄露，挂后台跑很稳。 **前端 (React / Vite / UnoCSS)**：我个人不喜欢传统标注软件那种密密麻麻的控制台界面，所以用 UnoCSS 写了个极简风格的操作界面，用起来稍微顺眼点。目前的坑因为只花了 5 天写的初版，还有些局限：速度上限：4 秒一张图，应对几百张没问题。如果是上万张的大型数据集，单机单卡还是偏慢，后续得考虑加多卡并行。环境依赖：项目融合了 PyTorch 、Ultralytics 和 SAM2 ，不同系统装依赖可能会踩坑。Docker 镜像后续会补上。最后如果你也厌倦了手动标数据，可以去 GitHub 拉下来跑跑看。遇到问题或者有关于 MPS 显存优化的建议，直接在项目里提 Issue 或 PR 。

看到英伟达发布 LocateAnything 后，我用 5 天搞了个全自动 YOLO 标注工具

V2EX - 技术 · 2026-06-06 06:36:58+08:00 · tech

分享个自己最近开源的项目： VLM-AutoYOLO 。项目地址： https://github.com/Somnusochi/VLM-AutoYOLO 前几天看到英伟达（ NVIDIA ）正式公布了 LocateAnything 视觉大模型，它那种用一段文本就能直接定位物体的能力让我觉得很有意思。结合 Facebook 最近开源的 SAM2 抠图模型，我就想：完全可以用一句话代替手工画框，实现自动化的 YOLO 数据集标注。有了想法后，我在 AI 的辅助下大概花了 5 天时间，把这套全自动标注的流水线跑通了。它是怎么工作的？逻辑很简单，主要分三步：一句话找目标：输入你想找的东西（比如“有划痕的零件”），后端的 LocateAnything 模型会先找出它的大致位置。像素级抠图：把大概坐标扔给 SAM2 模型，由它负责精准吸附边缘，生成 Bounding Box 和 Mask 。一键导出：流水线跑完后，自动打包成标准的 YOLO 数据集格式，可以直接丢给 YOLOv8/v11 去训轻量级模型。技术实现细节为了保证业务数据不上云，这个项目设计成了 100% 纯本地运行。这就需要处理显存压力的问题。 **后端 (FastAPI / PyTorch)**：为了能在普通开发机上跑这套 30 亿参数的大模型，我在后端写了严格的显存清理机制。在我的 MacBook Pro (M4 Pro, 24GB) 上，开启 Apple MPS 加速后，处理一张高清图大概 4 秒。连续跑几百张图，系统内存占用稳在 12GB 左右，没有内存泄露，挂后台跑很稳。 **前端 (React / Vite / UnoCSS)**：我个人不喜欢传统标注软件那种密密麻麻的控制台界面，所以用 UnoCSS 写了个极简风格的操作界面，用起来稍微顺眼点。目前的坑因为只花了 5 天写的初版，还有些局限：速度上限：4 秒一张图，应对几百张没问题。如果是上万张的大型数据集，单机单卡还是偏慢，后续得考虑加多卡并行。环境依赖：项目融合了 PyTorch 、Ultralytics 和 SAM2 ，不同系统装依赖可能会踩坑。Docker 镜像后续会补上。最后如果你也厌倦了手动标数据，可以去 GitHub 拉下来跑跑看。遇到问题或者有关于 MPS 显存优化的建议，直接在项目里提 Issue 或 PR 。

看到英伟达发布 LocateAnything 后，我用 5 天搞了个全自动 YOLO 标注工具

V2EX - 技术 · 2026-06-06 04:36:58+08:00 · tech

分享个自己最近开源的项目： VLM-AutoYOLO 。项目地址： https://github.com/Somnusochi/VLM-AutoYOLO 前几天看到英伟达（ NVIDIA ）正式公布了 LocateAnything 视觉大模型，它那种用一段文本就能直接定位物体的能力让我觉得很有意思。结合 Facebook 最近开源的 SAM2 抠图模型，我就想：完全可以用一句话代替手工画框，实现自动化的 YOLO 数据集标注。有了想法后，我在 AI 的辅助下大概花了 5 天时间，把这套全自动标注的流水线跑通了。它是怎么工作的？逻辑很简单，主要分三步：一句话找目标：输入你想找的东西（比如“有划痕的零件”），后端的 LocateAnything 模型会先找出它的大致位置。像素级抠图：把大概坐标扔给 SAM2 模型，由它负责精准吸附边缘，生成 Bounding Box 和 Mask 。一键导出：流水线跑完后，自动打包成标准的 YOLO 数据集格式，可以直接丢给 YOLOv8/v11 去训轻量级模型。技术实现细节为了保证业务数据不上云，这个项目设计成了 100% 纯本地运行。这就需要处理显存压力的问题。 **后端 (FastAPI / PyTorch)**：为了能在普通开发机上跑这套 30 亿参数的大模型，我在后端写了严格的显存清理机制。在我的 MacBook Pro (M4 Pro, 24GB) 上，开启 Apple MPS 加速后，处理一张高清图大概 4 秒。连续跑几百张图，系统内存占用稳在 12GB 左右，没有内存泄露，挂后台跑很稳。 **前端 (React / Vite / UnoCSS)**：我个人不喜欢传统标注软件那种密密麻麻的控制台界面，所以用 UnoCSS 写了个极简风格的操作界面，用起来稍微顺眼点。目前的坑因为只花了 5 天写的初版，还有些局限：速度上限：4 秒一张图，应对几百张没问题。如果是上万张的大型数据集，单机单卡还是偏慢，后续得考虑加多卡并行。环境依赖：项目融合了 PyTorch 、Ultralytics 和 SAM2 ，不同系统装依赖可能会踩坑。Docker 镜像后续会补上。最后如果你也厌倦了手动标数据，可以去 GitHub 拉下来跑跑看。遇到问题或者有关于 MPS 显存优化的建议，直接在项目里提 Issue 或 PR 。

看到英伟达发布 LocateAnything 后，我用 5 天搞了个全自动 YOLO 标注工具

V2EX - 技术 · 2026-06-06 04:36:58+08:00 · tech

分享个自己最近开源的项目： VLM-AutoYOLO 。项目地址： https://github.com/Somnusochi/VLM-AutoYOLO 前几天看到英伟达（ NVIDIA ）正式公布了 LocateAnything 视觉大模型，它那种用一段文本就能直接定位物体的能力让我觉得很有意思。结合 Facebook 最近开源的 SAM2 抠图模型，我就想：完全可以用一句话代替手工画框，实现自动化的 YOLO 数据集标注。有了想法后，我在 AI 的辅助下大概花了 5 天时间，把这套全自动标注的流水线跑通了。它是怎么工作的？逻辑很简单，主要分三步：一句话找目标：输入你想找的东西（比如“有划痕的零件”），后端的 LocateAnything 模型会先找出它的大致位置。像素级抠图：把大概坐标扔给 SAM2 模型，由它负责精准吸附边缘，生成 Bounding Box 和 Mask 。一键导出：流水线跑完后，自动打包成标准的 YOLO 数据集格式，可以直接丢给 YOLOv8/v11 去训轻量级模型。技术实现细节为了保证业务数据不上云，这个项目设计成了 100% 纯本地运行。这就需要处理显存压力的问题。 **后端 (FastAPI / PyTorch)**：为了能在普通开发机上跑这套 30 亿参数的大模型，我在后端写了严格的显存清理机制。在我的 MacBook Pro (M4 Pro, 24GB) 上，开启 Apple MPS 加速后，处理一张高清图大概 4 秒。连续跑几百张图，系统内存占用稳在 12GB 左右，没有内存泄露，挂后台跑很稳。 **前端 (React / Vite / UnoCSS)**：我个人不喜欢传统标注软件那种密密麻麻的控制台界面，所以用 UnoCSS 写了个极简风格的操作界面，用起来稍微顺眼点。目前的坑因为只花了 5 天写的初版，还有些局限：速度上限：4 秒一张图，应对几百张没问题。如果是上万张的大型数据集，单机单卡还是偏慢，后续得考虑加多卡并行。环境依赖：项目融合了 PyTorch 、Ultralytics 和 SAM2 ，不同系统装依赖可能会踩坑。Docker 镜像后续会补上。最后如果你也厌倦了手动标数据，可以去 GitHub 拉下来跑跑看。遇到问题或者有关于 MPS 显存优化的建议，直接在项目里提 Issue 或 PR 。

看到英伟达发布 LocateAnything 后，我用 5 天搞了个全自动 YOLO 标注工具

V2EX - 技术 · 2026-06-06 03:36:58+08:00 · tech

分享个自己最近开源的项目： VLM-AutoYOLO 。项目地址： https://github.com/Somnusochi/VLM-AutoYOLO 前几天看到英伟达（ NVIDIA ）正式公布了 LocateAnything 视觉大模型，它那种用一段文本就能直接定位物体的能力让我觉得很有意思。结合 Facebook 最近开源的 SAM2 抠图模型，我就想：完全可以用一句话代替手工画框，实现自动化的 YOLO 数据集标注。有了想法后，我在 AI 的辅助下大概花了 5 天时间，把这套全自动标注的流水线跑通了。它是怎么工作的？逻辑很简单，主要分三步：一句话找目标：输入你想找的东西（比如“有划痕的零件”），后端的 LocateAnything 模型会先找出它的大致位置。像素级抠图：把大概坐标扔给 SAM2 模型，由它负责精准吸附边缘，生成 Bounding Box 和 Mask 。一键导出：流水线跑完后，自动打包成标准的 YOLO 数据集格式，可以直接丢给 YOLOv8/v11 去训轻量级模型。技术实现细节为了保证业务数据不上云，这个项目设计成了 100% 纯本地运行。这就需要处理显存压力的问题。 **后端 (FastAPI / PyTorch)**：为了能在普通开发机上跑这套 30 亿参数的大模型，我在后端写了严格的显存清理机制。在我的 MacBook Pro (M4 Pro, 24GB) 上，开启 Apple MPS 加速后，处理一张高清图大概 4 秒。连续跑几百张图，系统内存占用稳在 12GB 左右，没有内存泄露，挂后台跑很稳。 **前端 (React / Vite / UnoCSS)**：我个人不喜欢传统标注软件那种密密麻麻的控制台界面，所以用 UnoCSS 写了个极简风格的操作界面，用起来稍微顺眼点。目前的坑因为只花了 5 天写的初版，还有些局限：速度上限：4 秒一张图，应对几百张没问题。如果是上万张的大型数据集，单机单卡还是偏慢，后续得考虑加多卡并行。环境依赖：项目融合了 PyTorch 、Ultralytics 和 SAM2 ，不同系统装依赖可能会踩坑。Docker 镜像后续会补上。最后如果你也厌倦了手动标数据，可以去 GitHub 拉下来跑跑看。遇到问题或者有关于 MPS 显存优化的建议，直接在项目里提 Issue 或 PR 。

看到英伟达发布 LocateAnything 后，我用 5 天搞了个全自动 YOLO 标注工具

V2EX - 技术 · 2026-06-06 02:36:58+08:00 · tech

分享个自己最近开源的项目： VLM-AutoYOLO 。项目地址： https://github.com/Somnusochi/VLM-AutoYOLO 前几天看到英伟达（ NVIDIA ）正式公布了 LocateAnything 视觉大模型，它那种用一段文本就能直接定位物体的能力让我觉得很有意思。结合 Facebook 最近开源的 SAM2 抠图模型，我就想：完全可以用一句话代替手工画框，实现自动化的 YOLO 数据集标注。有了想法后，我在 AI 的辅助下大概花了 5 天时间，把这套全自动标注的流水线跑通了。它是怎么工作的？逻辑很简单，主要分三步：一句话找目标：输入你想找的东西（比如“有划痕的零件”），后端的 LocateAnything 模型会先找出它的大致位置。像素级抠图：把大概坐标扔给 SAM2 模型，由它负责精准吸附边缘，生成 Bounding Box 和 Mask 。一键导出：流水线跑完后，自动打包成标准的 YOLO 数据集格式，可以直接丢给 YOLOv8/v11 去训轻量级模型。技术实现细节为了保证业务数据不上云，这个项目设计成了 100% 纯本地运行。这就需要处理显存压力的问题。 **后端 (FastAPI / PyTorch)**：为了能在普通开发机上跑这套 30 亿参数的大模型，我在后端写了严格的显存清理机制。在我的 MacBook Pro (M4 Pro, 24GB) 上，开启 Apple MPS 加速后，处理一张高清图大概 4 秒。连续跑几百张图，系统内存占用稳在 12GB 左右，没有内存泄露，挂后台跑很稳。 **前端 (React / Vite / UnoCSS)**：我个人不喜欢传统标注软件那种密密麻麻的控制台界面，所以用 UnoCSS 写了个极简风格的操作界面，用起来稍微顺眼点。目前的坑因为只花了 5 天写的初版，还有些局限：速度上限：4 秒一张图，应对几百张没问题。如果是上万张的大型数据集，单机单卡还是偏慢，后续得考虑加多卡并行。环境依赖：项目融合了 PyTorch 、Ultralytics 和 SAM2 ，不同系统装依赖可能会踩坑。Docker 镜像后续会补上。最后如果你也厌倦了手动标数据，可以去 GitHub 拉下来跑跑看。遇到问题或者有关于 MPS 显存优化的建议，直接在项目里提 Issue 或 PR 。

看到英伟达发布 LocateAnything 后，我用 5 天搞了个全自动 YOLO 标注工具

V2EX - 技术 · 2026-06-06 01:38:29+08:00 · tech

分享个自己最近开源的项目： VLM-AutoYOLO 。项目地址： https://github.com/Somnusochi/VLM-AutoYOLO 前几天看到英伟达（ NVIDIA ）正式公布了 LocateAnything 视觉大模型，它那种用一段文本就能直接定位物体的能力让我觉得很有意思。结合 Facebook 最近开源的 SAM2 抠图模型，我就想：完全可以用一句话代替手工画框，实现自动化的 YOLO 数据集标注。有了想法后，我在 AI 的辅助下大概花了 5 天时间，把这套全自动标注的流水线跑通了。它是怎么工作的？逻辑很简单，主要分三步：一句话找目标：输入你想找的东西（比如“有划痕的零件”），后端的 LocateAnything 模型会先找出它的大致位置。像素级抠图：把大概坐标扔给 SAM2 模型，由它负责精准吸附边缘，生成 Bounding Box 和 Mask 。一键导出：流水线跑完后，自动打包成标准的 YOLO 数据集格式，可以直接丢给 YOLOv8/v11 去训轻量级模型。技术实现细节为了保证业务数据不上云，这个项目设计成了 100% 纯本地运行。这就需要处理显存压力的问题。 **后端 (FastAPI / PyTorch)**：为了能在普通开发机上跑这套 30 亿参数的大模型，我在后端写了严格的显存清理机制。在我的 MacBook Pro (M4 Pro, 24GB) 上，开启 Apple MPS 加速后，处理一张高清图大概 4 秒。连续跑几百张图，系统内存占用稳在 12GB 左右，没有内存泄露，挂后台跑很稳。 **前端 (React / Vite / UnoCSS)**：我个人不喜欢传统标注软件那种密密麻麻的控制台界面，所以用 UnoCSS 写了个极简风格的操作界面，用起来稍微顺眼点。目前的坑因为只花了 5 天写的初版，还有些局限：速度上限：4 秒一张图，应对几百张没问题。如果是上万张的大型数据集，单机单卡还是偏慢，后续得考虑加多卡并行。环境依赖：项目融合了 PyTorch 、Ultralytics 和 SAM2 ，不同系统装依赖可能会踩坑。Docker 镜像后续会补上。最后如果你也厌倦了手动标数据，可以去 GitHub 拉下来跑跑看。遇到问题或者有关于 MPS 显存优化的建议，直接在项目里提 Issue 或 PR 。

请教佬们，PPT生成中的文档图片怎么处理

LinuxDo 最新话题 · 2026-05-27 10:37:43+08:00 · tech

PPT生成中的文档图片需要专门用VLM模型生成标签吗，但是感觉处理的会很慢，如果不生成标签的话怎么合理放置图片的位置到PPT中呢？有没有佬给解惑一下，求求了 1 个帖子 - 1 位参与者阅读完整话题

[分享创造] 移动端回归测试人手不够，我落地了一套 VLM 真机自动化方案，想听听大家意见

v2ex · 2026-05-20 16:40:36+08:00 · tech

最近在公司里落地了一套移动端 AI 自动化回归方案，想拿出来和大家交流一下，也听听有没有类似场景的同学。先说背景。我们这边移动端有 Android 、iOS ，现在还有鸿蒙。业务迭代比较快，每次发版前都要做一些主流程回归。比如：登录内容浏览内容发布视频播放核心页面跳转多端基础兼容验证问题是，测试资源并不是特别充足。不是没人测，而是没有一个专门的人长期维护复杂自动化。很多时候是测试同学过一遍主流程，开发自己再补一遍。时间紧的时候，大家其实都知道一些边角路径覆盖不到，但也只能先保核心链路。之前也看过传统自动化方案，比如 Appium 、xpath 、坐标、录制回放这些。实际落下来，问题基本差不多：页面一改，脚本就容易挂。 Android 、iOS 、鸿蒙三端表现不完全一样。弹窗、权限、加载中、toast 、偶现卡顿这些情况，都要额外处理。最关键的是，如果没有专门自动化测试同学长期维护，这套东西很容易变成：刚开始能跑，过一段时间没人敢动。所以我后来尝试了另一条路：能不能把 case 写成人话，然后让模型看真实手机截图，自己判断下一步怎么操作。比如一个 case 可能就是：打开 App ，登录账号，进入首页，确认能看到推荐列表。系统拿到这个 case 后，分配一台真机。执行过程中，每一步截图给 VLM ，让模型判断当前页面状态、下一步点哪里、输入什么、是否已经完成。这个方向我一开始也只是想验证一下。但后面做着做着，发现单纯做一个本地 demo 意义不大。因为公司里真正要用，光能跑起来还不够。所以后面我把它补成了一个偏平台化的东西，目前已经在公司内部落地使用。大概流程是：外部系统投递一批 case ↓ 平台根据端类型寻找空闲设备 ↓ 真实手机开始执行 ↓ 每一步记录截图、模型判断、操作结果 ↓ 执行结束后生成报告 ↓ case 结果和批次结果回传给业务系统现在它可以覆盖 Android 、iOS 、鸿蒙三端真机。不过我自己的感受是，这个东西真正有价值的地方，不是“AI 能点手机”。单纯让模型看图点一下，其实很容易做成 demo 。真正落地的时候，麻烦的反而是这些：页面是否已经稳定下来模型是不是一直卡在同一个页面弹窗、权限、广告、toast 这种临时 UI 怎么处理失败以后怎么复盘多台设备怎么调度结果怎么让内部系统消费怎么让开发和测试愿意相信这个报告所以我后面做的时候，重点其实放在了执行链路上，而不只是模型本身。当然，现在这个方案也不是没有问题。稳定性肯定还不如写死脚本。同一个 case 多跑几次，偶尔会出现模型判断不一致。起始状态也很重要。账号状态、权限状态、弹窗状态如果不干净，模型很容易被带偏。成本也要算。因为每一步都调 VLM ，跑多了肯定不是免费的。另外像验证码、人脸、安全键盘、强风控这些场景，我也不觉得它适合硬做。所以我现在对它的定位不是替代测试，也不是替代传统自动化。更像是一个兜底工具。比如：开发提测前，先跑一遍主流程发版前，跑几条核心冒烟晚上定时跑一批基础回归 Android 、iOS 、鸿蒙三端做主链路对比没有专门自动化测试岗位的团队，先把最痛的几个流程托管起来目前我们内部已经用它跑了一些真实场景，确实能减少一部分重复点点点的工作。但我也知道这个方向还不算成熟，所以想听听大家意见。我比较想请教几个问题：你们公司移动端回归一般是怎么做的？如果没有专门自动化测试岗位，自动化最后通常是谁维护？ VLM 看图操作真机这种方式，你们觉得最大的问题会是稳定性、成本，还是失败复盘？如果只是用来兜底主流程冒烟，而不是做完整测试，你们觉得有没有价值？这种方案要接进公司内部测试平台，你们最关心的是报告可信度、执行稳定性，还是环境隔离？我把目前整理出来的版本开源了，项目叫 ai-phone： https://github.com/dongxinsuperman/ai-phone.git 目前主力分支是 next/server-brain ， main 分支已经归档冻结。发出来主要不是想说这个方案已经多完善，而是因为它确实在公司里跑起来了，也踩到了一些传统自动化和 VLM 落地之间的问题。想听听大家怎么看这个方向，欢迎提建议，也欢迎拍砖。

[分享创造] 移动端回归测试人手不够，我落地了一套 VLM 真机自动化方案，想听听大家意见

v2ex · 2026-05-20 15:38:26+08:00 · tech

最近在公司里落地了一套移动端 AI 自动化回归方案，想拿出来和大家交流一下，也听听有没有类似场景的同学。先说背景。我们这边移动端有 Android 、iOS ，现在还有鸿蒙。业务迭代比较快，每次发版前都要做一些主流程回归。比如：登录内容浏览内容发布视频播放核心页面跳转多端基础兼容验证问题是，测试资源并不是特别充足。不是没人测，而是没有一个专门的人长期维护复杂自动化。很多时候是测试同学过一遍主流程，开发自己再补一遍。时间紧的时候，大家其实都知道一些边角路径覆盖不到，但也只能先保核心链路。之前也看过传统自动化方案，比如 Appium 、xpath 、坐标、录制回放这些。实际落下来，问题基本差不多：页面一改，脚本就容易挂。 Android 、iOS 、鸿蒙三端表现不完全一样。弹窗、权限、加载中、toast 、偶现卡顿这些情况，都要额外处理。最关键的是，如果没有专门自动化测试同学长期维护，这套东西很容易变成：刚开始能跑，过一段时间没人敢动。所以我后来尝试了另一条路：能不能把 case 写成人话，然后让模型看真实手机截图，自己判断下一步怎么操作。比如一个 case 可能就是：打开 App ，登录账号，进入首页，确认能看到推荐列表。系统拿到这个 case 后，分配一台真机。执行过程中，每一步截图给 VLM ，让模型判断当前页面状态、下一步点哪里、输入什么、是否已经完成。这个方向我一开始也只是想验证一下。但后面做着做着，发现单纯做一个本地 demo 意义不大。因为公司里真正要用，光能跑起来还不够。所以后面我把它补成了一个偏平台化的东西，目前已经在公司内部落地使用。大概流程是：外部系统投递一批 case ↓ 平台根据端类型寻找空闲设备 ↓ 真实手机开始执行 ↓ 每一步记录截图、模型判断、操作结果 ↓ 执行结束后生成报告 ↓ case 结果和批次结果回传给业务系统现在它可以覆盖 Android 、iOS 、鸿蒙三端真机。不过我自己的感受是，这个东西真正有价值的地方，不是“AI 能点手机”。单纯让模型看图点一下，其实很容易做成 demo 。真正落地的时候，麻烦的反而是这些：页面是否已经稳定下来模型是不是一直卡在同一个页面弹窗、权限、广告、toast 这种临时 UI 怎么处理失败以后怎么复盘多台设备怎么调度结果怎么让内部系统消费怎么让开发和测试愿意相信这个报告所以我后面做的时候，重点其实放在了执行链路上，而不只是模型本身。当然，现在这个方案也不是没有问题。稳定性肯定还不如写死脚本。同一个 case 多跑几次，偶尔会出现模型判断不一致。起始状态也很重要。账号状态、权限状态、弹窗状态如果不干净，模型很容易被带偏。成本也要算。因为每一步都调 VLM ，跑多了肯定不是免费的。另外像验证码、人脸、安全键盘、强风控这些场景，我也不觉得它适合硬做。所以我现在对它的定位不是替代测试，也不是替代传统自动化。更像是一个兜底工具。比如：开发提测前，先跑一遍主流程发版前，跑几条核心冒烟晚上定时跑一批基础回归 Android 、iOS 、鸿蒙三端做主链路对比没有专门自动化测试岗位的团队，先把最痛的几个流程托管起来目前我们内部已经用它跑了一些真实场景，确实能减少一部分重复点点点的工作。但我也知道这个方向还不算成熟，所以想听听大家意见。我比较想请教几个问题：你们公司移动端回归一般是怎么做的？如果没有专门自动化测试岗位，自动化最后通常是谁维护？ VLM 看图操作真机这种方式，你们觉得最大的问题会是稳定性、成本，还是失败复盘？如果只是用来兜底主流程冒烟，而不是做完整测试，你们觉得有没有价值？这种方案要接进公司内部测试平台，你们最关心的是报告可信度、执行稳定性，还是环境隔离？我把目前整理出来的版本开源了，项目叫 ai-phone： https://github.com/dongxinsuperman/ai-phone.git 目前主力分支是 next/server-brain ， main 分支已经归档冻结。发出来主要不是想说这个方案已经多完善，而是因为它确实在公司里跑起来了，也踩到了一些传统自动化和 VLM 落地之间的问题。想听听大家怎么看这个方向，欢迎提建议，也欢迎拍砖。

[分享创造] 移动端回归测试人手不够，我落地了一套 VLM 真机自动化方案，想听听大家意见

v2ex · 2026-05-20 15:38:26+08:00 · tech

最近在公司里落地了一套移动端 AI 自动化回归方案，想拿出来和大家交流一下，也听听有没有类似场景的同学。先说背景。我们这边移动端有 Android 、iOS ，现在还有鸿蒙。业务迭代比较快，每次发版前都要做一些主流程回归。比如：登录内容浏览内容发布视频播放核心页面跳转多端基础兼容验证问题是，测试资源并不是特别充足。不是没人测，而是没有一个专门的人长期维护复杂自动化。很多时候是测试同学过一遍主流程，开发自己再补一遍。时间紧的时候，大家其实都知道一些边角路径覆盖不到，但也只能先保核心链路。之前也看过传统自动化方案，比如 Appium 、xpath 、坐标、录制回放这些。实际落下来，问题基本差不多：页面一改，脚本就容易挂。 Android 、iOS 、鸿蒙三端表现不完全一样。弹窗、权限、加载中、toast 、偶现卡顿这些情况，都要额外处理。最关键的是，如果没有专门自动化测试同学长期维护，这套东西很容易变成：刚开始能跑，过一段时间没人敢动。所以我后来尝试了另一条路：能不能把 case 写成人话，然后让模型看真实手机截图，自己判断下一步怎么操作。比如一个 case 可能就是：打开 App ，登录账号，进入首页，确认能看到推荐列表。系统拿到这个 case 后，分配一台真机。执行过程中，每一步截图给 VLM ，让模型判断当前页面状态、下一步点哪里、输入什么、是否已经完成。这个方向我一开始也只是想验证一下。但后面做着做着，发现单纯做一个本地 demo 意义不大。因为公司里真正要用，光能跑起来还不够。所以后面我把它补成了一个偏平台化的东西，目前已经在公司内部落地使用。大概流程是：外部系统投递一批 case ↓ 平台根据端类型寻找空闲设备 ↓ 真实手机开始执行 ↓ 每一步记录截图、模型判断、操作结果 ↓ 执行结束后生成报告 ↓ case 结果和批次结果回传给业务系统现在它可以覆盖 Android 、iOS 、鸿蒙三端真机。不过我自己的感受是，这个东西真正有价值的地方，不是“AI 能点手机”。单纯让模型看图点一下，其实很容易做成 demo 。真正落地的时候，麻烦的反而是这些：页面是否已经稳定下来模型是不是一直卡在同一个页面弹窗、权限、广告、toast 这种临时 UI 怎么处理失败以后怎么复盘多台设备怎么调度结果怎么让内部系统消费怎么让开发和测试愿意相信这个报告所以我后面做的时候，重点其实放在了执行链路上，而不只是模型本身。当然，现在这个方案也不是没有问题。稳定性肯定还不如写死脚本。同一个 case 多跑几次，偶尔会出现模型判断不一致。起始状态也很重要。账号状态、权限状态、弹窗状态如果不干净，模型很容易被带偏。成本也要算。因为每一步都调 VLM ，跑多了肯定不是免费的。另外像验证码、人脸、安全键盘、强风控这些场景，我也不觉得它适合硬做。所以我现在对它的定位不是替代测试，也不是替代传统自动化。更像是一个兜底工具。比如：开发提测前，先跑一遍主流程发版前，跑几条核心冒烟晚上定时跑一批基础回归 Android 、iOS 、鸿蒙三端做主链路对比没有专门自动化测试岗位的团队，先把最痛的几个流程托管起来目前我们内部已经用它跑了一些真实场景，确实能减少一部分重复点点点的工作。但我也知道这个方向还不算成熟，所以想听听大家意见。我比较想请教几个问题：你们公司移动端回归一般是怎么做的？如果没有专门自动化测试岗位，自动化最后通常是谁维护？ VLM 看图操作真机这种方式，你们觉得最大的问题会是稳定性、成本，还是失败复盘？如果只是用来兜底主流程冒烟，而不是做完整测试，你们觉得有没有价值？这种方案要接进公司内部测试平台，你们最关心的是报告可信度、执行稳定性，还是环境隔离？我把目前整理出来的版本开源了，项目叫 ai-phone： https://github.com/dongxinsuperman/ai-phone.git 目前主力分支是 next/server-brain ， main 分支已经归档冻结。发出来主要不是想说这个方案已经多完善，而是因为它确实在公司里跑起来了，也踩到了一些传统自动化和 VLM 落地之间的问题。想听听大家怎么看这个方向，欢迎提建议，也欢迎拍砖。

[分享创造] 移动端回归测试人手不够，我落地了一套 VLM 真机自动化方案，想听听大家意见

v2ex · 2026-05-20 14:36:56+08:00 · tech

最近在公司里落地了一套移动端 AI 自动化回归方案，想拿出来和大家交流一下，也听听有没有类似场景的同学。先说背景。我们这边移动端有 Android 、iOS ，现在还有鸿蒙。业务迭代比较快，每次发版前都要做一些主流程回归。比如：登录内容浏览内容发布视频播放核心页面跳转多端基础兼容验证问题是，测试资源并不是特别充足。不是没人测，而是没有一个专门的人长期维护复杂自动化。很多时候是测试同学过一遍主流程，开发自己再补一遍。时间紧的时候，大家其实都知道一些边角路径覆盖不到，但也只能先保核心链路。之前也看过传统自动化方案，比如 Appium 、xpath 、坐标、录制回放这些。实际落下来，问题基本差不多：页面一改，脚本就容易挂。 Android 、iOS 、鸿蒙三端表现不完全一样。弹窗、权限、加载中、toast 、偶现卡顿这些情况，都要额外处理。最关键的是，如果没有专门自动化测试同学长期维护，这套东西很容易变成：刚开始能跑，过一段时间没人敢动。所以我后来尝试了另一条路：能不能把 case 写成人话，然后让模型看真实手机截图，自己判断下一步怎么操作。比如一个 case 可能就是：打开 App ，登录账号，进入首页，确认能看到推荐列表。系统拿到这个 case 后，分配一台真机。执行过程中，每一步截图给 VLM ，让模型判断当前页面状态、下一步点哪里、输入什么、是否已经完成。这个方向我一开始也只是想验证一下。但后面做着做着，发现单纯做一个本地 demo 意义不大。因为公司里真正要用，光能跑起来还不够。所以后面我把它补成了一个偏平台化的东西，目前已经在公司内部落地使用。大概流程是：外部系统投递一批 case ↓ 平台根据端类型寻找空闲设备 ↓ 真实手机开始执行 ↓ 每一步记录截图、模型判断、操作结果 ↓ 执行结束后生成报告 ↓ case 结果和批次结果回传给业务系统现在它可以覆盖 Android 、iOS 、鸿蒙三端真机。不过我自己的感受是，这个东西真正有价值的地方，不是“AI 能点手机”。单纯让模型看图点一下，其实很容易做成 demo 。真正落地的时候，麻烦的反而是这些：页面是否已经稳定下来模型是不是一直卡在同一个页面弹窗、权限、广告、toast 这种临时 UI 怎么处理失败以后怎么复盘多台设备怎么调度结果怎么让内部系统消费怎么让开发和测试愿意相信这个报告所以我后面做的时候，重点其实放在了执行链路上，而不只是模型本身。当然，现在这个方案也不是没有问题。稳定性肯定还不如写死脚本。同一个 case 多跑几次，偶尔会出现模型判断不一致。起始状态也很重要。账号状态、权限状态、弹窗状态如果不干净，模型很容易被带偏。成本也要算。因为每一步都调 VLM ，跑多了肯定不是免费的。另外像验证码、人脸、安全键盘、强风控这些场景，我也不觉得它适合硬做。所以我现在对它的定位不是替代测试，也不是替代传统自动化。更像是一个兜底工具。比如：开发提测前，先跑一遍主流程发版前，跑几条核心冒烟晚上定时跑一批基础回归 Android 、iOS 、鸿蒙三端做主链路对比没有专门自动化测试岗位的团队，先把最痛的几个流程托管起来目前我们内部已经用它跑了一些真实场景，确实能减少一部分重复点点点的工作。但我也知道这个方向还不算成熟，所以想听听大家意见。我比较想请教几个问题：你们公司移动端回归一般是怎么做的？如果没有专门自动化测试岗位，自动化最后通常是谁维护？ VLM 看图操作真机这种方式，你们觉得最大的问题会是稳定性、成本，还是失败复盘？如果只是用来兜底主流程冒烟，而不是做完整测试，你们觉得有没有价值？这种方案要接进公司内部测试平台，你们最关心的是报告可信度、执行稳定性，还是环境隔离？我把目前整理出来的版本开源了，项目叫 ai-phone： https://github.com/dongxinsuperman/ai-phone.git 目前主力分支是 next/server-brain ， main 分支已经归档冻结。发出来主要不是想说这个方案已经多完善，而是因为它确实在公司里跑起来了，也踩到了一些传统自动化和 VLM 落地之间的问题。想听听大家怎么看这个方向，欢迎提建议，也欢迎拍砖。

VLM判断物体朝向居然是一个有点困难的问题？

linux.do · 2026-04-30 20:24:33+08:00 · tech

有两个角度的图片有一个答对概率高一点这个答对概率比较高这个答对概率很低实测qwen的全家桶都全军覆没谷歌的开源模型，3flash也无法解决问题是：椅子是否朝向桌子 qwen和gemini的失败 gemini3.1pro也不行 chatgpt免费版也不行出乎意料的是豆包做对了 gemini3flash有概率答对 7 个帖子 - 7 位参与者阅读完整话题

/tag/VLM