YOLO - WWW.YOUINFO.SITE - WWW.YOUINFO.SITE

LinuxDo 最新话题 · 2026-06-11 18:27:39+08:00 · tech

各位干草铺的老友，请立刻停止YOLO模式，现在我不知道是我自己程序的问题还是奥特曼的问题，已经有佬友给我反馈了GPT回复还像被夺舍的情况，虽然我说过号商再薅我就放毒，但这次真不是我，请大家先放弃YOLO，稍后我会停一会儿公益站。YOLO，也就是bypass那个模式，我现在在外面，来不及写详细，大家能理解就好了，不要完全托管给GPT，能夺舍第一次就能有第二次，至少今天大家先放弃这种模式哈 21 个帖子 - 19 位参与者阅读完整话题

由于每天数雷龙幼苗费眼睛我正在开发一个数鱼项目

LinuxDo 最新话题 · 2026-06-10 14:11:54+08:00 · tech

暂时使用了 yolo-words 进行识别,但是水下环境和非标准鱼的识别的效果很差佬友们有什么推荐的模型吗 11 个帖子 - 7 位参与者阅读完整话题

看到英伟达发布 LocateAnything 后，我用 5 天搞了个全自动 YOLO 标注工具

V2EX - 技术 · 2026-06-06 19:48:09+08:00 · tech

分享个自己最近开源的项目： VLM-AutoYOLO 。项目地址： https://github.com/Somnusochi/VLM-AutoYOLO 前几天看到英伟达（ NVIDIA ）正式公布了 LocateAnything 视觉大模型，它那种用一段文本就能直接定位物体的能力让我觉得很有意思。结合 Facebook 最近开源的 SAM2 抠图模型，我就想：完全可以用一句话代替手工画框，实现自动化的 YOLO 数据集标注。有了想法后，我在 AI 的辅助下大概花了 5 天时间，把这套全自动标注的流水线跑通了。它是怎么工作的？逻辑很简单，主要分三步：一句话找目标：输入你想找的东西（比如“有划痕的零件”），后端的 LocateAnything 模型会先找出它的大致位置。像素级抠图：把大概坐标扔给 SAM2 模型，由它负责精准吸附边缘，生成 Bounding Box 和 Mask 。一键导出：流水线跑完后，自动打包成标准的 YOLO 数据集格式，可以直接丢给 YOLOv8/v11 去训轻量级模型。技术实现细节为了保证业务数据不上云，这个项目设计成了 100% 纯本地运行。这就需要处理显存压力的问题。 **后端 (FastAPI / PyTorch)**：为了能在普通开发机上跑这套 30 亿参数的大模型，我在后端写了严格的显存清理机制。在我的 MacBook Pro (M4 Pro, 24GB) 上，开启 Apple MPS 加速后，处理一张高清图大概 4 秒。连续跑几百张图，系统内存占用稳在 12GB 左右，没有内存泄露，挂后台跑很稳。 **前端 (React / Vite / UnoCSS)**：我个人不喜欢传统标注软件那种密密麻麻的控制台界面，所以用 UnoCSS 写了个极简风格的操作界面，用起来稍微顺眼点。目前的坑因为只花了 5 天写的初版，还有些局限：速度上限：4 秒一张图，应对几百张没问题。如果是上万张的大型数据集，单机单卡还是偏慢，后续得考虑加多卡并行。环境依赖：项目融合了 PyTorch 、Ultralytics 和 SAM2 ，不同系统装依赖可能会踩坑。Docker 镜像后续会补上。最后如果你也厌倦了手动标数据，可以去 GitHub 拉下来跑跑看。遇到问题或者有关于 MPS 显存优化的建议，直接在项目里提 Issue 或 PR 。

看到英伟达发布 LocateAnything 后，我用 5 天搞了个全自动 YOLO 标注工具

V2EX - 技术 · 2026-06-06 06:36:58+08:00 · tech

分享个自己最近开源的项目： VLM-AutoYOLO 。项目地址： https://github.com/Somnusochi/VLM-AutoYOLO 前几天看到英伟达（ NVIDIA ）正式公布了 LocateAnything 视觉大模型，它那种用一段文本就能直接定位物体的能力让我觉得很有意思。结合 Facebook 最近开源的 SAM2 抠图模型，我就想：完全可以用一句话代替手工画框，实现自动化的 YOLO 数据集标注。有了想法后，我在 AI 的辅助下大概花了 5 天时间，把这套全自动标注的流水线跑通了。它是怎么工作的？逻辑很简单，主要分三步：一句话找目标：输入你想找的东西（比如“有划痕的零件”），后端的 LocateAnything 模型会先找出它的大致位置。像素级抠图：把大概坐标扔给 SAM2 模型，由它负责精准吸附边缘，生成 Bounding Box 和 Mask 。一键导出：流水线跑完后，自动打包成标准的 YOLO 数据集格式，可以直接丢给 YOLOv8/v11 去训轻量级模型。技术实现细节为了保证业务数据不上云，这个项目设计成了 100% 纯本地运行。这就需要处理显存压力的问题。 **后端 (FastAPI / PyTorch)**：为了能在普通开发机上跑这套 30 亿参数的大模型，我在后端写了严格的显存清理机制。在我的 MacBook Pro (M4 Pro, 24GB) 上，开启 Apple MPS 加速后，处理一张高清图大概 4 秒。连续跑几百张图，系统内存占用稳在 12GB 左右，没有内存泄露，挂后台跑很稳。 **前端 (React / Vite / UnoCSS)**：我个人不喜欢传统标注软件那种密密麻麻的控制台界面，所以用 UnoCSS 写了个极简风格的操作界面，用起来稍微顺眼点。目前的坑因为只花了 5 天写的初版，还有些局限：速度上限：4 秒一张图，应对几百张没问题。如果是上万张的大型数据集，单机单卡还是偏慢，后续得考虑加多卡并行。环境依赖：项目融合了 PyTorch 、Ultralytics 和 SAM2 ，不同系统装依赖可能会踩坑。Docker 镜像后续会补上。最后如果你也厌倦了手动标数据，可以去 GitHub 拉下来跑跑看。遇到问题或者有关于 MPS 显存优化的建议，直接在项目里提 Issue 或 PR 。

看到英伟达发布 LocateAnything 后，我用 5 天搞了个全自动 YOLO 标注工具

V2EX - 技术 · 2026-06-06 04:36:58+08:00 · tech

分享个自己最近开源的项目： VLM-AutoYOLO 。项目地址： https://github.com/Somnusochi/VLM-AutoYOLO 前几天看到英伟达（ NVIDIA ）正式公布了 LocateAnything 视觉大模型，它那种用一段文本就能直接定位物体的能力让我觉得很有意思。结合 Facebook 最近开源的 SAM2 抠图模型，我就想：完全可以用一句话代替手工画框，实现自动化的 YOLO 数据集标注。有了想法后，我在 AI 的辅助下大概花了 5 天时间，把这套全自动标注的流水线跑通了。它是怎么工作的？逻辑很简单，主要分三步：一句话找目标：输入你想找的东西（比如“有划痕的零件”），后端的 LocateAnything 模型会先找出它的大致位置。像素级抠图：把大概坐标扔给 SAM2 模型，由它负责精准吸附边缘，生成 Bounding Box 和 Mask 。一键导出：流水线跑完后，自动打包成标准的 YOLO 数据集格式，可以直接丢给 YOLOv8/v11 去训轻量级模型。技术实现细节为了保证业务数据不上云，这个项目设计成了 100% 纯本地运行。这就需要处理显存压力的问题。 **后端 (FastAPI / PyTorch)**：为了能在普通开发机上跑这套 30 亿参数的大模型，我在后端写了严格的显存清理机制。在我的 MacBook Pro (M4 Pro, 24GB) 上，开启 Apple MPS 加速后，处理一张高清图大概 4 秒。连续跑几百张图，系统内存占用稳在 12GB 左右，没有内存泄露，挂后台跑很稳。 **前端 (React / Vite / UnoCSS)**：我个人不喜欢传统标注软件那种密密麻麻的控制台界面，所以用 UnoCSS 写了个极简风格的操作界面，用起来稍微顺眼点。目前的坑因为只花了 5 天写的初版，还有些局限：速度上限：4 秒一张图，应对几百张没问题。如果是上万张的大型数据集，单机单卡还是偏慢，后续得考虑加多卡并行。环境依赖：项目融合了 PyTorch 、Ultralytics 和 SAM2 ，不同系统装依赖可能会踩坑。Docker 镜像后续会补上。最后如果你也厌倦了手动标数据，可以去 GitHub 拉下来跑跑看。遇到问题或者有关于 MPS 显存优化的建议，直接在项目里提 Issue 或 PR 。

看到英伟达发布 LocateAnything 后，我用 5 天搞了个全自动 YOLO 标注工具

V2EX - 技术 · 2026-06-06 04:36:58+08:00 · tech

分享个自己最近开源的项目： VLM-AutoYOLO 。项目地址： https://github.com/Somnusochi/VLM-AutoYOLO 前几天看到英伟达（ NVIDIA ）正式公布了 LocateAnything 视觉大模型，它那种用一段文本就能直接定位物体的能力让我觉得很有意思。结合 Facebook 最近开源的 SAM2 抠图模型，我就想：完全可以用一句话代替手工画框，实现自动化的 YOLO 数据集标注。有了想法后，我在 AI 的辅助下大概花了 5 天时间，把这套全自动标注的流水线跑通了。它是怎么工作的？逻辑很简单，主要分三步：一句话找目标：输入你想找的东西（比如“有划痕的零件”），后端的 LocateAnything 模型会先找出它的大致位置。像素级抠图：把大概坐标扔给 SAM2 模型，由它负责精准吸附边缘，生成 Bounding Box 和 Mask 。一键导出：流水线跑完后，自动打包成标准的 YOLO 数据集格式，可以直接丢给 YOLOv8/v11 去训轻量级模型。技术实现细节为了保证业务数据不上云，这个项目设计成了 100% 纯本地运行。这就需要处理显存压力的问题。 **后端 (FastAPI / PyTorch)**：为了能在普通开发机上跑这套 30 亿参数的大模型，我在后端写了严格的显存清理机制。在我的 MacBook Pro (M4 Pro, 24GB) 上，开启 Apple MPS 加速后，处理一张高清图大概 4 秒。连续跑几百张图，系统内存占用稳在 12GB 左右，没有内存泄露，挂后台跑很稳。 **前端 (React / Vite / UnoCSS)**：我个人不喜欢传统标注软件那种密密麻麻的控制台界面，所以用 UnoCSS 写了个极简风格的操作界面，用起来稍微顺眼点。目前的坑因为只花了 5 天写的初版，还有些局限：速度上限：4 秒一张图，应对几百张没问题。如果是上万张的大型数据集，单机单卡还是偏慢，后续得考虑加多卡并行。环境依赖：项目融合了 PyTorch 、Ultralytics 和 SAM2 ，不同系统装依赖可能会踩坑。Docker 镜像后续会补上。最后如果你也厌倦了手动标数据，可以去 GitHub 拉下来跑跑看。遇到问题或者有关于 MPS 显存优化的建议，直接在项目里提 Issue 或 PR 。

看到英伟达发布 LocateAnything 后，我用 5 天搞了个全自动 YOLO 标注工具

V2EX - 技术 · 2026-06-06 03:36:58+08:00 · tech

分享个自己最近开源的项目： VLM-AutoYOLO 。项目地址： https://github.com/Somnusochi/VLM-AutoYOLO 前几天看到英伟达（ NVIDIA ）正式公布了 LocateAnything 视觉大模型，它那种用一段文本就能直接定位物体的能力让我觉得很有意思。结合 Facebook 最近开源的 SAM2 抠图模型，我就想：完全可以用一句话代替手工画框，实现自动化的 YOLO 数据集标注。有了想法后，我在 AI 的辅助下大概花了 5 天时间，把这套全自动标注的流水线跑通了。它是怎么工作的？逻辑很简单，主要分三步：一句话找目标：输入你想找的东西（比如“有划痕的零件”），后端的 LocateAnything 模型会先找出它的大致位置。像素级抠图：把大概坐标扔给 SAM2 模型，由它负责精准吸附边缘，生成 Bounding Box 和 Mask 。一键导出：流水线跑完后，自动打包成标准的 YOLO 数据集格式，可以直接丢给 YOLOv8/v11 去训轻量级模型。技术实现细节为了保证业务数据不上云，这个项目设计成了 100% 纯本地运行。这就需要处理显存压力的问题。 **后端 (FastAPI / PyTorch)**：为了能在普通开发机上跑这套 30 亿参数的大模型，我在后端写了严格的显存清理机制。在我的 MacBook Pro (M4 Pro, 24GB) 上，开启 Apple MPS 加速后，处理一张高清图大概 4 秒。连续跑几百张图，系统内存占用稳在 12GB 左右，没有内存泄露，挂后台跑很稳。 **前端 (React / Vite / UnoCSS)**：我个人不喜欢传统标注软件那种密密麻麻的控制台界面，所以用 UnoCSS 写了个极简风格的操作界面，用起来稍微顺眼点。目前的坑因为只花了 5 天写的初版，还有些局限：速度上限：4 秒一张图，应对几百张没问题。如果是上万张的大型数据集，单机单卡还是偏慢，后续得考虑加多卡并行。环境依赖：项目融合了 PyTorch 、Ultralytics 和 SAM2 ，不同系统装依赖可能会踩坑。Docker 镜像后续会补上。最后如果你也厌倦了手动标数据，可以去 GitHub 拉下来跑跑看。遇到问题或者有关于 MPS 显存优化的建议，直接在项目里提 Issue 或 PR 。

看到英伟达发布 LocateAnything 后，我用 5 天搞了个全自动 YOLO 标注工具

V2EX - 技术 · 2026-06-06 02:36:58+08:00 · tech

分享个自己最近开源的项目： VLM-AutoYOLO 。项目地址： https://github.com/Somnusochi/VLM-AutoYOLO 前几天看到英伟达（ NVIDIA ）正式公布了 LocateAnything 视觉大模型，它那种用一段文本就能直接定位物体的能力让我觉得很有意思。结合 Facebook 最近开源的 SAM2 抠图模型，我就想：完全可以用一句话代替手工画框，实现自动化的 YOLO 数据集标注。有了想法后，我在 AI 的辅助下大概花了 5 天时间，把这套全自动标注的流水线跑通了。它是怎么工作的？逻辑很简单，主要分三步：一句话找目标：输入你想找的东西（比如“有划痕的零件”），后端的 LocateAnything 模型会先找出它的大致位置。像素级抠图：把大概坐标扔给 SAM2 模型，由它负责精准吸附边缘，生成 Bounding Box 和 Mask 。一键导出：流水线跑完后，自动打包成标准的 YOLO 数据集格式，可以直接丢给 YOLOv8/v11 去训轻量级模型。技术实现细节为了保证业务数据不上云，这个项目设计成了 100% 纯本地运行。这就需要处理显存压力的问题。 **后端 (FastAPI / PyTorch)**：为了能在普通开发机上跑这套 30 亿参数的大模型，我在后端写了严格的显存清理机制。在我的 MacBook Pro (M4 Pro, 24GB) 上，开启 Apple MPS 加速后，处理一张高清图大概 4 秒。连续跑几百张图，系统内存占用稳在 12GB 左右，没有内存泄露，挂后台跑很稳。 **前端 (React / Vite / UnoCSS)**：我个人不喜欢传统标注软件那种密密麻麻的控制台界面，所以用 UnoCSS 写了个极简风格的操作界面，用起来稍微顺眼点。目前的坑因为只花了 5 天写的初版，还有些局限：速度上限：4 秒一张图，应对几百张没问题。如果是上万张的大型数据集，单机单卡还是偏慢，后续得考虑加多卡并行。环境依赖：项目融合了 PyTorch 、Ultralytics 和 SAM2 ，不同系统装依赖可能会踩坑。Docker 镜像后续会补上。最后如果你也厌倦了手动标数据，可以去 GitHub 拉下来跑跑看。遇到问题或者有关于 MPS 显存优化的建议，直接在项目里提 Issue 或 PR 。

看到英伟达发布 LocateAnything 后，我用 5 天搞了个全自动 YOLO 标注工具

V2EX - 技术 · 2026-06-06 01:38:29+08:00 · tech

分享个自己最近开源的项目： VLM-AutoYOLO 。项目地址： https://github.com/Somnusochi/VLM-AutoYOLO 前几天看到英伟达（ NVIDIA ）正式公布了 LocateAnything 视觉大模型，它那种用一段文本就能直接定位物体的能力让我觉得很有意思。结合 Facebook 最近开源的 SAM2 抠图模型，我就想：完全可以用一句话代替手工画框，实现自动化的 YOLO 数据集标注。有了想法后，我在 AI 的辅助下大概花了 5 天时间，把这套全自动标注的流水线跑通了。它是怎么工作的？逻辑很简单，主要分三步：一句话找目标：输入你想找的东西（比如“有划痕的零件”），后端的 LocateAnything 模型会先找出它的大致位置。像素级抠图：把大概坐标扔给 SAM2 模型，由它负责精准吸附边缘，生成 Bounding Box 和 Mask 。一键导出：流水线跑完后，自动打包成标准的 YOLO 数据集格式，可以直接丢给 YOLOv8/v11 去训轻量级模型。技术实现细节为了保证业务数据不上云，这个项目设计成了 100% 纯本地运行。这就需要处理显存压力的问题。 **后端 (FastAPI / PyTorch)**：为了能在普通开发机上跑这套 30 亿参数的大模型，我在后端写了严格的显存清理机制。在我的 MacBook Pro (M4 Pro, 24GB) 上，开启 Apple MPS 加速后，处理一张高清图大概 4 秒。连续跑几百张图，系统内存占用稳在 12GB 左右，没有内存泄露，挂后台跑很稳。 **前端 (React / Vite / UnoCSS)**：我个人不喜欢传统标注软件那种密密麻麻的控制台界面，所以用 UnoCSS 写了个极简风格的操作界面，用起来稍微顺眼点。目前的坑因为只花了 5 天写的初版，还有些局限：速度上限：4 秒一张图，应对几百张没问题。如果是上万张的大型数据集，单机单卡还是偏慢，后续得考虑加多卡并行。环境依赖：项目融合了 PyTorch 、Ultralytics 和 SAM2 ，不同系统装依赖可能会踩坑。Docker 镜像后续会补上。最后如果你也厌倦了手动标数据，可以去 GitHub 拉下来跑跑看。遇到问题或者有关于 MPS 显存优化的建议，直接在项目里提 Issue 或 PR 。

有没有大佬知道yolo标注训练工具的

LinuxDo 最新话题 · 2026-06-04 10:18:56+08:00 · tech

现在的标注工具不好用，看到过有工具能标注，然后直接训练的，还能自动标注 2 个帖子 - 2 位参与者阅读完整话题

工业常用的YOLO降低误检率的方法

LinuxDo 最新话题 · 2026-06-01 16:38:49+08:00 · tech

最近在搞一个皮肤科真菌的检测项目，菌丝的误检率相对较高，用的是YOLO11的目标检测模型，暂时不考虑分割，切分也不考虑，目前以进行了数据集的优化标注，将模型从n换成了S模型，尺寸用的2448.请问各位佬们，还有没有其他方式来降低误检，大家常用的降低误检方式有什么？ 1 个帖子 - 1 位参与者阅读完整话题

[问与答] 麻将洗牌 40 张牌跟踪, YOLO+ByteTrack 累积 1942 ID, SAM 2 / Cutie / CoTracker3 哪个能救?

v2ex · 2026-05-28 02:21:17+08:00 · tech

学习项目. 单视角 RGB 1080p@25fps, 洗牌 60-120s, 求洗牌前 → 洗牌后 40 张牌的位置映射. 数据特点 40 张牌外观近似, 无 re-ID 特征, 背面同色手覆盖 60-80% 帧, 单牌可完全遮挡 1-3s 频繁翻面, 严格目标数上限 = 40 已试 + 失败 YOLO11-Seg 检测 ✓ 静态准, 密集叠加漏 ByteTrack ✗ 60s 累积 1942 ID (理应 40), 卡尔曼+IoU 假设被遮挡彻底破坏匈牙利 + lost-recovery 跨段匹配 ✗ 中段 cost matrix 退化为噪声人工逐帧 fallback ✓ 但 60 min/副, 成本太高在看的方案 SAM 2 video predictor / Cutie / DAM / MASA / CoTracker3 / TAPIR / HaMeR (3D 手部 pose) / ProPainter (擦手部) 求建议玩过 SAM 2 / Cutie / CoTracker3 实战, 或做过 surgical instrument tracking / 同队服球员跟踪 / shell game 视觉问题的同行 — 哪条路在"40 个相似目标 + 持续遮挡"这个 regime 最稳? 论文 / 代码 / 工程踩坑都欢迎. 评论或私信均可.

[问与答] 麻将洗牌 40 张牌跟踪, YOLO+ByteTrack 累积 1942 ID, SAM 2 / Cutie / CoTracker3 哪个能救?

v2ex · 2026-05-28 02:21:17+08:00 · tech

学习项目. 单视角 RGB 1080p@25fps, 洗牌 60-120s, 求洗牌前 → 洗牌后 40 张牌的位置映射. 数据特点 40 张牌外观近似, 无 re-ID 特征, 背面同色手覆盖 60-80% 帧, 单牌可完全遮挡 1-3s 频繁翻面, 严格目标数上限 = 40 已试 + 失败 YOLO11-Seg 检测 ✓ 静态准, 密集叠加漏 ByteTrack ✗ 60s 累积 1942 ID (理应 40), 卡尔曼+IoU 假设被遮挡彻底破坏匈牙利 + lost-recovery 跨段匹配 ✗ 中段 cost matrix 退化为噪声人工逐帧 fallback ✓ 但 60 min/副, 成本太高在看的方案 SAM 2 video predictor / Cutie / DAM / MASA / CoTracker3 / TAPIR / HaMeR (3D 手部 pose) / ProPainter (擦手部) 求建议玩过 SAM 2 / Cutie / CoTracker3 实战, 或做过 surgical instrument tracking / 同队服球员跟踪 / shell game 视觉问题的同行 — 哪条路在"40 个相似目标 + 持续遮挡"这个 regime 最稳? 论文 / 代码 / 工程踩坑都欢迎. 评论或私信均可.

[问与答] 麻将洗牌 40 张牌跟踪, YOLO+ByteTrack 累积 1942 ID, SAM 2 / Cutie / CoTracker3 哪个能救?

v2ex · 2026-05-28 01:21:17+08:00 · tech

学习项目. 单视角 RGB 1080p@25fps, 洗牌 60-120s, 求洗牌前 → 洗牌后 40 张牌的位置映射. 数据特点 40 张牌外观近似, 无 re-ID 特征, 背面同色手覆盖 60-80% 帧, 单牌可完全遮挡 1-3s 频繁翻面, 严格目标数上限 = 40 已试 + 失败 YOLO11-Seg 检测 ✓ 静态准, 密集叠加漏 ByteTrack ✗ 60s 累积 1942 ID (理应 40), 卡尔曼+IoU 假设被遮挡彻底破坏匈牙利 + lost-recovery 跨段匹配 ✗ 中段 cost matrix 退化为噪声人工逐帧 fallback ✓ 但 60 min/副, 成本太高在看的方案 SAM 2 video predictor / Cutie / DAM / MASA / CoTracker3 / TAPIR / HaMeR (3D 手部 pose) / ProPainter (擦手部) 求建议玩过 SAM 2 / Cutie / CoTracker3 实战, 或做过 surgical instrument tracking / 同队服球员跟踪 / shell game 视觉问题的同行 — 哪条路在"40 个相似目标 + 持续遮挡"这个 regime 最稳? 论文 / 代码 / 工程踩坑都欢迎. 评论或私信均可.

[问与答] 麻将洗牌 40 张牌跟踪, YOLO+ByteTrack 累积 1942 ID, SAM 2 / Cutie / CoTracker3 哪个能救?

v2ex · 2026-05-28 00:21:17+08:00 · tech

学习项目. 单视角 RGB 1080p@25fps, 洗牌 60-120s, 求洗牌前 → 洗牌后 40 张牌的位置映射. 数据特点 40 张牌外观近似, 无 re-ID 特征, 背面同色手覆盖 60-80% 帧, 单牌可完全遮挡 1-3s 频繁翻面, 严格目标数上限 = 40 已试 + 失败 YOLO11-Seg 检测 ✓ 静态准, 密集叠加漏 ByteTrack ✗ 60s 累积 1942 ID (理应 40), 卡尔曼+IoU 假设被遮挡彻底破坏匈牙利 + lost-recovery 跨段匹配 ✗ 中段 cost matrix 退化为噪声人工逐帧 fallback ✓ 但 60 min/副, 成本太高在看的方案 SAM 2 video predictor / Cutie / DAM / MASA / CoTracker3 / TAPIR / HaMeR (3D 手部 pose) / ProPainter (擦手部) 求建议玩过 SAM 2 / Cutie / CoTracker3 实战, 或做过 surgical instrument tracking / 同队服球员跟踪 / shell game 视觉问题的同行 — 哪条路在"40 个相似目标 + 持续遮挡"这个 regime 最稳? 论文 / 代码 / 工程踩坑都欢迎. 评论或私信均可.

[问与答] 麻将洗牌 40 张牌跟踪, YOLO+ByteTrack 累积 1942 ID, SAM 2 / Cutie / CoTracker3 哪个能救?

v2ex · 2026-05-27 21:47:16+08:00 · tech

学习项目. 单视角 RGB 1080p@25fps, 洗牌 60-120s, 求洗牌前 → 洗牌后 40 张牌的位置映射. 数据特点 40 张牌外观近似, 无 re-ID 特征, 背面同色手覆盖 60-80% 帧, 单牌可完全遮挡 1-3s 频繁翻面, 严格目标数上限 = 40 已试 + 失败 YOLO11-Seg 检测 ✓ 静态准, 密集叠加漏 ByteTrack ✗ 60s 累积 1942 ID (理应 40), 卡尔曼+IoU 假设被遮挡彻底破坏匈牙利 + lost-recovery 跨段匹配 ✗ 中段 cost matrix 退化为噪声人工逐帧 fallback ✓ 但 60 min/副, 成本太高在看的方案 SAM 2 video predictor / Cutie / DAM / MASA / CoTracker3 / TAPIR / HaMeR (3D 手部 pose) / ProPainter (擦手部) 求建议玩过 SAM 2 / Cutie / CoTracker3 实战, 或做过 surgical instrument tracking / 同队服球员跟踪 / shell game 视觉问题的同行 — 哪条路在"40 个相似目标 + 持续遮挡"这个 regime 最稳? 论文 / 代码 / 工程踩坑都欢迎. 评论或私信均可.

[问与答] 麻将洗牌 40 张牌跟踪, YOLO+ByteTrack 累积 1942 ID, SAM 2 / Cutie / CoTracker3 哪个能救?

v2ex · 2026-05-27 21:47:16+08:00 · tech

学习项目. 单视角 RGB 1080p@25fps, 洗牌 60-120s, 求洗牌前 → 洗牌后 40 张牌的位置映射. 数据特点 40 张牌外观近似, 无 re-ID 特征, 背面同色手覆盖 60-80% 帧, 单牌可完全遮挡 1-3s 频繁翻面, 严格目标数上限 = 40 已试 + 失败 YOLO11-Seg 检测 ✓ 静态准, 密集叠加漏 ByteTrack ✗ 60s 累积 1942 ID (理应 40), 卡尔曼+IoU 假设被遮挡彻底破坏匈牙利 + lost-recovery 跨段匹配 ✗ 中段 cost matrix 退化为噪声人工逐帧 fallback ✓ 但 60 min/副, 成本太高在看的方案 SAM 2 video predictor / Cutie / DAM / MASA / CoTracker3 / TAPIR / HaMeR (3D 手部 pose) / ProPainter (擦手部) 求建议玩过 SAM 2 / Cutie / CoTracker3 实战, 或做过 surgical instrument tracking / 同队服球员跟踪 / shell game 视觉问题的同行 — 哪条路在"40 个相似目标 + 持续遮挡"这个 regime 最稳? 论文 / 代码 / 工程踩坑都欢迎. 评论或私信均可.

[问与答] 麻将洗牌 40 张牌跟踪, YOLO+ByteTrack 累积 1942 ID, SAM 2 / Cutie / CoTracker3 哪个能救?

v2ex · 2026-05-27 21:37:08+08:00 · tech

学习项目. 单视角 RGB 1080p@25fps, 洗牌 60-120s, 求洗牌前 → 洗牌后 40 张牌的位置映射. 数据特点 40 张牌外观近似, 无 re-ID 特征, 背面同色手覆盖 60-80% 帧, 单牌可完全遮挡 1-3s 频繁翻面, 严格目标数上限 = 40 已试 + 失败 YOLO11-Seg 检测 ✓ 静态准, 密集叠加漏 ByteTrack ✗ 60s 累积 1942 ID (理应 40), 卡尔曼+IoU 假设被遮挡彻底破坏匈牙利 + lost-recovery 跨段匹配 ✗ 中段 cost matrix 退化为噪声人工逐帧 fallback ✓ 但 60 min/副, 成本太高在看的方案 SAM 2 video predictor / Cutie / DAM / MASA / CoTracker3 / TAPIR / HaMeR (3D 手部 pose) / ProPainter (擦手部) 求建议玩过 SAM 2 / Cutie / CoTracker3 实战, 或做过 surgical instrument tracking / 同队服球员跟踪 / shell game 视觉问题的同行 — 哪条路在"40 个相似目标 + 持续遮挡"这个 regime 最稳? 论文 / 代码 / 工程踩坑都欢迎. 评论或私信均可.

[问与答] 麻将洗牌 40 张牌跟踪, YOLO+ByteTrack 累积 1942 ID, SAM 2 / Cutie / CoTracker3 哪个能救?

v2ex · 2026-05-27 21:24:46+08:00 · tech

学习项目. 单视角 RGB 1080p@25fps, 洗牌 60-120s, 求洗牌前 → 洗牌后 40 张牌的位置映射. 数据特点 40 张牌外观近似, 无 re-ID 特征, 背面同色手覆盖 60-80% 帧, 单牌可完全遮挡 1-3s 频繁翻面, 严格目标数上限 = 40 已试 + 失败 YOLO11-Seg 检测 ✓ 静态准, 密集叠加漏 ByteTrack ✗ 60s 累积 1942 ID (理应 40), 卡尔曼+IoU 假设被遮挡彻底破坏匈牙利 + lost-recovery 跨段匹配 ✗ 中段 cost matrix 退化为噪声人工逐帧 fallback ✓ 但 60 min/副, 成本太高在看的方案 SAM 2 video predictor / Cutie / DAM / MASA / CoTracker3 / TAPIR / HaMeR (3D 手部 pose) / ProPainter (擦手部) 求建议玩过 SAM 2 / Cutie / CoTracker3 实战, 或做过 surgical instrument tracking / 同队服球员跟踪 / shell game 视觉问题的同行 — 哪条路在"40 个相似目标 + 持续遮挡"这个 regime 最稳? 论文 / 代码 / 工程踩坑都欢迎. 评论或私信均可.

[问与答] 麻将洗牌 40 张牌跟踪, YOLO+ByteTrack 累积 1942 ID, SAM 2 / Cutie / CoTracker3 哪个能救?

v2ex · 2026-05-27 21:17:15+08:00 · tech

学习项目. 单视角 RGB 1080p@25fps, 洗牌 60-120s, 求洗牌前 → 洗牌后 40 张牌的位置映射. 数据特点 40 张牌外观近似, 无 re-ID 特征, 背面同色手覆盖 60-80% 帧, 单牌可完全遮挡 1-3s 频繁翻面, 严格目标数上限 = 40 已试 + 失败 YOLO11-Seg 检测 ✓ 静态准, 密集叠加漏 ByteTrack ✗ 60s 累积 1942 ID (理应 40), 卡尔曼+IoU 假设被遮挡彻底破坏匈牙利 + lost-recovery 跨段匹配 ✗ 中段 cost matrix 退化为噪声人工逐帧 fallback ✓ 但 60 min/副, 成本太高在看的方案 SAM 2 video predictor / Cutie / DAM / MASA / CoTracker3 / TAPIR / HaMeR (3D 手部 pose) / ProPainter (擦手部) 求建议玩过 SAM 2 / Cutie / CoTracker3 实战, 或做过 surgical instrument tracking / 同队服球员跟踪 / shell game 视觉问题的同行 — 哪条路在"40 个相似目标 + 持续遮挡"这个 regime 最稳? 论文 / 代码 / 工程踩坑都欢迎. 评论或私信均可.

/tag/YOLO