WWW.YOUINFO.SITE
标签聚合 YOLO

/tag/YOLO

LinuxDo 最新话题 · 2026-06-11 18:27:39+08:00 · tech

各位干草铺的老友,请立刻停止YOLO模式,现在我不知道是我自己程序的问题还是奥特曼的问题,已经有佬友给我反馈了GPT回复还像被夺舍的情况,虽然我说过号商再薅我就放毒,但这次真不是我,请大家先放弃YOLO,稍后我会停一会儿公益站。YOLO,也就是bypass那个模式,我现在在外面,来不及写详细,大家能理解就好了,不要完全托管给GPT,能夺舍第一次就能有第二次,至少今天大家先放弃这种模式哈 21 个帖子 - 19 位参与者 阅读完整话题

V2EX - 技术 · 2026-06-06 19:48:09+08:00 · tech

分享个自己最近开源的项目: VLM-AutoYOLO 。 项目地址: https://github.com/Somnusochi/VLM-AutoYOLO 前几天看到英伟达( NVIDIA )正式公布了 LocateAnything 视觉大模型,它那种用一段文本就能直接定位物体的能力让我觉得很有意思。结合 Facebook 最近开源的 SAM2 抠图模型,我就想:完全可以用一句话代替手工画框,实现自动化的 YOLO 数据集标注。 有了想法后,我在 AI 的辅助下大概花了 5 天时间,把这套全自动标注的流水线跑通了。 它是怎么工作的? 逻辑很简单,主要分三步: 一句话找目标 :输入你想找的东西(比如“有划痕的零件”),后端的 LocateAnything 模型会先找出它的大致位置。 像素级抠图 :把大概坐标扔给 SAM2 模型,由它负责精准吸附边缘,生成 Bounding Box 和 Mask 。 一键导出 :流水线跑完后,自动打包成标准的 YOLO 数据集格式,可以直接丢给 YOLOv8/v11 去训轻量级模型。 技术实现细节 为了保证业务数据不上云,这个项目设计成了 100% 纯本地运行。这就需要处理显存压力的问题。 **后端 (FastAPI / PyTorch)**: 为了能在普通开发机上跑这套 30 亿参数的大模型,我在后端写了严格的显存清理机制。在我的 MacBook Pro (M4 Pro, 24GB) 上,开启 Apple MPS 加速后,处理一张高清图大概 4 秒。连续跑几百张图,系统内存占用稳在 12GB 左右,没有内存泄露,挂后台跑很稳。 **前端 (React / Vite / UnoCSS)**: 我个人不喜欢传统标注软件那种密密麻麻的控制台界面,所以用 UnoCSS 写了个极简风格的操作界面,用起来稍微顺眼点。 目前的坑 因为只花了 5 天写的初版,还有些局限: 速度上限 :4 秒一张图,应对几百张没问题。如果是上万张的大型数据集,单机单卡还是偏慢,后续得考虑加多卡并行。 环境依赖 :项目融合了 PyTorch 、Ultralytics 和 SAM2 ,不同系统装依赖可能会踩坑。Docker 镜像后续会补上。 最后 如果你也厌倦了手动标数据,可以去 GitHub 拉下来跑跑看。遇到问题或者有关于 MPS 显存优化的建议,直接在项目里提 Issue 或 PR 。

V2EX - 技术 · 2026-06-06 06:36:58+08:00 · tech

分享个自己最近开源的项目: VLM-AutoYOLO 。 项目地址: https://github.com/Somnusochi/VLM-AutoYOLO 前几天看到英伟达( NVIDIA )正式公布了 LocateAnything 视觉大模型,它那种用一段文本就能直接定位物体的能力让我觉得很有意思。结合 Facebook 最近开源的 SAM2 抠图模型,我就想:完全可以用一句话代替手工画框,实现自动化的 YOLO 数据集标注。 有了想法后,我在 AI 的辅助下大概花了 5 天时间,把这套全自动标注的流水线跑通了。 它是怎么工作的? 逻辑很简单,主要分三步: 一句话找目标 :输入你想找的东西(比如“有划痕的零件”),后端的 LocateAnything 模型会先找出它的大致位置。 像素级抠图 :把大概坐标扔给 SAM2 模型,由它负责精准吸附边缘,生成 Bounding Box 和 Mask 。 一键导出 :流水线跑完后,自动打包成标准的 YOLO 数据集格式,可以直接丢给 YOLOv8/v11 去训轻量级模型。 技术实现细节 为了保证业务数据不上云,这个项目设计成了 100% 纯本地运行。这就需要处理显存压力的问题。 **后端 (FastAPI / PyTorch)**: 为了能在普通开发机上跑这套 30 亿参数的大模型,我在后端写了严格的显存清理机制。在我的 MacBook Pro (M4 Pro, 24GB) 上,开启 Apple MPS 加速后,处理一张高清图大概 4 秒。连续跑几百张图,系统内存占用稳在 12GB 左右,没有内存泄露,挂后台跑很稳。 **前端 (React / Vite / UnoCSS)**: 我个人不喜欢传统标注软件那种密密麻麻的控制台界面,所以用 UnoCSS 写了个极简风格的操作界面,用起来稍微顺眼点。 目前的坑 因为只花了 5 天写的初版,还有些局限: 速度上限 :4 秒一张图,应对几百张没问题。如果是上万张的大型数据集,单机单卡还是偏慢,后续得考虑加多卡并行。 环境依赖 :项目融合了 PyTorch 、Ultralytics 和 SAM2 ,不同系统装依赖可能会踩坑。Docker 镜像后续会补上。 最后 如果你也厌倦了手动标数据,可以去 GitHub 拉下来跑跑看。遇到问题或者有关于 MPS 显存优化的建议,直接在项目里提 Issue 或 PR 。

V2EX - 技术 · 2026-06-06 04:36:58+08:00 · tech

分享个自己最近开源的项目: VLM-AutoYOLO 。 项目地址: https://github.com/Somnusochi/VLM-AutoYOLO 前几天看到英伟达( NVIDIA )正式公布了 LocateAnything 视觉大模型,它那种用一段文本就能直接定位物体的能力让我觉得很有意思。结合 Facebook 最近开源的 SAM2 抠图模型,我就想:完全可以用一句话代替手工画框,实现自动化的 YOLO 数据集标注。 有了想法后,我在 AI 的辅助下大概花了 5 天时间,把这套全自动标注的流水线跑通了。 它是怎么工作的? 逻辑很简单,主要分三步: 一句话找目标 :输入你想找的东西(比如“有划痕的零件”),后端的 LocateAnything 模型会先找出它的大致位置。 像素级抠图 :把大概坐标扔给 SAM2 模型,由它负责精准吸附边缘,生成 Bounding Box 和 Mask 。 一键导出 :流水线跑完后,自动打包成标准的 YOLO 数据集格式,可以直接丢给 YOLOv8/v11 去训轻量级模型。 技术实现细节 为了保证业务数据不上云,这个项目设计成了 100% 纯本地运行。这就需要处理显存压力的问题。 **后端 (FastAPI / PyTorch)**: 为了能在普通开发机上跑这套 30 亿参数的大模型,我在后端写了严格的显存清理机制。在我的 MacBook Pro (M4 Pro, 24GB) 上,开启 Apple MPS 加速后,处理一张高清图大概 4 秒。连续跑几百张图,系统内存占用稳在 12GB 左右,没有内存泄露,挂后台跑很稳。 **前端 (React / Vite / UnoCSS)**: 我个人不喜欢传统标注软件那种密密麻麻的控制台界面,所以用 UnoCSS 写了个极简风格的操作界面,用起来稍微顺眼点。 目前的坑 因为只花了 5 天写的初版,还有些局限: 速度上限 :4 秒一张图,应对几百张没问题。如果是上万张的大型数据集,单机单卡还是偏慢,后续得考虑加多卡并行。 环境依赖 :项目融合了 PyTorch 、Ultralytics 和 SAM2 ,不同系统装依赖可能会踩坑。Docker 镜像后续会补上。 最后 如果你也厌倦了手动标数据,可以去 GitHub 拉下来跑跑看。遇到问题或者有关于 MPS 显存优化的建议,直接在项目里提 Issue 或 PR 。

V2EX - 技术 · 2026-06-06 04:36:58+08:00 · tech

分享个自己最近开源的项目: VLM-AutoYOLO 。 项目地址: https://github.com/Somnusochi/VLM-AutoYOLO 前几天看到英伟达( NVIDIA )正式公布了 LocateAnything 视觉大模型,它那种用一段文本就能直接定位物体的能力让我觉得很有意思。结合 Facebook 最近开源的 SAM2 抠图模型,我就想:完全可以用一句话代替手工画框,实现自动化的 YOLO 数据集标注。 有了想法后,我在 AI 的辅助下大概花了 5 天时间,把这套全自动标注的流水线跑通了。 它是怎么工作的? 逻辑很简单,主要分三步: 一句话找目标 :输入你想找的东西(比如“有划痕的零件”),后端的 LocateAnything 模型会先找出它的大致位置。 像素级抠图 :把大概坐标扔给 SAM2 模型,由它负责精准吸附边缘,生成 Bounding Box 和 Mask 。 一键导出 :流水线跑完后,自动打包成标准的 YOLO 数据集格式,可以直接丢给 YOLOv8/v11 去训轻量级模型。 技术实现细节 为了保证业务数据不上云,这个项目设计成了 100% 纯本地运行。这就需要处理显存压力的问题。 **后端 (FastAPI / PyTorch)**: 为了能在普通开发机上跑这套 30 亿参数的大模型,我在后端写了严格的显存清理机制。在我的 MacBook Pro (M4 Pro, 24GB) 上,开启 Apple MPS 加速后,处理一张高清图大概 4 秒。连续跑几百张图,系统内存占用稳在 12GB 左右,没有内存泄露,挂后台跑很稳。 **前端 (React / Vite / UnoCSS)**: 我个人不喜欢传统标注软件那种密密麻麻的控制台界面,所以用 UnoCSS 写了个极简风格的操作界面,用起来稍微顺眼点。 目前的坑 因为只花了 5 天写的初版,还有些局限: 速度上限 :4 秒一张图,应对几百张没问题。如果是上万张的大型数据集,单机单卡还是偏慢,后续得考虑加多卡并行。 环境依赖 :项目融合了 PyTorch 、Ultralytics 和 SAM2 ,不同系统装依赖可能会踩坑。Docker 镜像后续会补上。 最后 如果你也厌倦了手动标数据,可以去 GitHub 拉下来跑跑看。遇到问题或者有关于 MPS 显存优化的建议,直接在项目里提 Issue 或 PR 。

V2EX - 技术 · 2026-06-06 03:36:58+08:00 · tech

分享个自己最近开源的项目: VLM-AutoYOLO 。 项目地址: https://github.com/Somnusochi/VLM-AutoYOLO 前几天看到英伟达( NVIDIA )正式公布了 LocateAnything 视觉大模型,它那种用一段文本就能直接定位物体的能力让我觉得很有意思。结合 Facebook 最近开源的 SAM2 抠图模型,我就想:完全可以用一句话代替手工画框,实现自动化的 YOLO 数据集标注。 有了想法后,我在 AI 的辅助下大概花了 5 天时间,把这套全自动标注的流水线跑通了。 它是怎么工作的? 逻辑很简单,主要分三步: 一句话找目标 :输入你想找的东西(比如“有划痕的零件”),后端的 LocateAnything 模型会先找出它的大致位置。 像素级抠图 :把大概坐标扔给 SAM2 模型,由它负责精准吸附边缘,生成 Bounding Box 和 Mask 。 一键导出 :流水线跑完后,自动打包成标准的 YOLO 数据集格式,可以直接丢给 YOLOv8/v11 去训轻量级模型。 技术实现细节 为了保证业务数据不上云,这个项目设计成了 100% 纯本地运行。这就需要处理显存压力的问题。 **后端 (FastAPI / PyTorch)**: 为了能在普通开发机上跑这套 30 亿参数的大模型,我在后端写了严格的显存清理机制。在我的 MacBook Pro (M4 Pro, 24GB) 上,开启 Apple MPS 加速后,处理一张高清图大概 4 秒。连续跑几百张图,系统内存占用稳在 12GB 左右,没有内存泄露,挂后台跑很稳。 **前端 (React / Vite / UnoCSS)**: 我个人不喜欢传统标注软件那种密密麻麻的控制台界面,所以用 UnoCSS 写了个极简风格的操作界面,用起来稍微顺眼点。 目前的坑 因为只花了 5 天写的初版,还有些局限: 速度上限 :4 秒一张图,应对几百张没问题。如果是上万张的大型数据集,单机单卡还是偏慢,后续得考虑加多卡并行。 环境依赖 :项目融合了 PyTorch 、Ultralytics 和 SAM2 ,不同系统装依赖可能会踩坑。Docker 镜像后续会补上。 最后 如果你也厌倦了手动标数据,可以去 GitHub 拉下来跑跑看。遇到问题或者有关于 MPS 显存优化的建议,直接在项目里提 Issue 或 PR 。

V2EX - 技术 · 2026-06-06 02:36:58+08:00 · tech

分享个自己最近开源的项目: VLM-AutoYOLO 。 项目地址: https://github.com/Somnusochi/VLM-AutoYOLO 前几天看到英伟达( NVIDIA )正式公布了 LocateAnything 视觉大模型,它那种用一段文本就能直接定位物体的能力让我觉得很有意思。结合 Facebook 最近开源的 SAM2 抠图模型,我就想:完全可以用一句话代替手工画框,实现自动化的 YOLO 数据集标注。 有了想法后,我在 AI 的辅助下大概花了 5 天时间,把这套全自动标注的流水线跑通了。 它是怎么工作的? 逻辑很简单,主要分三步: 一句话找目标 :输入你想找的东西(比如“有划痕的零件”),后端的 LocateAnything 模型会先找出它的大致位置。 像素级抠图 :把大概坐标扔给 SAM2 模型,由它负责精准吸附边缘,生成 Bounding Box 和 Mask 。 一键导出 :流水线跑完后,自动打包成标准的 YOLO 数据集格式,可以直接丢给 YOLOv8/v11 去训轻量级模型。 技术实现细节 为了保证业务数据不上云,这个项目设计成了 100% 纯本地运行。这就需要处理显存压力的问题。 **后端 (FastAPI / PyTorch)**: 为了能在普通开发机上跑这套 30 亿参数的大模型,我在后端写了严格的显存清理机制。在我的 MacBook Pro (M4 Pro, 24GB) 上,开启 Apple MPS 加速后,处理一张高清图大概 4 秒。连续跑几百张图,系统内存占用稳在 12GB 左右,没有内存泄露,挂后台跑很稳。 **前端 (React / Vite / UnoCSS)**: 我个人不喜欢传统标注软件那种密密麻麻的控制台界面,所以用 UnoCSS 写了个极简风格的操作界面,用起来稍微顺眼点。 目前的坑 因为只花了 5 天写的初版,还有些局限: 速度上限 :4 秒一张图,应对几百张没问题。如果是上万张的大型数据集,单机单卡还是偏慢,后续得考虑加多卡并行。 环境依赖 :项目融合了 PyTorch 、Ultralytics 和 SAM2 ,不同系统装依赖可能会踩坑。Docker 镜像后续会补上。 最后 如果你也厌倦了手动标数据,可以去 GitHub 拉下来跑跑看。遇到问题或者有关于 MPS 显存优化的建议,直接在项目里提 Issue 或 PR 。

V2EX - 技术 · 2026-06-06 01:38:29+08:00 · tech

分享个自己最近开源的项目: VLM-AutoYOLO 。 项目地址: https://github.com/Somnusochi/VLM-AutoYOLO 前几天看到英伟达( NVIDIA )正式公布了 LocateAnything 视觉大模型,它那种用一段文本就能直接定位物体的能力让我觉得很有意思。结合 Facebook 最近开源的 SAM2 抠图模型,我就想:完全可以用一句话代替手工画框,实现自动化的 YOLO 数据集标注。 有了想法后,我在 AI 的辅助下大概花了 5 天时间,把这套全自动标注的流水线跑通了。 它是怎么工作的? 逻辑很简单,主要分三步: 一句话找目标 :输入你想找的东西(比如“有划痕的零件”),后端的 LocateAnything 模型会先找出它的大致位置。 像素级抠图 :把大概坐标扔给 SAM2 模型,由它负责精准吸附边缘,生成 Bounding Box 和 Mask 。 一键导出 :流水线跑完后,自动打包成标准的 YOLO 数据集格式,可以直接丢给 YOLOv8/v11 去训轻量级模型。 技术实现细节 为了保证业务数据不上云,这个项目设计成了 100% 纯本地运行。这就需要处理显存压力的问题。 **后端 (FastAPI / PyTorch)**: 为了能在普通开发机上跑这套 30 亿参数的大模型,我在后端写了严格的显存清理机制。在我的 MacBook Pro (M4 Pro, 24GB) 上,开启 Apple MPS 加速后,处理一张高清图大概 4 秒。连续跑几百张图,系统内存占用稳在 12GB 左右,没有内存泄露,挂后台跑很稳。 **前端 (React / Vite / UnoCSS)**: 我个人不喜欢传统标注软件那种密密麻麻的控制台界面,所以用 UnoCSS 写了个极简风格的操作界面,用起来稍微顺眼点。 目前的坑 因为只花了 5 天写的初版,还有些局限: 速度上限 :4 秒一张图,应对几百张没问题。如果是上万张的大型数据集,单机单卡还是偏慢,后续得考虑加多卡并行。 环境依赖 :项目融合了 PyTorch 、Ultralytics 和 SAM2 ,不同系统装依赖可能会踩坑。Docker 镜像后续会补上。 最后 如果你也厌倦了手动标数据,可以去 GitHub 拉下来跑跑看。遇到问题或者有关于 MPS 显存优化的建议,直接在项目里提 Issue 或 PR 。

v2ex · 2026-05-28 02:21:17+08:00 · tech

学习项目. 单视角 RGB 1080p@25fps, 洗牌 60-120s, 求洗牌前 → 洗牌后 40 张牌的位置映射. 数据特点 40 张牌外观近似, 无 re-ID 特征, 背面同色 手覆盖 60-80% 帧, 单牌可完全遮挡 1-3s 频繁翻面, 严格目标数上限 = 40 已试 + 失败 YOLO11-Seg 检测 ✓ 静态准, 密集叠加漏 ByteTrack ✗ 60s 累积 1942 ID (理应 40), 卡尔曼+IoU 假设被遮挡彻底破坏 匈牙利 + lost-recovery 跨段匹配 ✗ 中段 cost matrix 退化为噪声 人工逐帧 fallback ✓ 但 60 min/副, 成本太高 在看的方案 SAM 2 video predictor / Cutie / DAM / MASA / CoTracker3 / TAPIR / HaMeR (3D 手部 pose) / ProPainter (擦手部) 求建议 玩过 SAM 2 / Cutie / CoTracker3 实战, 或做过 surgical instrument tracking / 同队服球员跟踪 / shell game 视觉问题的同行 — 哪条路在"40 个相似目标 + 持续遮挡"这个 regime 最稳? 论文 / 代码 / 工程踩坑都欢迎. 评论或私信均可.

v2ex · 2026-05-28 02:21:17+08:00 · tech

学习项目. 单视角 RGB 1080p@25fps, 洗牌 60-120s, 求洗牌前 → 洗牌后 40 张牌的位置映射. 数据特点 40 张牌外观近似, 无 re-ID 特征, 背面同色 手覆盖 60-80% 帧, 单牌可完全遮挡 1-3s 频繁翻面, 严格目标数上限 = 40 已试 + 失败 YOLO11-Seg 检测 ✓ 静态准, 密集叠加漏 ByteTrack ✗ 60s 累积 1942 ID (理应 40), 卡尔曼+IoU 假设被遮挡彻底破坏 匈牙利 + lost-recovery 跨段匹配 ✗ 中段 cost matrix 退化为噪声 人工逐帧 fallback ✓ 但 60 min/副, 成本太高 在看的方案 SAM 2 video predictor / Cutie / DAM / MASA / CoTracker3 / TAPIR / HaMeR (3D 手部 pose) / ProPainter (擦手部) 求建议 玩过 SAM 2 / Cutie / CoTracker3 实战, 或做过 surgical instrument tracking / 同队服球员跟踪 / shell game 视觉问题的同行 — 哪条路在"40 个相似目标 + 持续遮挡"这个 regime 最稳? 论文 / 代码 / 工程踩坑都欢迎. 评论或私信均可.

v2ex · 2026-05-28 01:21:17+08:00 · tech

学习项目. 单视角 RGB 1080p@25fps, 洗牌 60-120s, 求洗牌前 → 洗牌后 40 张牌的位置映射. 数据特点 40 张牌外观近似, 无 re-ID 特征, 背面同色 手覆盖 60-80% 帧, 单牌可完全遮挡 1-3s 频繁翻面, 严格目标数上限 = 40 已试 + 失败 YOLO11-Seg 检测 ✓ 静态准, 密集叠加漏 ByteTrack ✗ 60s 累积 1942 ID (理应 40), 卡尔曼+IoU 假设被遮挡彻底破坏 匈牙利 + lost-recovery 跨段匹配 ✗ 中段 cost matrix 退化为噪声 人工逐帧 fallback ✓ 但 60 min/副, 成本太高 在看的方案 SAM 2 video predictor / Cutie / DAM / MASA / CoTracker3 / TAPIR / HaMeR (3D 手部 pose) / ProPainter (擦手部) 求建议 玩过 SAM 2 / Cutie / CoTracker3 实战, 或做过 surgical instrument tracking / 同队服球员跟踪 / shell game 视觉问题的同行 — 哪条路在"40 个相似目标 + 持续遮挡"这个 regime 最稳? 论文 / 代码 / 工程踩坑都欢迎. 评论或私信均可.

v2ex · 2026-05-28 00:21:17+08:00 · tech

学习项目. 单视角 RGB 1080p@25fps, 洗牌 60-120s, 求洗牌前 → 洗牌后 40 张牌的位置映射. 数据特点 40 张牌外观近似, 无 re-ID 特征, 背面同色 手覆盖 60-80% 帧, 单牌可完全遮挡 1-3s 频繁翻面, 严格目标数上限 = 40 已试 + 失败 YOLO11-Seg 检测 ✓ 静态准, 密集叠加漏 ByteTrack ✗ 60s 累积 1942 ID (理应 40), 卡尔曼+IoU 假设被遮挡彻底破坏 匈牙利 + lost-recovery 跨段匹配 ✗ 中段 cost matrix 退化为噪声 人工逐帧 fallback ✓ 但 60 min/副, 成本太高 在看的方案 SAM 2 video predictor / Cutie / DAM / MASA / CoTracker3 / TAPIR / HaMeR (3D 手部 pose) / ProPainter (擦手部) 求建议 玩过 SAM 2 / Cutie / CoTracker3 实战, 或做过 surgical instrument tracking / 同队服球员跟踪 / shell game 视觉问题的同行 — 哪条路在"40 个相似目标 + 持续遮挡"这个 regime 最稳? 论文 / 代码 / 工程踩坑都欢迎. 评论或私信均可.

v2ex · 2026-05-27 21:47:16+08:00 · tech

学习项目. 单视角 RGB 1080p@25fps, 洗牌 60-120s, 求洗牌前 → 洗牌后 40 张牌的位置映射. 数据特点 40 张牌外观近似, 无 re-ID 特征, 背面同色 手覆盖 60-80% 帧, 单牌可完全遮挡 1-3s 频繁翻面, 严格目标数上限 = 40 已试 + 失败 YOLO11-Seg 检测 ✓ 静态准, 密集叠加漏 ByteTrack ✗ 60s 累积 1942 ID (理应 40), 卡尔曼+IoU 假设被遮挡彻底破坏 匈牙利 + lost-recovery 跨段匹配 ✗ 中段 cost matrix 退化为噪声 人工逐帧 fallback ✓ 但 60 min/副, 成本太高 在看的方案 SAM 2 video predictor / Cutie / DAM / MASA / CoTracker3 / TAPIR / HaMeR (3D 手部 pose) / ProPainter (擦手部) 求建议 玩过 SAM 2 / Cutie / CoTracker3 实战, 或做过 surgical instrument tracking / 同队服球员跟踪 / shell game 视觉问题的同行 — 哪条路在"40 个相似目标 + 持续遮挡"这个 regime 最稳? 论文 / 代码 / 工程踩坑都欢迎. 评论或私信均可.

v2ex · 2026-05-27 21:47:16+08:00 · tech

学习项目. 单视角 RGB 1080p@25fps, 洗牌 60-120s, 求洗牌前 → 洗牌后 40 张牌的位置映射. 数据特点 40 张牌外观近似, 无 re-ID 特征, 背面同色 手覆盖 60-80% 帧, 单牌可完全遮挡 1-3s 频繁翻面, 严格目标数上限 = 40 已试 + 失败 YOLO11-Seg 检测 ✓ 静态准, 密集叠加漏 ByteTrack ✗ 60s 累积 1942 ID (理应 40), 卡尔曼+IoU 假设被遮挡彻底破坏 匈牙利 + lost-recovery 跨段匹配 ✗ 中段 cost matrix 退化为噪声 人工逐帧 fallback ✓ 但 60 min/副, 成本太高 在看的方案 SAM 2 video predictor / Cutie / DAM / MASA / CoTracker3 / TAPIR / HaMeR (3D 手部 pose) / ProPainter (擦手部) 求建议 玩过 SAM 2 / Cutie / CoTracker3 实战, 或做过 surgical instrument tracking / 同队服球员跟踪 / shell game 视觉问题的同行 — 哪条路在"40 个相似目标 + 持续遮挡"这个 regime 最稳? 论文 / 代码 / 工程踩坑都欢迎. 评论或私信均可.

v2ex · 2026-05-27 21:37:08+08:00 · tech

学习项目. 单视角 RGB 1080p@25fps, 洗牌 60-120s, 求洗牌前 → 洗牌后 40 张牌的位置映射. 数据特点 40 张牌外观近似, 无 re-ID 特征, 背面同色 手覆盖 60-80% 帧, 单牌可完全遮挡 1-3s 频繁翻面, 严格目标数上限 = 40 已试 + 失败 YOLO11-Seg 检测 ✓ 静态准, 密集叠加漏 ByteTrack ✗ 60s 累积 1942 ID (理应 40), 卡尔曼+IoU 假设被遮挡彻底破坏 匈牙利 + lost-recovery 跨段匹配 ✗ 中段 cost matrix 退化为噪声 人工逐帧 fallback ✓ 但 60 min/副, 成本太高 在看的方案 SAM 2 video predictor / Cutie / DAM / MASA / CoTracker3 / TAPIR / HaMeR (3D 手部 pose) / ProPainter (擦手部) 求建议 玩过 SAM 2 / Cutie / CoTracker3 实战, 或做过 surgical instrument tracking / 同队服球员跟踪 / shell game 视觉问题的同行 — 哪条路在"40 个相似目标 + 持续遮挡"这个 regime 最稳? 论文 / 代码 / 工程踩坑都欢迎. 评论或私信均可.

v2ex · 2026-05-27 21:24:46+08:00 · tech

学习项目. 单视角 RGB 1080p@25fps, 洗牌 60-120s, 求洗牌前 → 洗牌后 40 张牌的位置映射. 数据特点 40 张牌外观近似, 无 re-ID 特征, 背面同色 手覆盖 60-80% 帧, 单牌可完全遮挡 1-3s 频繁翻面, 严格目标数上限 = 40 已试 + 失败 YOLO11-Seg 检测 ✓ 静态准, 密集叠加漏 ByteTrack ✗ 60s 累积 1942 ID (理应 40), 卡尔曼+IoU 假设被遮挡彻底破坏 匈牙利 + lost-recovery 跨段匹配 ✗ 中段 cost matrix 退化为噪声 人工逐帧 fallback ✓ 但 60 min/副, 成本太高 在看的方案 SAM 2 video predictor / Cutie / DAM / MASA / CoTracker3 / TAPIR / HaMeR (3D 手部 pose) / ProPainter (擦手部) 求建议 玩过 SAM 2 / Cutie / CoTracker3 实战, 或做过 surgical instrument tracking / 同队服球员跟踪 / shell game 视觉问题的同行 — 哪条路在"40 个相似目标 + 持续遮挡"这个 regime 最稳? 论文 / 代码 / 工程踩坑都欢迎. 评论或私信均可.

v2ex · 2026-05-27 21:17:15+08:00 · tech

学习项目. 单视角 RGB 1080p@25fps, 洗牌 60-120s, 求洗牌前 → 洗牌后 40 张牌的位置映射. 数据特点 40 张牌外观近似, 无 re-ID 特征, 背面同色 手覆盖 60-80% 帧, 单牌可完全遮挡 1-3s 频繁翻面, 严格目标数上限 = 40 已试 + 失败 YOLO11-Seg 检测 ✓ 静态准, 密集叠加漏 ByteTrack ✗ 60s 累积 1942 ID (理应 40), 卡尔曼+IoU 假设被遮挡彻底破坏 匈牙利 + lost-recovery 跨段匹配 ✗ 中段 cost matrix 退化为噪声 人工逐帧 fallback ✓ 但 60 min/副, 成本太高 在看的方案 SAM 2 video predictor / Cutie / DAM / MASA / CoTracker3 / TAPIR / HaMeR (3D 手部 pose) / ProPainter (擦手部) 求建议 玩过 SAM 2 / Cutie / CoTracker3 实战, 或做过 surgical instrument tracking / 同队服球员跟踪 / shell game 视觉问题的同行 — 哪条路在"40 个相似目标 + 持续遮挡"这个 regime 最稳? 论文 / 代码 / 工程踩坑都欢迎. 评论或私信均可.