WWW.YOUINFO.SITE
标签聚合 聊得

/tag/聊得

v2ex.com · 2026-04-20 21:54:06+08:00 · tech

最近 AI 圈聊 agent 、workflow 、MCP 聊得很热,我最近反而回头看了一个很土的地方:image segmentation 最后那一步,到底是不是应该那么理所当然地 argmax 。 如果你做过这类任务,流程基本都差不多:模型吐出 per-pixel logits 或 probability map ,插值回原图尺寸,然后 argmax 或 threshold 出 mask 。SegFormer 、DeepLab 、UPerNet 这类语义分割模型是这样,很多把 SAM 或别的视觉 backbone 接到语义分割结果上的链路,最后也还是这一步。写久了之后,很容易把它当成一个收尾动作,而不是一个值得单独优化的决策规则。 但 image segmentation 偏偏不是一个只看局部对错的任务。线上或者论文里真正看的,通常是 mIoU / mDice 这类整体 overlap 指标,而 argmax / threshold 更像是逐像素做贪心决策。每个 pixel 单独看都没问题,不代表整张 mask 的全局指标最优,尤其是小物体、边界、遮挡和一些碎区域,常常就是在最后这一步开始丢。 我最近在参与 RankSEG 这条线,做的事情其实很朴素:不改训练,不碰模型权重,只重写“怎么把概率图变成最终 mask”这一步。换句话说,就是把 pipeline 里默认的 probs.argmax(dim=1) 换成一个更贴 segmentation 指标的后处理。对已经有现成推理链路的人来说,改动点非常明确,不是另起一套系统。 这个项目我觉得值得发出来,也主要是因为它有点工程杠杆。现在 PyTorch native 的概率图流程可以接,Transformers 那种 processor -> model -> outputs -> postprocess 的链路也可以接。理论线也不是空口白话:原始工作是 JMLR 2023 ,RMA 加速版见 arXiv 2510.15362 ,仓库材料把它标成了 NeurIPS 2025 。公开材料里,VOC 上 SegFormer 相对 argmax 有 +1.02 mIoU ,ADE20K 上 UPerNet 有 +0.98 mIoU ,医疗分割里 LiTS / KiTS 还更明显。重点不在于“又多一篇分割论文”,而在于你不用重训,只是把最后一步重做一遍,就可能把已经训练好的模型再榨一点出来。 我把仓库、文档和可直接跑的入口放下面了。如果你正好做 segmentation ,可以很快试一下;如果你不做这个方向,我其实也更想聊另一个问题:你们自己的模型链路或者规则系统里,有没有这种“前面很复杂,最后一步却长期默认处理”的地方? 仓库: https://github.com/rankseg/rankseg 文档: https://rankseg.readthedocs.io/en/latest/ Colab: https://colab.research.google.com/github/Leev1s/rankseg/blob/feat/transformers-adapter/notebooks/rankseg_with_transformers.ipynb Hugging Face Space: https://huggingface.co/spaces/statmlben/rankseg 如果想先看效果,大概是这种感觉:

v2ex.com · 2026-04-20 20:54:06+08:00 · tech

最近 AI 圈聊 agent 、workflow 、MCP 聊得很热,我最近反而回头看了一个很土的地方:image segmentation 最后那一步,到底是不是应该那么理所当然地 argmax 。 如果你做过这类任务,流程基本都差不多:模型吐出 per-pixel logits 或 probability map ,插值回原图尺寸,然后 argmax 或 threshold 出 mask 。SegFormer 、DeepLab 、UPerNet 这类语义分割模型是这样,很多把 SAM 或别的视觉 backbone 接到语义分割结果上的链路,最后也还是这一步。写久了之后,很容易把它当成一个收尾动作,而不是一个值得单独优化的决策规则。 但 image segmentation 偏偏不是一个只看局部对错的任务。线上或者论文里真正看的,通常是 mIoU / mDice 这类整体 overlap 指标,而 argmax / threshold 更像是逐像素做贪心决策。每个 pixel 单独看都没问题,不代表整张 mask 的全局指标最优,尤其是小物体、边界、遮挡和一些碎区域,常常就是在最后这一步开始丢。 我最近在参与 RankSEG 这条线,做的事情其实很朴素:不改训练,不碰模型权重,只重写“怎么把概率图变成最终 mask”这一步。换句话说,就是把 pipeline 里默认的 probs.argmax(dim=1) 换成一个更贴 segmentation 指标的后处理。对已经有现成推理链路的人来说,改动点非常明确,不是另起一套系统。 这个项目我觉得值得发出来,也主要是因为它有点工程杠杆。现在 PyTorch native 的概率图流程可以接,Transformers 那种 processor -> model -> outputs -> postprocess 的链路也可以接。理论线也不是空口白话:原始工作是 JMLR 2023 ,RMA 加速版见 arXiv 2510.15362 ,仓库材料把它标成了 NeurIPS 2025 。公开材料里,VOC 上 SegFormer 相对 argmax 有 +1.02 mIoU ,ADE20K 上 UPerNet 有 +0.98 mIoU ,医疗分割里 LiTS / KiTS 还更明显。重点不在于“又多一篇分割论文”,而在于你不用重训,只是把最后一步重做一遍,就可能把已经训练好的模型再榨一点出来。 我把仓库、文档和可直接跑的入口放下面了。如果你正好做 segmentation ,可以很快试一下;如果你不做这个方向,我其实也更想聊另一个问题:你们自己的模型链路或者规则系统里,有没有这种“前面很复杂,最后一步却长期默认处理”的地方? 仓库: https://github.com/rankseg/rankseg 文档: https://rankseg.readthedocs.io/en/latest/ Colab: https://colab.research.google.com/github/Leev1s/rankseg/blob/feat/transformers-adapter/notebooks/rankseg_with_transformers.ipynb Hugging Face Space: https://huggingface.co/spaces/statmlben/rankseg 如果想先看效果,大概是这种感觉:

linux.do · 2026-04-17 20:35:43+08:00 · tech

开源推广声明 (点击了解更多详细信息) 最近开源供应链安全的话题聊得挺火的。 我自己每次 cargo install 一个陌生 crate 之前,总是会先去看看这个仓库靠不靠谱。于是干脆动手做了一个本地 CLI 工具 —— rgd(Repo Guardian) 。 用 Rust + clap + reqwest + tokio 写的,标准 CLI 那一套,上手非常直接。 核心功能是 给 GitHub 仓库做快速体检 :几秒钟就能跑出一个 0-100 的健康分,同时列出最值得优先修复的前 3 件事。如果缺少 SECURITY.md 或 CONTRIBUTING.md,还能直接用 --fix 在本地生成规范模板。 当然,OpenSSF Scorecard 更严谨、更全面,但它主要通过 Docker 或 GitHub Action 使用。我想要的是那种随手一敲就出结果的体验,就像 git status 一样。 目前 rgd 定位是轻量级本地扫描,所以检查项比 Scorecard 少一些,也没有 SARIF 等机器可读输出,接 CI 管线还不太顺畅,网络密集场景下也有继续优化的空间(GitHub API 并发这一版已经优化过了)。 以后也可以扩展到其他垂类场景,只需要调整评分权重、检查维度和 fix 模板就行。 对这方面感兴趣的佬友欢迎来看看~ GitHub: GitHub - teee32/repo-guardian: Tiny local-first CLI for GitHub repository health checks · GitHub 1 个帖子 - 1 位参与者 阅读完整话题