求助,佬,有什么办法呢? 这个页面图是第一次进入claude软件的页面 挂着原生家庭梯子 10 个帖子 - 5 位参与者 阅读完整话题
频繁报错Something went wrong (1076) 是不是调Gemini3.5的时候三哥程序猿又不小心搞错了什么 hhhhhhhhhhhh 2 个帖子 - 2 位参与者 阅读完整话题
分享个自己最近开源的项目: VLM-AutoYOLO 。 项目地址: https://github.com/Somnusochi/VLM-AutoYOLO 前几天看到英伟达( NVIDIA )正式公布了 LocateAnything 视觉大模型,它那种用一段文本就能直接定位物体的能力让我觉得很有意思。结合 Facebook 最近开源的 SAM2 抠图模型,我就想:完全可以用一句话代替手工画框,实现自动化的 YOLO 数据集标注。 有了想法后,我在 AI 的辅助下大概花了 5 天时间,把这套全自动标注的流水线跑通了。 它是怎么工作的? 逻辑很简单,主要分三步: 一句话找目标 :输入你想找的东西(比如“有划痕的零件”),后端的 LocateAnything 模型会先找出它的大致位置。 像素级抠图 :把大概坐标扔给 SAM2 模型,由它负责精准吸附边缘,生成 Bounding Box 和 Mask 。 一键导出 :流水线跑完后,自动打包成标准的 YOLO 数据集格式,可以直接丢给 YOLOv8/v11 去训轻量级模型。 技术实现细节 为了保证业务数据不上云,这个项目设计成了 100% 纯本地运行。这就需要处理显存压力的问题。 **后端 (FastAPI / PyTorch)**: 为了能在普通开发机上跑这套 30 亿参数的大模型,我在后端写了严格的显存清理机制。在我的 MacBook Pro (M4 Pro, 24GB) 上,开启 Apple MPS 加速后,处理一张高清图大概 4 秒。连续跑几百张图,系统内存占用稳在 12GB 左右,没有内存泄露,挂后台跑很稳。 **前端 (React / Vite / UnoCSS)**: 我个人不喜欢传统标注软件那种密密麻麻的控制台界面,所以用 UnoCSS 写了个极简风格的操作界面,用起来稍微顺眼点。 目前的坑 因为只花了 5 天写的初版,还有些局限: 速度上限 :4 秒一张图,应对几百张没问题。如果是上万张的大型数据集,单机单卡还是偏慢,后续得考虑加多卡并行。 环境依赖 :项目融合了 PyTorch 、Ultralytics 和 SAM2 ,不同系统装依赖可能会踩坑。Docker 镜像后续会补上。 最后 如果你也厌倦了手动标数据,可以去 GitHub 拉下来跑跑看。遇到问题或者有关于 MPS 显存优化的建议,直接在项目里提 Issue 或 PR 。
A/坏事做尽,手机登陆了账号之后,账号如果被封禁,claude会一直保持着这个登陆的cookie,然后导致claude软件出现something went wrong,try again按钮,我忘记保存对应图片了,我用一下别人reddit的图片,刚才还发了一个求助贴 有佬可以帮订阅claude pro吗 然后我在reddit上看到一个解决方法是: I ran into a similar Claude iOS issue: the app was stuck on “Something went wrong / Try again”, and reinstalling did not help. In my case, the app was still sending old session cookies. Charles showed repeated `/api/account?` requests with cookies like `sessionKey` and `routingHint`, and the response was an account/auth error. The app kept retrying that stale session instead of showing the login screen. What fixed it: - Use Charles Rewrite only for `claude.ai` `/api/account`. - Change the response to `401 Unauthorized`. - Replace the body with a normal `session_expired` auth error. - Add response `Set-Cookie` headers to expire `sessionKey` and `routingHint`. - Force quit and reopen the iOS app. - Once the login screen appears, disable the Rewrite rule immediately. Important: `Set-Cookie` must be added to the response, not the > > request. Never post real cookies or session values. 然后我和codex讨论之后最后的流程大概是以下: 我使用的辅助设备为macbook,windows是否可以使用需要其他大佬测试。虽然希望你们不遇到这个问题 方法需要电脑手机连接 同一个局域网 ,我用的校园网也可以 首先需要安装一个charles brew install --cask charles 查看mac的局域网ip 直接看当前wifi的ip地址显示就行 iphone进行代理设置 iphone:设置 → 无线局域网 → 当前 Wi‑Fi → 配置代理 → 手动 服务器:你的mac局域网ip地址 端口:8888 safari打开 Charles Web Debugging Proxy • SSL CA Certificate installation ,会请求下载证书 设置 → 通用 → VPN与设备管理 → 安装证书 设置 → 通用 → 关于本机 → 证书信任设置 → 信任 Charles mac的Charles设置 Proxy → SSL Proxying Settings → Enable SSL Proxying 配置include 左下角+: Host: claude.ai Port: 443 然后要记得 启用Enable SSL Proxying 此时iphone打开claude 注意此时不需要挂梯子不需要挂梯子,让charles能抓取到这个claude.ai的信息 由于我的bug已经修复所以这里是正常的 图片中claude.ai中应该会有 account 出现的话说明抓取成功了,此时请将iphone后台划掉 下一步charles编辑rewrite 在左上角菜单栏Tools → Rewrite… 左下角+新建一个规则 勾选Enable Rewrite 添加右上角的location: Protocol: https Host: claude.ai Port: 443 Path: /api/account* 添加右下角四个规则 body对应的value是: {“type”:“error”,“error”:{“type”:“session_expired”,“message”:“Session expired”}} 第一个add header的value对应是: sessionKey=; Path=/; Domain=.claude.ai; Expires=Thu, 01 Jan 1970 00:00:00 GMT; Secure; HttpOnly; SameSite=Lax 第二个add header对应的value是: routingHint=; Path=/; Domain=.claude.ai; Expires=Thu, 01 Jan 1970 00:00:00 GMT; Secure; HttpOnly; SameSite=Lax Done iphone此时应该无claude后台,这一步需要挂梯子 梯子挂好之后,打开claude,然后Claude 收到伪造的 401 session_expired 响应,后面应该就会弹出来登陆界面了 此时立刻把charles的rewrite关了:Tools → Rewrite → 取消 Enable Rewrite 做一下收尾工作,就可以重新使用claude了 收尾工作 iPhone 设置 → 无线局域网 → 当前 Wi‑Fi → 配置代理 → 关闭 charles: Tools → Rewrite → 取消 Enable Rewrite Proxy → SSL Proxying Settings → 取消 Enable SSL Proxying 可选:设置 → 通用 → 关于本机 → 证书信任设置 → 关闭 Charles(主要是关闭信任证书) 然后基本就解决这个小问题了,写了半个钟头呢,入站还是第一次写这种问题的解决方法,希望能帮到有需要的朋友 3 个帖子 - 3 位参与者 阅读完整话题
分享个自己最近开源的项目: VLM-AutoYOLO 。 项目地址: https://github.com/Somnusochi/VLM-AutoYOLO 前几天看到英伟达( NVIDIA )正式公布了 LocateAnything 视觉大模型,它那种用一段文本就能直接定位物体的能力让我觉得很有意思。结合 Facebook 最近开源的 SAM2 抠图模型,我就想:完全可以用一句话代替手工画框,实现自动化的 YOLO 数据集标注。 有了想法后,我在 AI 的辅助下大概花了 5 天时间,把这套全自动标注的流水线跑通了。 它是怎么工作的? 逻辑很简单,主要分三步: 一句话找目标 :输入你想找的东西(比如“有划痕的零件”),后端的 LocateAnything 模型会先找出它的大致位置。 像素级抠图 :把大概坐标扔给 SAM2 模型,由它负责精准吸附边缘,生成 Bounding Box 和 Mask 。 一键导出 :流水线跑完后,自动打包成标准的 YOLO 数据集格式,可以直接丢给 YOLOv8/v11 去训轻量级模型。 技术实现细节 为了保证业务数据不上云,这个项目设计成了 100% 纯本地运行。这就需要处理显存压力的问题。 **后端 (FastAPI / PyTorch)**: 为了能在普通开发机上跑这套 30 亿参数的大模型,我在后端写了严格的显存清理机制。在我的 MacBook Pro (M4 Pro, 24GB) 上,开启 Apple MPS 加速后,处理一张高清图大概 4 秒。连续跑几百张图,系统内存占用稳在 12GB 左右,没有内存泄露,挂后台跑很稳。 **前端 (React / Vite / UnoCSS)**: 我个人不喜欢传统标注软件那种密密麻麻的控制台界面,所以用 UnoCSS 写了个极简风格的操作界面,用起来稍微顺眼点。 目前的坑 因为只花了 5 天写的初版,还有些局限: 速度上限 :4 秒一张图,应对几百张没问题。如果是上万张的大型数据集,单机单卡还是偏慢,后续得考虑加多卡并行。 环境依赖 :项目融合了 PyTorch 、Ultralytics 和 SAM2 ,不同系统装依赖可能会踩坑。Docker 镜像后续会补上。 最后 如果你也厌倦了手动标数据,可以去 GitHub 拉下来跑跑看。遇到问题或者有关于 MPS 显存优化的建议,直接在项目里提 Issue 或 PR 。
分享个自己最近开源的项目: VLM-AutoYOLO 。 项目地址: https://github.com/Somnusochi/VLM-AutoYOLO 前几天看到英伟达( NVIDIA )正式公布了 LocateAnything 视觉大模型,它那种用一段文本就能直接定位物体的能力让我觉得很有意思。结合 Facebook 最近开源的 SAM2 抠图模型,我就想:完全可以用一句话代替手工画框,实现自动化的 YOLO 数据集标注。 有了想法后,我在 AI 的辅助下大概花了 5 天时间,把这套全自动标注的流水线跑通了。 它是怎么工作的? 逻辑很简单,主要分三步: 一句话找目标 :输入你想找的东西(比如“有划痕的零件”),后端的 LocateAnything 模型会先找出它的大致位置。 像素级抠图 :把大概坐标扔给 SAM2 模型,由它负责精准吸附边缘,生成 Bounding Box 和 Mask 。 一键导出 :流水线跑完后,自动打包成标准的 YOLO 数据集格式,可以直接丢给 YOLOv8/v11 去训轻量级模型。 技术实现细节 为了保证业务数据不上云,这个项目设计成了 100% 纯本地运行。这就需要处理显存压力的问题。 **后端 (FastAPI / PyTorch)**: 为了能在普通开发机上跑这套 30 亿参数的大模型,我在后端写了严格的显存清理机制。在我的 MacBook Pro (M4 Pro, 24GB) 上,开启 Apple MPS 加速后,处理一张高清图大概 4 秒。连续跑几百张图,系统内存占用稳在 12GB 左右,没有内存泄露,挂后台跑很稳。 **前端 (React / Vite / UnoCSS)**: 我个人不喜欢传统标注软件那种密密麻麻的控制台界面,所以用 UnoCSS 写了个极简风格的操作界面,用起来稍微顺眼点。 目前的坑 因为只花了 5 天写的初版,还有些局限: 速度上限 :4 秒一张图,应对几百张没问题。如果是上万张的大型数据集,单机单卡还是偏慢,后续得考虑加多卡并行。 环境依赖 :项目融合了 PyTorch 、Ultralytics 和 SAM2 ,不同系统装依赖可能会踩坑。Docker 镜像后续会补上。 最后 如果你也厌倦了手动标数据,可以去 GitHub 拉下来跑跑看。遇到问题或者有关于 MPS 显存优化的建议,直接在项目里提 Issue 或 PR 。
分享个自己最近开源的项目: VLM-AutoYOLO 。 项目地址: https://github.com/Somnusochi/VLM-AutoYOLO 前几天看到英伟达( NVIDIA )正式公布了 LocateAnything 视觉大模型,它那种用一段文本就能直接定位物体的能力让我觉得很有意思。结合 Facebook 最近开源的 SAM2 抠图模型,我就想:完全可以用一句话代替手工画框,实现自动化的 YOLO 数据集标注。 有了想法后,我在 AI 的辅助下大概花了 5 天时间,把这套全自动标注的流水线跑通了。 它是怎么工作的? 逻辑很简单,主要分三步: 一句话找目标 :输入你想找的东西(比如“有划痕的零件”),后端的 LocateAnything 模型会先找出它的大致位置。 像素级抠图 :把大概坐标扔给 SAM2 模型,由它负责精准吸附边缘,生成 Bounding Box 和 Mask 。 一键导出 :流水线跑完后,自动打包成标准的 YOLO 数据集格式,可以直接丢给 YOLOv8/v11 去训轻量级模型。 技术实现细节 为了保证业务数据不上云,这个项目设计成了 100% 纯本地运行。这就需要处理显存压力的问题。 **后端 (FastAPI / PyTorch)**: 为了能在普通开发机上跑这套 30 亿参数的大模型,我在后端写了严格的显存清理机制。在我的 MacBook Pro (M4 Pro, 24GB) 上,开启 Apple MPS 加速后,处理一张高清图大概 4 秒。连续跑几百张图,系统内存占用稳在 12GB 左右,没有内存泄露,挂后台跑很稳。 **前端 (React / Vite / UnoCSS)**: 我个人不喜欢传统标注软件那种密密麻麻的控制台界面,所以用 UnoCSS 写了个极简风格的操作界面,用起来稍微顺眼点。 目前的坑 因为只花了 5 天写的初版,还有些局限: 速度上限 :4 秒一张图,应对几百张没问题。如果是上万张的大型数据集,单机单卡还是偏慢,后续得考虑加多卡并行。 环境依赖 :项目融合了 PyTorch 、Ultralytics 和 SAM2 ,不同系统装依赖可能会踩坑。Docker 镜像后续会补上。 最后 如果你也厌倦了手动标数据,可以去 GitHub 拉下来跑跑看。遇到问题或者有关于 MPS 显存优化的建议,直接在项目里提 Issue 或 PR 。
分享个自己最近开源的项目: VLM-AutoYOLO 。 项目地址: https://github.com/Somnusochi/VLM-AutoYOLO 前几天看到英伟达( NVIDIA )正式公布了 LocateAnything 视觉大模型,它那种用一段文本就能直接定位物体的能力让我觉得很有意思。结合 Facebook 最近开源的 SAM2 抠图模型,我就想:完全可以用一句话代替手工画框,实现自动化的 YOLO 数据集标注。 有了想法后,我在 AI 的辅助下大概花了 5 天时间,把这套全自动标注的流水线跑通了。 它是怎么工作的? 逻辑很简单,主要分三步: 一句话找目标 :输入你想找的东西(比如“有划痕的零件”),后端的 LocateAnything 模型会先找出它的大致位置。 像素级抠图 :把大概坐标扔给 SAM2 模型,由它负责精准吸附边缘,生成 Bounding Box 和 Mask 。 一键导出 :流水线跑完后,自动打包成标准的 YOLO 数据集格式,可以直接丢给 YOLOv8/v11 去训轻量级模型。 技术实现细节 为了保证业务数据不上云,这个项目设计成了 100% 纯本地运行。这就需要处理显存压力的问题。 **后端 (FastAPI / PyTorch)**: 为了能在普通开发机上跑这套 30 亿参数的大模型,我在后端写了严格的显存清理机制。在我的 MacBook Pro (M4 Pro, 24GB) 上,开启 Apple MPS 加速后,处理一张高清图大概 4 秒。连续跑几百张图,系统内存占用稳在 12GB 左右,没有内存泄露,挂后台跑很稳。 **前端 (React / Vite / UnoCSS)**: 我个人不喜欢传统标注软件那种密密麻麻的控制台界面,所以用 UnoCSS 写了个极简风格的操作界面,用起来稍微顺眼点。 目前的坑 因为只花了 5 天写的初版,还有些局限: 速度上限 :4 秒一张图,应对几百张没问题。如果是上万张的大型数据集,单机单卡还是偏慢,后续得考虑加多卡并行。 环境依赖 :项目融合了 PyTorch 、Ultralytics 和 SAM2 ,不同系统装依赖可能会踩坑。Docker 镜像后续会补上。 最后 如果你也厌倦了手动标数据,可以去 GitHub 拉下来跑跑看。遇到问题或者有关于 MPS 显存优化的建议,直接在项目里提 Issue 或 PR 。
分享个自己最近开源的项目: VLM-AutoYOLO 。 项目地址: https://github.com/Somnusochi/VLM-AutoYOLO 前几天看到英伟达( NVIDIA )正式公布了 LocateAnything 视觉大模型,它那种用一段文本就能直接定位物体的能力让我觉得很有意思。结合 Facebook 最近开源的 SAM2 抠图模型,我就想:完全可以用一句话代替手工画框,实现自动化的 YOLO 数据集标注。 有了想法后,我在 AI 的辅助下大概花了 5 天时间,把这套全自动标注的流水线跑通了。 它是怎么工作的? 逻辑很简单,主要分三步: 一句话找目标 :输入你想找的东西(比如“有划痕的零件”),后端的 LocateAnything 模型会先找出它的大致位置。 像素级抠图 :把大概坐标扔给 SAM2 模型,由它负责精准吸附边缘,生成 Bounding Box 和 Mask 。 一键导出 :流水线跑完后,自动打包成标准的 YOLO 数据集格式,可以直接丢给 YOLOv8/v11 去训轻量级模型。 技术实现细节 为了保证业务数据不上云,这个项目设计成了 100% 纯本地运行。这就需要处理显存压力的问题。 **后端 (FastAPI / PyTorch)**: 为了能在普通开发机上跑这套 30 亿参数的大模型,我在后端写了严格的显存清理机制。在我的 MacBook Pro (M4 Pro, 24GB) 上,开启 Apple MPS 加速后,处理一张高清图大概 4 秒。连续跑几百张图,系统内存占用稳在 12GB 左右,没有内存泄露,挂后台跑很稳。 **前端 (React / Vite / UnoCSS)**: 我个人不喜欢传统标注软件那种密密麻麻的控制台界面,所以用 UnoCSS 写了个极简风格的操作界面,用起来稍微顺眼点。 目前的坑 因为只花了 5 天写的初版,还有些局限: 速度上限 :4 秒一张图,应对几百张没问题。如果是上万张的大型数据集,单机单卡还是偏慢,后续得考虑加多卡并行。 环境依赖 :项目融合了 PyTorch 、Ultralytics 和 SAM2 ,不同系统装依赖可能会踩坑。Docker 镜像后续会补上。 最后 如果你也厌倦了手动标数据,可以去 GitHub 拉下来跑跑看。遇到问题或者有关于 MPS 显存优化的建议,直接在项目里提 Issue 或 PR 。
分享个自己最近开源的项目: VLM-AutoYOLO 。 项目地址: https://github.com/Somnusochi/VLM-AutoYOLO 前几天看到英伟达( NVIDIA )正式公布了 LocateAnything 视觉大模型,它那种用一段文本就能直接定位物体的能力让我觉得很有意思。结合 Facebook 最近开源的 SAM2 抠图模型,我就想:完全可以用一句话代替手工画框,实现自动化的 YOLO 数据集标注。 有了想法后,我在 AI 的辅助下大概花了 5 天时间,把这套全自动标注的流水线跑通了。 它是怎么工作的? 逻辑很简单,主要分三步: 一句话找目标 :输入你想找的东西(比如“有划痕的零件”),后端的 LocateAnything 模型会先找出它的大致位置。 像素级抠图 :把大概坐标扔给 SAM2 模型,由它负责精准吸附边缘,生成 Bounding Box 和 Mask 。 一键导出 :流水线跑完后,自动打包成标准的 YOLO 数据集格式,可以直接丢给 YOLOv8/v11 去训轻量级模型。 技术实现细节 为了保证业务数据不上云,这个项目设计成了 100% 纯本地运行。这就需要处理显存压力的问题。 **后端 (FastAPI / PyTorch)**: 为了能在普通开发机上跑这套 30 亿参数的大模型,我在后端写了严格的显存清理机制。在我的 MacBook Pro (M4 Pro, 24GB) 上,开启 Apple MPS 加速后,处理一张高清图大概 4 秒。连续跑几百张图,系统内存占用稳在 12GB 左右,没有内存泄露,挂后台跑很稳。 **前端 (React / Vite / UnoCSS)**: 我个人不喜欢传统标注软件那种密密麻麻的控制台界面,所以用 UnoCSS 写了个极简风格的操作界面,用起来稍微顺眼点。 目前的坑 因为只花了 5 天写的初版,还有些局限: 速度上限 :4 秒一张图,应对几百张没问题。如果是上万张的大型数据集,单机单卡还是偏慢,后续得考虑加多卡并行。 环境依赖 :项目融合了 PyTorch 、Ultralytics 和 SAM2 ,不同系统装依赖可能会踩坑。Docker 镜像后续会补上。 最后 如果你也厌倦了手动标数据,可以去 GitHub 拉下来跑跑看。遇到问题或者有关于 MPS 显存优化的建议,直接在项目里提 Issue 或 PR 。
Futurism – 2 Jun 26 There's Something Living Inside Fog, Scientists Find New research found that fog is rife with so much life that it's comparable to an ocean to an entire ocean in density. Est. reading time: 3 minutes [!quote]+ 这项发表在《环境微生物学》杂志上的研究表明,雾中蕴藏着如此丰富的生命,以至于研究人员将其比作一个巨大的独立水生生态系统。 "我们发现数百万细菌栖息在…雾滴中,"亚利桑那州立大学的合著者费兰·加西亚-皮切尔告诉《今日美国》。 "当你把所有雾滴加起来,细菌的浓度与海洋中的细菌浓度相同,"他在一份关于这项研究的声明中补充道。 空气中的水滴中存在细菌本身并非什么新鲜事。但这项研究有助于阐明细菌在雾和其他云层中悬浮时的活动------此前人们对此并不了解------以及这对更广泛的环境产生的影响。 "我们对雾中存在的细菌种类知之甚少,雾就像地面上的云,"该研究的主要作者、亚利桑那州立大学的研究员曹氏(Thi Thuong Cao)在声明中表示。 2,995 雾中藏着生命。再说一遍:雾中藏着生命。 这听起来像是对约翰·卡朋特经典电影的另类演绎,或是苹果电视新恐怖剧集《寡妇湾》的剧情简介,但根据一项新的研究,这些低垂的云层确实充满了活细菌。 这项发表在《环境微生物学》杂志上的研究表明,雾中蕴藏着如此丰富的生命,以至于研究人员将其比作一个巨大的独立水生生态系统。 "我们发现数百万细菌栖息在…雾滴中,"亚利桑那州立大学的合著者费兰·加西亚-皮切尔告诉《今日美国》。 "当你把所有雾滴加起来,细菌的浓度与海洋中的细菌浓度相同,"他在一份关于这项研究的声明中补充道。 空气中的水滴中存在细菌本身并非什么新鲜事。但这项研究有助于阐明细菌在雾和其他云层中悬浮时的活动------此前人们对此并不了解------以及这对更广泛的环境产生的影响。 "我们对雾中存在的细菌种类知之甚少,雾就像地面上的云,"该研究的主要作者、亚利桑那州立大学的研究员曹氏(Thi Thuong Cao)在声明中表示。 为了探究这个阴暗的微观世界,研究人员在雾出现之前、期间和之后都一丝不苟地采集了空气样本。由于风会吹散雾层,使采集到一致的样本变得困难,研究人员将重点放在一种名为辐射雾的特定雾型上。这种雾形成于较为平静的日子,此时地面冷却并带动上方空气冷却,使得水滴在近地面凝结。 经过不懈地采集样本,研究人员发现只有百分之一的雾滴含有细菌。但即便只取一小撮这样的雾滴,也含有大约一千万个细菌,这可不是个小数目。 有些细菌比其他细菌更容易存活。一种名为甲基杆菌(Methylobacteria)的细菌,以吞噬包括甲醛等污染物在内的简单碳化合物而闻名,其数量在雾天后有所增加。进一步观察发现,这些细菌正在积极生长和繁殖。 https://journals.asm.org/doi/10.1128/mbio.00463-26 2 个帖子 - 2 位参与者 阅读完整话题
Nvidia发布的 LocateAnything 视觉语言定位模型,刚测试用了一下,极快极准,甚至有人喊出: 我上传了一张试过其它方法数竹签的图片(大多不准确) 这个模型一下子就标注出来,而且很准确,非常优秀 有兴趣的佬友可以去玩玩: huggingface.co LocateAnything - a Hugging Face Space by nvidia Upload a photo or video and specify the object names you want to locate. The app finds those objects, draws colored boxes or points with labels on the visual, and returns the annotated image (or se... 2 个帖子 - 2 位参与者 阅读完整话题
各位佬,前几天倒腾clianything,突然发现支持blender了,想起之前一直想实现的音乐小球的视频,给codex用goal迭代了一周了,还是完全没眼看,求个文字教程,越详细越好 1 个帖子 - 1 位参与者 阅读完整话题
现在手机一打开就是 something went wrong,网上的教程都试过,卸载重装,删除app数据,关闭icloud密码同步都不行,只剩一个重装系统没有用过了,但是就一个手机成本太高了。。。佬们,还有解决办法吗?需要通过ios购买claude呢。。 2 个帖子 - 2 位参与者 阅读完整话题
(话题已被作者删除) 1 个帖子 - 1 位参与者 阅读完整话题
IT之家 5 月 30 日消息,英伟达昨日(5 月 29 日)发布博文,宣布携手香港理工大学、南京大学等, 推出 LocateAnything 模型,主打高速、高精度检测对象。 该模型可以从照片或截图中找出指定对象,并用检测框标出位置,重点服务机器人感知、电脑自动操作等需要快速定位的场景。 NVIDIA 在介绍中强调,机器人和 AI Agent(智能体)仅能“看见”还不够,还必须足够快地确认目标位置。LocateAnything 围绕检测框预测重新设计,让视觉语言检测更适合即时交互任务。 LocateAnything 提出 Parallel Box Decoding(并行框解码),把边界框或点作为固定长度原子单元,在 1 步内预测 x1、y1、x2、y2。 该框架提供 Fast Mode、Slow Mode 与 Hybrid Mode: Fast Mode 面向端侧机器人和具身智能,强调吞吐; Slow Mode 偏向离线标注和高精度评测; Hybrid Mode 默认快速输出,遇到格式异常或空间歧义时切回自回归解码。 团队还构建 LocateAnything-Data,包含 12M 独立图像、138M 语言查询和 785M 边界框。数据覆盖通用检测、GUI 元素定位、指代表达理解、OCR 文字定位、版面定位和点定位,显著扩展训练场景。 在单张 NVIDIA H100 GPU 上,LocateAnything 默认 Hybrid Mode 达到 12.7 Boxes Per Second(每秒框数),超过 Qwen3-VL 的 1.1 BPS,也高于 Rex-Omni 的 5.0 BPS。 高精度任务中,LocateAnything 在 LVIS 的 IoU=0.95 下得分 31.1,高于 Rex-Omni 的 20.7;ScreenSpot-Pro 平均 F1 达 60.3;DocLayNet 和 M6Doc 分别达 76.8 与 70.1。 IT之家附上参考地址 LocateAnything 论文