lazy - WWW.YOUINFO.SITE - WWW.YOUINFO.SITE

把 10.8GB vLLM 镜像的 Pod Ready 从 4m35s 降到 14s： Hermes + SOCI lazy loading 实测

V2EX - 技术 · 2026-05-28 16:17:58+08:00 · tech

最近在看 Kubernetes 上 AI 推理服务的冷启动问题，发现很多时候慢的不只是模型加载，容器镜像本身也很夸张。比如 vLLM 这类镜像，里面有 PyTorch 、CUDA 、Python 依赖、系统库，动不动就是 10GB+。传统 containerd / overlayfs 路径下，节点要先完整下载并解压镜像，Pod 才能真正起来。对 Karpenter 这种弹性扩容场景来说，这部分时间会很明显。我们做了一个小项目 Hermes： https://github.com/cloudpilot-ai/hermes 想法是：不让业务团队改 Dockerfile 、不重建镜像、不改 CI/CD ，也不改原来的 image reference 。平台侧定义一个 HermesPolicy ，controller 在集群内自动为匹配到的镜像构建并缓存 SOCI index ，节点上的 daemon 再用这些 index 做 lazy loading 。这次用 EKS + Karpenter 跑了一个简单对比，镜像是： 763104351884.dkr.ecr.us-east-1.amazonaws.com/vllm:0.9-gpu-py312-ec2 大概 10.8GB 。普通节点上，从 Pod 调度到节点后，到容器 Running/Ready： 5m04s - 29s = 4m35s 开启 Hermes 的节点上，在 HermesPolicy 已经 Ready 、SOCI artifact 已经构建好的前提下： 44s - 30s = 14s 也就是这个场景里，镜像拉取/挂载到容器启动这段，从 4m35s 降到了 14s 。需要强调一下：这个结果不包含首次 index 构建耗时，也不等于 vLLM first token latency 。Pod Ready 变快，只说明容器镜像这条路径被 lazy loading 优化了。后面还需要继续测 vLLM readiness 、first request TTFT 、warmup 后真实请求延迟。 Hermes 现在的定位更像一个集群侧能力：应用继续发原来的 OCI image ，平台通过策略决定哪些镜像需要被 lazy load 。类似： apiVersion: hermes.cloudpilot.ai/v1alpha1 kind: HermesPolicy metadata: name: prod-large-images spec: paused: false imageSelectors: - imageRegex: ".*vllm.*" platforms: - linux/amd64 目前还比较早期，欢迎大家关注项目： https://github.com/cloudpilot-ai/hermes

把 10.8GB vLLM 镜像的 Pod Ready 从 4m35s 降到 14s： Hermes + SOCI lazy loading 实测

V2EX - 技术 · 2026-05-28 16:17:58+08:00 · tech

最近在看 Kubernetes 上 AI 推理服务的冷启动问题，发现很多时候慢的不只是模型加载，容器镜像本身也很夸张。比如 vLLM 这类镜像，里面有 PyTorch 、CUDA 、Python 依赖、系统库，动不动就是 10GB+。传统 containerd / overlayfs 路径下，节点要先完整下载并解压镜像，Pod 才能真正起来。对 Karpenter 这种弹性扩容场景来说，这部分时间会很明显。我们做了一个小项目 Hermes： https://github.com/cloudpilot-ai/hermes 想法是：不让业务团队改 Dockerfile 、不重建镜像、不改 CI/CD ，也不改原来的 image reference 。平台侧定义一个 HermesPolicy ，controller 在集群内自动为匹配到的镜像构建并缓存 SOCI index ，节点上的 daemon 再用这些 index 做 lazy loading 。这次用 EKS + Karpenter 跑了一个简单对比，镜像是： 763104351884.dkr.ecr.us-east-1.amazonaws.com/vllm:0.9-gpu-py312-ec2 大概 10.8GB 。普通节点上，从 Pod 调度到节点后，到容器 Running/Ready： 5m04s - 29s = 4m35s 开启 Hermes 的节点上，在 HermesPolicy 已经 Ready 、SOCI artifact 已经构建好的前提下： 44s - 30s = 14s 也就是这个场景里，镜像拉取/挂载到容器启动这段，从 4m35s 降到了 14s 。需要强调一下：这个结果不包含首次 index 构建耗时，也不等于 vLLM first token latency 。Pod Ready 变快，只说明容器镜像这条路径被 lazy loading 优化了。后面还需要继续测 vLLM readiness 、first request TTFT 、warmup 后真实请求延迟。 Hermes 现在的定位更像一个集群侧能力：应用继续发原来的 OCI image ，平台通过策略决定哪些镜像需要被 lazy load 。类似： apiVersion: hermes.cloudpilot.ai/v1alpha1 kind: HermesPolicy metadata: name: prod-large-images spec: paused: false imageSelectors: - imageRegex: ".*vllm.*" platforms: - linux/amd64 目前还比较早期，欢迎大家关注项目： https://github.com/cloudpilot-ai/hermes

把 10.8GB vLLM 镜像的 Pod Ready 从 4m35s 降到 14s： Hermes + SOCI lazy loading 实测

V2EX - 技术 · 2026-05-28 13:31:51+08:00 · tech

最近在看 Kubernetes 上 AI 推理服务的冷启动问题，发现很多时候慢的不只是模型加载，容器镜像本身也很夸张。比如 vLLM 这类镜像，里面有 PyTorch 、CUDA 、Python 依赖、系统库，动不动就是 10GB+。传统 containerd / overlayfs 路径下，节点要先完整下载并解压镜像，Pod 才能真正起来。对 Karpenter 这种弹性扩容场景来说，这部分时间会很明显。我们做了一个小项目 Hermes： https://github.com/cloudpilot-ai/hermes 想法是：不让业务团队改 Dockerfile 、不重建镜像、不改 CI/CD ，也不改原来的 image reference 。平台侧定义一个 HermesPolicy ，controller 在集群内自动为匹配到的镜像构建并缓存 SOCI index ，节点上的 daemon 再用这些 index 做 lazy loading 。这次用 EKS + Karpenter 跑了一个简单对比，镜像是： 763104351884.dkr.ecr.us-east-1.amazonaws.com/vllm:0.9-gpu-py312-ec2 大概 10.8GB 。普通节点上，从 Pod 调度到节点后，到容器 Running/Ready： 5m04s - 29s = 4m35s 开启 Hermes 的节点上，在 HermesPolicy 已经 Ready 、SOCI artifact 已经构建好的前提下： 44s - 30s = 14s 也就是这个场景里，镜像拉取/挂载到容器启动这段，从 4m35s 降到了 14s 。需要强调一下：这个结果不包含首次 index 构建耗时，也不等于 vLLM first token latency 。Pod Ready 变快，只说明容器镜像这条路径被 lazy loading 优化了。后面还需要继续测 vLLM readiness 、first request TTFT 、warmup 后真实请求延迟。 Hermes 现在的定位更像一个集群侧能力：应用继续发原来的 OCI image ，平台通过策略决定哪些镜像需要被 lazy load 。类似： apiVersion: hermes.cloudpilot.ai/v1alpha1 kind: HermesPolicy metadata: name: prod-large-images spec: paused: false imageSelectors: - imageRegex: ".*vllm.*" platforms: - linux/amd64 目前还比较早期，欢迎大家关注项目： https://github.com/cloudpilot-ai/hermes

相关专题

用AI仅10分钟就会让你变得懒惰和愚蠢

LinuxDo 最新话题 · 2026-05-12 09:01:46+08:00 · tech

原文链接： Using AI for Just 10 Minutes Might Make You Lazy and Dumb, Study Shows | WIRED 随着智能助手的普及，越来越多的人习惯将难题抛给AI处理。然而，一项由卡内基梅隆大学、麻省理工学院、牛津大学和加州大学洛杉矶分校研究人员共同完成的最新研究，为这种依赖行为敲响了警钟。研究结果显示，哪怕仅仅使用AI聊天机器人辅助10分钟，也可能对一个人的思考和解决问题能力产生显著的负面影响。研究人员通过在线平台组织了3场针对数百人的实验，测试任务涵盖了简单的分数计算和阅读理解等基础能力。实验过程设立了对照组，其中一部分参与者被允许使用能够自主解决问题的AI助手。令人关注的现象发生在AI助手被突然撤走之后：那些习惯了AI代劳的人，在面对接下来的难题时，放弃任务的比例显著升高，或者更容易在答案上出错。这表明，虽然AI能瞬间提升当下的工作效率，但代价可能是用户基础解决问题技能的退化。麻省理工学院的助理教授 Michiel Bakker 是这项研究的主要参与者。他指出，这项研究的核心结论并不是要在教育或办公场所全面禁用AI，因为AI在即时提高表现方面的价值是显而易见的。然而，我们应当更加谨慎地对待AI提供帮助的方式和时机。曾在谷歌深度思维工作的 Michiel Bakker 认为，当前的技术手段可能正在削弱人类应对困难时的持久力和学习动力。一个人面对困难时的坚持意愿，对于掌握新技能和长期学习能力至关重要，而那些直接给出答案的AI系统正在剥夺这种必要的心理磨练过程。这种过度依赖AI的认知风险在实际操作中已经有所体现。比如在处理复杂的计算机配置时，如果用户完全放弃了批判性思考，盲目执行AI建议的指令，很可能会导致系统崩溃。一个典型的案例显示，有用户在使用集成了 Codex 模型的 OpenClaw 助手修复系统网络问题时，由于完全照搬AI提供的驱动程序调整命令，最终导致电脑无法正常启动。这种将思考过程外包给工具的行为，不仅没能解决实际问题，还错失了让大脑在解决难题中获得成长的机会。为了应对这一潜在挑战， Michiel Bakker 认为有必要重新审视AI工具的运行逻辑。未来的AI模型应当像一名优秀的教师，优先考虑如何促进用户的学习，而不是简单地代为解决问题。与其直接提供最终结论，系统更应当通过搭建知识脚手架、教练式引导或提出启发性挑战来辅助用户。虽然目前 OpenAI公司等机构正在尝试调整 GPT 等模型的交互逻辑，使其不再只是盲目地迎合用户，但要真正防止人类核心认知的退化，还需要更深层次的改变。在2026年这个人工智能技术飞速发展的时代，保护人类独立解决问题的能力显得尤为紧迫。 5 个帖子 - 5 位参与者阅读完整话题

gpt-image-2生成宽图时有点奇怪的毛病

linux.do · 2026-04-23 00:13:51+08:00 · tech

这是原图 a lazy girl sitting by a desk in the afternoon, one hand gently resting on the tabletop, slightly leaning forward, warm sunlight streaming through the window, soft lighting and floating dust particles in the air, wind chimes swaying gently, slightly loose collar revealing subtle collarbone, long flowing hair, dreamy and slightly seductive gaze, calm yet intimate atmosphere, warm tones, soft focus, aesthetic, high resolution, delicate details 我想把这图扩宽一下, 变成桌面壁纸, 一扩就出问题 a lazy girl sitting by a desk in the afternoon, one hand resting on the tabletop, warm sunlight streaming through the window, wind chimes swaying gently, dreamy and intimate atmosphere, wide composition, subject placed slightly to the right, extend scene to both sides, more desk and window details, soft lighting, cinematic wallpaper, 16:9 aspect ratio, clean composition, high resolution a lazy girl sitting by a desk in the afternoon, one hand gently resting on the tabletop, slightly leaning forward, warm sunlight streaming through the window, soft lighting and floating dust particles in the air, wind chimes swaying gently, slightly loose collar revealing subtle collarbone, long flowing hair, dreamy and slightly seductive gaze, calm yet intimate atmosphere, warm tones, soft focus, aesthetic, high resolution, delicate details, wide composition, subject placed slightly to the right, extend scene to both sides, more desk and window details, soft lighting, cinematic wallpaper, 16:9 aspect ratio, clean composition, high resolution 最后只能在原图上编辑, 改成 Make the aspect ratio 16:9 , 这还是算效果最好的然后想改个动作, 继续在上面改成16:9的图片上编辑, 又出问题了, 总之就是不满意用右手撑着脸颊, 左手轻抚秀发 34 个帖子 - 13 位参与者阅读完整话题

/tag/lazy