WWW.YOUINFO.SITE
标签聚合 Kubernetes

/tag/Kubernetes

V2EX - 技术 · 2026-05-28 16:17:58+08:00 · tech

最近在看 Kubernetes 上 AI 推理服务的冷启动问题,发现很多时候慢的不只是模型加载,容器镜像本身也很夸张。 比如 vLLM 这类镜像,里面有 PyTorch 、CUDA 、Python 依赖、系统库,动不动就是 10GB+。传统 containerd / overlayfs 路径下,节点要先完整下载并解压镜像,Pod 才能真正起来。对 Karpenter 这种弹性扩容场景来说,这部分时间会很明显。 我们做了一个小项目 Hermes: https://github.com/cloudpilot-ai/hermes 想法是:不让业务团队改 Dockerfile 、不重建镜像、不改 CI/CD ,也不改原来的 image reference 。平台侧定义一个 HermesPolicy ,controller 在集群内自动为匹配到的镜像构建并缓存 SOCI index ,节点上的 daemon 再用这些 index 做 lazy loading 。 这次用 EKS + Karpenter 跑了一个简单对比,镜像是: 763104351884.dkr.ecr.us-east-1.amazonaws.com/vllm:0.9-gpu-py312-ec2 大概 10.8GB 。 普通节点上,从 Pod 调度到节点后,到容器 Running/Ready: 5m04s - 29s = 4m35s 开启 Hermes 的节点上,在 HermesPolicy 已经 Ready 、SOCI artifact 已经构建好的前提下: 44s - 30s = 14s 也就是这个场景里,镜像拉取/挂载到容器启动这段,从 4m35s 降到了 14s 。 需要强调一下:这个结果不包含首次 index 构建耗时,也不等于 vLLM first token latency 。Pod Ready 变快,只说明容器镜像这条路径被 lazy loading 优化了。后面还需要继续测 vLLM readiness 、first request TTFT 、warmup 后真实请求延迟。 Hermes 现在的定位更像一个集群侧能力:应用继续发原来的 OCI image ,平台通过策略决定哪些镜像需要被 lazy load 。类似: apiVersion: hermes.cloudpilot.ai/v1alpha1 kind: HermesPolicy metadata: name: prod-large-images spec: paused: false imageSelectors: - imageRegex: ".*vllm.*" platforms: - linux/amd64 目前还比较早期,欢迎大家关注项目: https://github.com/cloudpilot-ai/hermes

V2EX - 技术 · 2026-05-28 16:17:58+08:00 · tech

最近在看 Kubernetes 上 AI 推理服务的冷启动问题,发现很多时候慢的不只是模型加载,容器镜像本身也很夸张。 比如 vLLM 这类镜像,里面有 PyTorch 、CUDA 、Python 依赖、系统库,动不动就是 10GB+。传统 containerd / overlayfs 路径下,节点要先完整下载并解压镜像,Pod 才能真正起来。对 Karpenter 这种弹性扩容场景来说,这部分时间会很明显。 我们做了一个小项目 Hermes: https://github.com/cloudpilot-ai/hermes 想法是:不让业务团队改 Dockerfile 、不重建镜像、不改 CI/CD ,也不改原来的 image reference 。平台侧定义一个 HermesPolicy ,controller 在集群内自动为匹配到的镜像构建并缓存 SOCI index ,节点上的 daemon 再用这些 index 做 lazy loading 。 这次用 EKS + Karpenter 跑了一个简单对比,镜像是: 763104351884.dkr.ecr.us-east-1.amazonaws.com/vllm:0.9-gpu-py312-ec2 大概 10.8GB 。 普通节点上,从 Pod 调度到节点后,到容器 Running/Ready: 5m04s - 29s = 4m35s 开启 Hermes 的节点上,在 HermesPolicy 已经 Ready 、SOCI artifact 已经构建好的前提下: 44s - 30s = 14s 也就是这个场景里,镜像拉取/挂载到容器启动这段,从 4m35s 降到了 14s 。 需要强调一下:这个结果不包含首次 index 构建耗时,也不等于 vLLM first token latency 。Pod Ready 变快,只说明容器镜像这条路径被 lazy loading 优化了。后面还需要继续测 vLLM readiness 、first request TTFT 、warmup 后真实请求延迟。 Hermes 现在的定位更像一个集群侧能力:应用继续发原来的 OCI image ,平台通过策略决定哪些镜像需要被 lazy load 。类似: apiVersion: hermes.cloudpilot.ai/v1alpha1 kind: HermesPolicy metadata: name: prod-large-images spec: paused: false imageSelectors: - imageRegex: ".*vllm.*" platforms: - linux/amd64 目前还比较早期,欢迎大家关注项目: https://github.com/cloudpilot-ai/hermes

V2EX - 技术 · 2026-05-28 13:31:51+08:00 · tech

最近在看 Kubernetes 上 AI 推理服务的冷启动问题,发现很多时候慢的不只是模型加载,容器镜像本身也很夸张。 比如 vLLM 这类镜像,里面有 PyTorch 、CUDA 、Python 依赖、系统库,动不动就是 10GB+。传统 containerd / overlayfs 路径下,节点要先完整下载并解压镜像,Pod 才能真正起来。对 Karpenter 这种弹性扩容场景来说,这部分时间会很明显。 我们做了一个小项目 Hermes: https://github.com/cloudpilot-ai/hermes 想法是:不让业务团队改 Dockerfile 、不重建镜像、不改 CI/CD ,也不改原来的 image reference 。平台侧定义一个 HermesPolicy ,controller 在集群内自动为匹配到的镜像构建并缓存 SOCI index ,节点上的 daemon 再用这些 index 做 lazy loading 。 这次用 EKS + Karpenter 跑了一个简单对比,镜像是: 763104351884.dkr.ecr.us-east-1.amazonaws.com/vllm:0.9-gpu-py312-ec2 大概 10.8GB 。 普通节点上,从 Pod 调度到节点后,到容器 Running/Ready: 5m04s - 29s = 4m35s 开启 Hermes 的节点上,在 HermesPolicy 已经 Ready 、SOCI artifact 已经构建好的前提下: 44s - 30s = 14s 也就是这个场景里,镜像拉取/挂载到容器启动这段,从 4m35s 降到了 14s 。 需要强调一下:这个结果不包含首次 index 构建耗时,也不等于 vLLM first token latency 。Pod Ready 变快,只说明容器镜像这条路径被 lazy loading 优化了。后面还需要继续测 vLLM readiness 、first request TTFT 、warmup 后真实请求延迟。 Hermes 现在的定位更像一个集群侧能力:应用继续发原来的 OCI image ,平台通过策略决定哪些镜像需要被 lazy load 。类似: apiVersion: hermes.cloudpilot.ai/v1alpha1 kind: HermesPolicy metadata: name: prod-large-images spec: paused: false imageSelectors: - imageRegex: ".*vllm.*" platforms: - linux/amd64 目前还比较早期,欢迎大家关注项目: https://github.com/cloudpilot-ai/hermes

v2ex · 2026-05-24 00:09:37+08:00 · tech

Elden Linux / Kubernetes / Network Troubleshooting / Cloud / DevOps Engineer 邮箱: [email protected] 语言:粤语(母语)|普通话(母语)|英语(流利) 个人简介 具备 Linux 生产环境运维与稳定性保障经验,长期负责电商系统、Web 架构、云端服务与 Kubernetes 集群的故障排查、性能优化与日常运维。 擅长在生产环境中快速定位问题根因,能从网络、进程、线程、系统调用与应用逻辑多层协同分析,处理延迟、卡顿、连接堆积与资源瓶颈等问题。 独立维护过 1 个 8 节点 Kubernetes 集群,并完成 WordPress / WooCommerce 、阿里云 OSS 、CDN 、WebP 、SSL 、缓存与 SEO 等全案优化,直接改善网站访问速度与运维成本。 持有 CKA 与 CCNA ,具备云端迁移、容器化、网络排障与运维自动化能力,适合 Linux Infra 、DevOps 、Cloud Ops 、Platform 类岗位。 核心能力 生产排障与根因分析:能沿着“流量 → socket → 进程 → 线程 → 系统调用 → 应用行为”链路定位问题,不停留在表面现象。 Linux 网络与性能观测:擅长判断网卡、softirq 、socket backlog 、连接状态与进程资源归属,区分网络、内核、进程与应用问题。 多线程进程分析:能用进程与线程视角找出真正消耗资源的工作单元,分析锁等待、I/O 阻塞与 epoll 行为。 Kubernetes 与入口流量:理解 Ingress Nginx 、路由、TLS 与负载均衡,能处理集群入口与上游服务问题。 Web 性能优化:能独立完成 WordPress / WooCommerce 的静态资源、图片分发、缓存与 SSL 优化。 云平台与自动化:熟悉阿里云 ECS / RDS / OSS 、Shell / Python 自动化、GitHub Actions 、Docker 与基础 CI/CD 。

v2ex · 2026-05-14 19:24:34+08:00 · tech

Elden Linux / Kubernetes / Network Troubleshooting / Cloud / DevOps Engineer 电话:+86 18023186848 邮箱: [email protected] 语言:粤语(母语)|普通话(母语)|英语(流利) 个人简介 具备 8 年 Linux 生产环境运维与稳定性保障经验,长期负责电商系统、Web 架构、云端服务与 Kubernetes 集群的故障排查、性能优化与日常运维。 擅长在生产环境中快速定位问题根因,能从网络、进程、线程、系统调用与应用逻辑多层协同分析,处理延迟、卡顿、连接堆积与资源瓶颈等问题。 独立维护过 1 个 8 节点 Kubernetes 集群,并完成 WordPress / WooCommerce 、阿里云 OSS 、CDN 、WebP 、SSL 、缓存与 SEO 等全案优化,直接改善网站访问速度与运维成本。 持有 CKA 与 CCNA ,具备云端迁移、容器化、网络排障与运维自动化能力,适合 Linux Infra 、DevOps 、Cloud Ops 、Platform 类岗位。 核心能力 生产排障与根因分析:能沿着“流量 → socket → 进程 → 线程 → 系统调用 → 应用行为”链路定位问题,不停留在表面现象。 Linux 网络与性能观测:擅长判断网卡、softirq 、socket backlog 、连接状态与进程资源归属,区分网络、内核、进程与应用问题。 多线程进程分析:能用进程与线程视角找出真正消耗资源的工作单元,分析锁等待、I/O 阻塞与 epoll 行为。 Kubernetes 与入口流量:理解 Ingress Nginx 、路由、TLS 与负载均衡,能处理集群入口与上游服务问题。 Web 性能优化:能独立完成 WordPress / WooCommerce 的静态资源、图片分发、缓存与 SSL 优化。 云平台与自动化:熟悉阿里云 ECS / RDS / OSS 、Shell / Python 自动化、GitHub Actions 、Docker 与基础 CI/CD 。

V2EX - 技术 · 2026-05-11 13:21:02+08:00 · tech

最近折腾了一个小工具,名字叫:kop 它是一个运行在终端里的 Kubernetes TUI ( Terminal UI )工具,可以理解成「终端版 Kubernetes 管理面板」。 灵感最早来自于 lens,但在实际使用过程中,我发现很多场景下我想要的是: 更轻量 更直观 更适合 DevOps/SRE 日常排障 在没有桌面环境的终端中运行 于是就自己开始写了 kop 。整体风格类似 lens ,但是 UI 在终端中呈现,可使用鼠标点击操作 目前已经支持的功能 资源管理 查看资源列表 查看资源详细信息 资源的增删改查 查看 pod logs 进入 pod 终端 pod/service 端口转发 .... kop 已经实现了大部分和 lens 相同的功能 为什么不用 Web UI 和桌面客户端? kop 主要解决在没有桌面环境和私有化场景下的 k8s 运维工作,web 和桌面客户端在某些场景下可能不适用。 这些环境里: Terminal UI 的效率其实非常高。 尤其是: 不依赖浏览器 不依赖鼠标 不占太多资源 SSH 环境直接可用 项目地址 GitHub: kop Github 文档: kop Docs 如果你平时也经常: kubectl Kubernetes 运维 云原生开发 DevOps/SRE 喜欢 Terminal UI 欢迎体验一下,目前正在持续优化中,也欢迎提建议。 🚀

V2EX - 技术 · 2026-05-11 13:21:02+08:00 · tech

最近折腾了一个小工具,名字叫:kop 它是一个运行在终端里的 Kubernetes TUI ( Terminal UI )工具,可以理解成「终端版 Kubernetes 管理面板」。 灵感最早来自于 lens,但在实际使用过程中,我发现很多场景下我想要的是: 更轻量 更直观 更适合 DevOps/SRE 日常排障 在没有桌面环境的终端中运行 于是就自己开始写了 kop 。整体风格类似 lens ,但是 UI 在终端中呈现,可使用鼠标点击操作 目前已经支持的功能 资源管理 查看资源列表 查看资源详细信息 资源的增删改查 查看 pod logs 进入 pod 终端 pod/service 端口转发 .... kop 已经实现了大部分和 lens 相同的功能 为什么不用 Web UI 和桌面客户端? kop 主要解决在没有桌面环境和私有化场景下的 k8s 运维工作,web 和桌面客户端在某些场景下可能不适用。 这些环境里: Terminal UI 的效率其实非常高。 尤其是: 不依赖浏览器 不依赖鼠标 不占太多资源 SSH 环境直接可用 项目地址 GitHub: kop Github 文档: kop Docs 如果你平时也经常: kubectl Kubernetes 运维 云原生开发 DevOps/SRE 喜欢 Terminal UI 欢迎体验一下,目前正在持续优化中,也欢迎提建议。 🚀

V2EX - 技术 · 2026-05-11 12:21:02+08:00 · tech

最近折腾了一个小工具,名字叫:kop 它是一个运行在终端里的 Kubernetes TUI ( Terminal UI )工具,可以理解成「终端版 Kubernetes 管理面板」。 灵感最早来自于 lens,但在实际使用过程中,我发现很多场景下我想要的是: 更轻量 更直观 更适合 DevOps/SRE 日常排障 在没有桌面环境的终端中运行 于是就自己开始写了 kop 。整体风格类似 lens ,但是 UI 在终端中呈现,可使用鼠标点击操作 目前已经支持的功能 资源管理 查看资源列表 查看资源详细信息 资源的增删改查 查看 pod logs 进入 pod 终端 pod/service 端口转发 .... kop 已经实现了大部分和 lens 相同的功能 为什么不用 Web UI 和桌面客户端? kop 主要解决在没有桌面环境和私有化场景下的 k8s 运维工作,web 和桌面客户端在某些场景下可能不适用。 这些环境里: Terminal UI 的效率其实非常高。 尤其是: 不依赖浏览器 不依赖鼠标 不占太多资源 SSH 环境直接可用 项目地址 GitHub: kop Github 文档: kop Docs 如果你平时也经常: kubectl Kubernetes 运维 云原生开发 DevOps/SRE 喜欢 Terminal UI 欢迎体验一下,目前正在持续优化中,也欢迎提建议。 🚀

V2EX - 技术 · 2026-05-11 11:21:02+08:00 · tech

最近折腾了一个小工具,名字叫:kop 它是一个运行在终端里的 Kubernetes TUI ( Terminal UI )工具,可以理解成「终端版 Kubernetes 管理面板」。 灵感最早来自于 lens,但在实际使用过程中,我发现很多场景下我想要的是: 更轻量 更直观 更适合 DevOps/SRE 日常排障 在没有桌面环境的终端中运行 于是就自己开始写了 kop 。整体风格类似 lens ,但是 UI 在终端中呈现,可使用鼠标点击操作 目前已经支持的功能 资源管理 查看资源列表 查看资源详细信息 资源的增删改查 查看 pod logs 进入 pod 终端 pod/service 端口转发 .... kop 已经实现了大部分和 lens 相同的功能 为什么不用 Web UI 和桌面客户端? kop 主要解决在没有桌面环境和私有化场景下的 k8s 运维工作,web 和桌面客户端在某些场景下可能不适用。 这些环境里: Terminal UI 的效率其实非常高。 尤其是: 不依赖浏览器 不依赖鼠标 不占太多资源 SSH 环境直接可用 项目地址 GitHub: kop Github 文档: kop Docs 如果你平时也经常: kubectl Kubernetes 运维 云原生开发 DevOps/SRE 喜欢 Terminal UI 欢迎体验一下,目前正在持续优化中,也欢迎提建议。 🚀

v2ex.com · 2026-04-20 10:25:46+08:00 · tech

做运维的同学应该都懂那种感受:kubectl 的敲多了难受,Web Dashboard 寄存于浏览器也有很多限制。 所以我自己做了个桌面端的 K8S 工具:Kite Desktop ,基于 Wails v3 ( Go + React ),可以来看看是否合你的胃口。 GitHub: https://github.com/eryajf/kite-desktop 目前 v0.1.8 ,半个月已迭代 9 个版本,持续更新中。 核心功能: 多集群一键切换,kubeconfig 自动发现 Pod/Deployment/Service 等全资源可视化管理 内置 Monaco 编辑器直接改 YAML Web 终端,不用再手敲 port-forward 内置 AI Sidecar ,历史会话持久化 快捷键,高频操作支持快捷键,快人一步。 欢迎试用,欢迎 Star ⭐

v2ex.com · 2026-04-20 09:55:24+08:00 · tech

做运维的同学应该都懂那种感受:kubectl 的敲多了难受,Web Dashboard 寄存于浏览器也有很多限制。 所以我自己做了个桌面端的 K8S 工具:Kite Desktop ,基于 Wails v3 ( Go + React ),可以来看看是否合你的胃口。 GitHub: https://github.com/eryajf/kite-desktop 目前 v0.1.8 ,半个月已迭代 9 个版本,持续更新中。 核心功能: 多集群一键切换,kubeconfig 自动发现 Pod/Deployment/Service 等全资源可视化管理 内置 Monaco 编辑器直接改 YAML Web 终端,不用再手敲 port-forward 内置 AI Sidecar ,历史会话持久化 快捷键,高频操作支持快捷键,快人一步。 欢迎试用,欢迎 Star ⭐

v2ex.com · 2026-04-20 09:32:18+08:00 · tech

做运维的同学应该都懂那种感受:kubectl 的敲多了难受,Web Dashboard 寄存于浏览器也有很多限制。 所以我自己做了个桌面端的 K8S 工具:Kite Desktop ,基于 Wails v3 ( Go + React ),可以来看看是否合你的胃口。 GitHub: https://github.com/eryajf/kite-desktop 目前 v0.1.8 ,半个月已迭代 9 个版本,持续更新中。 核心功能: 多集群一键切换,kubeconfig 自动发现 Pod/Deployment/Service 等全资源可视化管理 内置 Monaco 编辑器直接改 YAML Web 终端,不用再手敲 port-forward 内置 AI Sidecar ,历史会话持久化 快捷键,高频操作支持快捷键,快人一步。 欢迎试用,欢迎 Star ⭐