个人认证费降了。 6 个帖子 - 6 位参与者 阅读完整话题
Claude Code最近的表现太差劲了,比Codex差多了,后面主力使用Codex,保留Claude Code Pro仅仅偶尔做模型交叉验证 3 个帖子 - 2 位参与者 阅读完整话题
m5 air 外接4k显示器压力这么大吗? 开165刷新直接就gpu 80多度了 降到60hz就温度一下下来了 到60度 加了一个usb的那种路由器风扇 温度降低到40度,(空调28度一致开着) 3 个帖子 - 2 位参与者 阅读完整话题
最近在看 Kubernetes 上 AI 推理服务的冷启动问题,发现很多时候慢的不只是模型加载,容器镜像本身也很夸张。 比如 vLLM 这类镜像,里面有 PyTorch 、CUDA 、Python 依赖、系统库,动不动就是 10GB+。传统 containerd / overlayfs 路径下,节点要先完整下载并解压镜像,Pod 才能真正起来。对 Karpenter 这种弹性扩容场景来说,这部分时间会很明显。 我们做了一个小项目 Hermes: https://github.com/cloudpilot-ai/hermes 想法是:不让业务团队改 Dockerfile 、不重建镜像、不改 CI/CD ,也不改原来的 image reference 。平台侧定义一个 HermesPolicy ,controller 在集群内自动为匹配到的镜像构建并缓存 SOCI index ,节点上的 daemon 再用这些 index 做 lazy loading 。 这次用 EKS + Karpenter 跑了一个简单对比,镜像是: 763104351884.dkr.ecr.us-east-1.amazonaws.com/vllm:0.9-gpu-py312-ec2 大概 10.8GB 。 普通节点上,从 Pod 调度到节点后,到容器 Running/Ready: 5m04s - 29s = 4m35s 开启 Hermes 的节点上,在 HermesPolicy 已经 Ready 、SOCI artifact 已经构建好的前提下: 44s - 30s = 14s 也就是这个场景里,镜像拉取/挂载到容器启动这段,从 4m35s 降到了 14s 。 需要强调一下:这个结果不包含首次 index 构建耗时,也不等于 vLLM first token latency 。Pod Ready 变快,只说明容器镜像这条路径被 lazy loading 优化了。后面还需要继续测 vLLM readiness 、first request TTFT 、warmup 后真实请求延迟。 Hermes 现在的定位更像一个集群侧能力:应用继续发原来的 OCI image ,平台通过策略决定哪些镜像需要被 lazy load 。类似: apiVersion: hermes.cloudpilot.ai/v1alpha1 kind: HermesPolicy metadata: name: prod-large-images spec: paused: false imageSelectors: - imageRegex: ".*vllm.*" platforms: - linux/amd64 目前还比较早期,欢迎大家关注项目: https://github.com/cloudpilot-ai/hermes
最近在看 Kubernetes 上 AI 推理服务的冷启动问题,发现很多时候慢的不只是模型加载,容器镜像本身也很夸张。 比如 vLLM 这类镜像,里面有 PyTorch 、CUDA 、Python 依赖、系统库,动不动就是 10GB+。传统 containerd / overlayfs 路径下,节点要先完整下载并解压镜像,Pod 才能真正起来。对 Karpenter 这种弹性扩容场景来说,这部分时间会很明显。 我们做了一个小项目 Hermes: https://github.com/cloudpilot-ai/hermes 想法是:不让业务团队改 Dockerfile 、不重建镜像、不改 CI/CD ,也不改原来的 image reference 。平台侧定义一个 HermesPolicy ,controller 在集群内自动为匹配到的镜像构建并缓存 SOCI index ,节点上的 daemon 再用这些 index 做 lazy loading 。 这次用 EKS + Karpenter 跑了一个简单对比,镜像是: 763104351884.dkr.ecr.us-east-1.amazonaws.com/vllm:0.9-gpu-py312-ec2 大概 10.8GB 。 普通节点上,从 Pod 调度到节点后,到容器 Running/Ready: 5m04s - 29s = 4m35s 开启 Hermes 的节点上,在 HermesPolicy 已经 Ready 、SOCI artifact 已经构建好的前提下: 44s - 30s = 14s 也就是这个场景里,镜像拉取/挂载到容器启动这段,从 4m35s 降到了 14s 。 需要强调一下:这个结果不包含首次 index 构建耗时,也不等于 vLLM first token latency 。Pod Ready 变快,只说明容器镜像这条路径被 lazy loading 优化了。后面还需要继续测 vLLM readiness 、first request TTFT 、warmup 后真实请求延迟。 Hermes 现在的定位更像一个集群侧能力:应用继续发原来的 OCI image ,平台通过策略决定哪些镜像需要被 lazy load 。类似: apiVersion: hermes.cloudpilot.ai/v1alpha1 kind: HermesPolicy metadata: name: prod-large-images spec: paused: false imageSelectors: - imageRegex: ".*vllm.*" platforms: - linux/amd64 目前还比较早期,欢迎大家关注项目: https://github.com/cloudpilot-ai/hermes
最近在看 Kubernetes 上 AI 推理服务的冷启动问题,发现很多时候慢的不只是模型加载,容器镜像本身也很夸张。 比如 vLLM 这类镜像,里面有 PyTorch 、CUDA 、Python 依赖、系统库,动不动就是 10GB+。传统 containerd / overlayfs 路径下,节点要先完整下载并解压镜像,Pod 才能真正起来。对 Karpenter 这种弹性扩容场景来说,这部分时间会很明显。 我们做了一个小项目 Hermes: https://github.com/cloudpilot-ai/hermes 想法是:不让业务团队改 Dockerfile 、不重建镜像、不改 CI/CD ,也不改原来的 image reference 。平台侧定义一个 HermesPolicy ,controller 在集群内自动为匹配到的镜像构建并缓存 SOCI index ,节点上的 daemon 再用这些 index 做 lazy loading 。 这次用 EKS + Karpenter 跑了一个简单对比,镜像是: 763104351884.dkr.ecr.us-east-1.amazonaws.com/vllm:0.9-gpu-py312-ec2 大概 10.8GB 。 普通节点上,从 Pod 调度到节点后,到容器 Running/Ready: 5m04s - 29s = 4m35s 开启 Hermes 的节点上,在 HermesPolicy 已经 Ready 、SOCI artifact 已经构建好的前提下: 44s - 30s = 14s 也就是这个场景里,镜像拉取/挂载到容器启动这段,从 4m35s 降到了 14s 。 需要强调一下:这个结果不包含首次 index 构建耗时,也不等于 vLLM first token latency 。Pod Ready 变快,只说明容器镜像这条路径被 lazy loading 优化了。后面还需要继续测 vLLM readiness 、first request TTFT 、warmup 后真实请求延迟。 Hermes 现在的定位更像一个集群侧能力:应用继续发原来的 OCI image ,平台通过策略决定哪些镜像需要被 lazy load 。类似: apiVersion: hermes.cloudpilot.ai/v1alpha1 kind: HermesPolicy metadata: name: prod-large-images spec: paused: false imageSelectors: - imageRegex: ".*vllm.*" platforms: - linux/amd64 目前还比较早期,欢迎大家关注项目: https://github.com/cloudpilot-ai/hermes
兄弟们有蹲的应该可以大胆冲了。好多天都是8299,刚刚改成7999了!我刚看还有保价10天。大佬们还可以看看自己的“免费服务”里面有没有“180天全保换新”,有这个的话就更赚了。 6 个帖子 - 4 位参与者 阅读完整话题
求问,今天怎么全网的Claude等渠道都在降价?昨天还是2.5 2.8 的awsbedrock今天就降到2上下了 3 个帖子 - 3 位参与者 阅读完整话题
我梦到一条联想的16G的ddr5内存条京东降到559¥了 7 个帖子 - 5 位参与者 阅读完整话题
一个 example.com 能耗半小时,都快降到 Gemini 水平了 开了两个 Pro 20x 账号,以为能爽用的,结果半个月就不行了 关闭续费了 真写代码还是只能 Claude
一个 example.com 能耗半小时,都快降到 Gemini 水平了 开了两个 Pro 20x 账号,以为能爽用的,结果半个月就不行了 关闭续费了 真写代码还是只能 Claude
一个 example.com 能耗半小时,都快降到 Gemini 水平了 开了两个 Pro 20x 账号,以为能爽用的,结果半个月就不行了 关闭续费了 真写代码还是只能 Claude
一个 example.com 能耗半小时,都快降到 Gemini 水平了 开了两个 Pro 20x 账号,以为能爽用的,结果半个月就不行了 关闭续费了 真写代码还是只能 Claude
一个 example.com 能耗半小时,都快降到 Gemini 水平了 开了两个 Pro 20x 账号,以为能爽用的,结果半个月就不行了 关闭续费了 真写代码还是只能 Claude
一个 example.com 能耗半小时,都快降到 Gemini 水平了 开了两个 Pro 20x 账号,以为能爽用的,结果半个月就不行了 关闭续费了 真写代码还是只能 Claude
一个 example.com 能耗半小时,都快降到 Gemini 水平了 开了两个 Pro 20x 账号,以为能爽用的,结果半个月就不行了 关闭续费了 真写代码还是只能 Claude
一个 example.com 能耗半小时,都快降到 Gemini 水平了 开了两个 Pro 20x 账号,以为能爽用的,结果半个月就不行了 关闭续费了 真写代码还是只能 Claude
一个 example.com 能耗半小时,都快降到 Gemini 水平了 开了两个 Pro 20x 账号,以为能爽用的,结果半个月就不行了 关闭续费了 真写代码还是只能 Claude
一个 example.com 能耗半小时,都快降到 Gemini 水平了 开了两个 Pro 20x 账号,以为能爽用的,结果半个月就不行了 关闭续费了 真写代码还是只能 Claude
地址 ai.centos.hk Claude特惠降到0.1 顺带说一下,我们正在和某个云厂商谈合作,如果谈成的话,后面会提供大量六折优惠的国产模型,例如deepseek、千问等等 大家可以加一下我们的交流群,经常会抽大额兑换码,比如昨天抽了520刀 点击链接加入群聊【星辰AI二群】: QQ群 14 个帖子 - 13 位参与者 阅读完整话题