第八代 - WWW.YOUINFO.SITE - WWW.YOUINFO.SITE

v2ex · 2026-05-24 14:23:21+08:00 · tech

Tikrok Services — 第八代微服务平台新网站 tikrok.cc 陆续更新中基于 gRPC + Gin 的微服务平台，采用 Go 多模块工作区 (go.work) 架构，通过 gen/ 接口隔离层实现 RPC 客户端与服务端实现解耦，共 15 个独立模块。第八代更新了什么与第七代相比，第八代主要围绕「内容交付」补齐了三个关键拼图： 1. 独立图片处理微服务从零搭建了 Image Service （ HTTP :9006 + gRPC :9056 ），基于 Go 原生 imaging 库实现生产级图片实时处理。支持裁剪、缩放、格式转换，本地 LRU 磁盘缓存（ 7 天 TTL ），信号量限流并发。Nginx 侧做了 proxy_cache 直连路由，图片直接走 nginx 缓存层，不经过 Gateway 。Markdown 内容中的 ref:media_id 引用自动解析为图片 URL——论坛帖子和教程终于能正常显示配图了。 2. TUS 协议大文件分段上传新增独立 TUS Upload Service （ HTTP :9007 ），支持断点续传、并发分片。前端上传大文件时中断了可以从断点继续，不用重新传。上传完成自动写入媒体资源库并触发 S3 归档。软件版本发布也改为 TUS 上传驱动——上传完成即发布。 3. QUIC 网关合并进 tunnel 服务之前 QUIC 数据平面是独立的 tikrokd-server ，维护两套部署太痛苦了。第八代将 QUIC 网关完整合并进 tunnel 服务，UDP listener 、HTTP/3 、TLS ALPN 协商（ h3/h2/http1.1/tikrok ）、流量统计、证书管理（ Let's Encrypt 自动签发）、速率限制全部整合在一个进程中。部署少一个组件，监控少一套指标。配套还补了开发者注册审核流程、管理员升级接口、20+ 个 Swagger API 文档更新、4 个数据库迁移。第八代的核心思路：内容上传（ TUS ）→ 内容存储（ S3 + 媒体资源管理）→ 内容消费（ Image Service 实时处理 + Nginx 缓存加速）这条链路终于完整了。

Google第八代TPU搭配2PB HBM 成功打破被视为AI瓶颈的内存墙

plink.anyfeeder.com · 2026-04-26 15:36:27+08:00 · tech

内存价格这一年来涨了3-5倍，已经严重影响了大家对PC和手机的消费意愿，而导致这次内存大涨价的元凶就是AI需求太猛。大家都知道AI对内存（GPU上算显存）的容量及带宽要求都很高，但具体能高到什么程度？Google前几天发布的第八代TPU就是最好的例子。今年的TPU v8首次针对训练及推理做了区分，V8T偏重AI训练，虽然Google说也可以做推理，但主要还是训练用的，每个Pod节点堆了9600个V8T芯片，FP4性能达到了121EFlops ，内存带宽19.2TB/s，芯片内部带宽400GB/s，几乎都是2-4倍的变化。 V8i主要面向AI推理负载，规格上要降不少，每个节点只有1152个V8i芯片，算力降低到了11.6EFlops，内存带宽19.2TB/s没变。值得注意的是，内存容量这次猛增了不少， V8i也达到331.8TB HBM内存，V8T更是夸张到了2PB HBM内存，每个V8T芯片配备了216GB HBM内存。 Google这次的设计理念是为了打破AI瓶颈的内存墙，2PB HBM不止是总容量超大那么简单，是在一个节点内作为单一全局地址使用，而NVIDIA的GPU此前虽然也能通过NVLink等技术堆出PB级的HBM内存，但连接也绕不过传统的数据中心网络，这会有性能及延迟瓶颈问题。 RobustCloud首席顾问Larry Carvalho表示，打破“内存墙”标志着Google在AI芯片领域的潜在重大竞争转变。但是对普通人来说，Google这次上2PB HBM内存可不是什么好现象，因为这意味着AI对内存的需求还在涨，要知道HBM内存通常要比常规的DDR内存多消耗2-4倍的DRAM芯片产能， HBM用量越多，挤占的DDR内存产能就越多。即便需求高涨，三星、SK海力士、美光等公司也会优先保证HBM需求，但他们此前明确了不会大幅提升芯片产能，显然内存芯片的紧缺状态还会更严重，价格是别指望快速降回来了。查看评论

Google第八代TPU首度拆分“训练”与“推理”双芯

plink.anyfeeder.com · 2026-04-23 13:06:23+08:00 · tech

4月23日消息，美国时间周三，Google正式宣布其第八代张量处理单元(TPU)迎来重大战略调整：首次将AI模型的“训练”与“推理”任务剥离，交由两款相互独立的专有芯片处理。这两款新一代处理器预计于今年晚些时候推向市场。此举标志着Google在AI硬件领域对英伟达发起的新一轮竞争。 “为什么要走向算力专属化？”Google高级副总裁兼AI与基础设施首席技术官阿明·瓦达特(AminVahdat)在一篇官方博文中表示，“随着AI智能体的兴起，我们认定针对训练和推理需求分别提供专门优化的芯片，将使整个技术生态受益。” 当前，AI推理速度正成为大厂博弈的核心战场。今年3月，英伟达大力宣传了即将推出的一款新芯片，该芯片能够让模型快速响应用户提问，而这主要归功于英伟达在斥资200亿美元收购芯片初创公司Groq的交易中所获得的技术。在此背景下，尽管Google仍是英伟达的主要客户，但其正通过向云服务企业提供TPU，构建替代性的算力方案。事实上，科技巨头亲自下场造芯、谋求算力自主已成行业共识。通过底层架构的深度定制，企业能够最大化特定应用场景的运行效率。从苹果多年来在iPhone中集成的神经网络引擎(Neural Engine)，到微软今年1月迭代的第二代AI芯片，再到Meta近期被曝出正与博通(Broadcom)联手研发多款AI处理器，无一不印证了这一趋势。在这场“造芯运动”中，Google堪称先驱。该公司于2015年开始部署自研AI处理器，并自2018年起通过云平台向外部客户提供算力服务。作为对比，亚马逊AWS于2018年和2020年分别推出了专用于推理的Inferentia芯片与专用于训练的Trainium处理器。投资银行D.A. Davidson分析师在去年9月的一份报告中预估，GoogleTPU业务与DeepMindAI部门的合并估值约为9000亿美元。目前，英伟达在AI算力市场仍占据绝对主导权。Google在此次发布中未直接对标英伟达的同类产品，但披露了自身的性能迭代数据：在同等成本下，新款训练芯片的性能是去年11月发布的第七代TPU(代号Ironwood)的2.8倍，新款推理芯片的性能则提升了80%。值得注意的是，在技术路线上，业界正不约而同地押注静态随机存取存储器(SRAM)。无论是英伟达即将推出的Groq 3 LPU，还是本月刚提交IPO申请的AI芯片独角兽Cerebras，均重度依赖该技术。Google此次推出的新款推理芯片TPU 8i也紧跟这一趋势，其单颗芯片的SRAM容量高达384MB，是上一代Ironwood的三倍之多。 Alphabet首席执行官桑达尔·皮查伊(Sundar Pichai)在博文中指出，新架构的设计目标在于“提供庞大的吞吐量(Throughput)与低延迟(Latency)，从而以极高的成本效益支持数百万个AI智能体并发运行”。终端应用方面，Google披露其AI芯片的商业化落地正在扩大。其中，做市商城堡证券(Citadel Securities)已基于TPU开发量化研究软件；美国能源部下属的17个国家实验室正全面部署基于该芯片的“AI协同科学家”(Co-scientist)系统。此外，AI初创公司Anthropic已承诺调用规模达数吉瓦(Gigawatts)的Google TPU算力资源。查看评论

/tag/第八代