WWW.YOUINFO.SITE
标签聚合 算子

/tag/算子

v2ex.com · 2026-04-26 17:13:46+08:00 · tech

关于太初电子科技 太初(无锡)电子科技有限公司,自 2019 年成立以来,始终坚持以“铸造中国算力基石,构建未来智能世界”为使命,立足于高性能计算产业核心基座,布局自主可控、通用开放、性能完善的先进智能计算生态。面向政府和企业用户,建设高性能、高能效、高可靠的智能算力系统,深度定制 HPC+AI 关键领域解决方案,覆盖软硬件研发、算力系统设计和集成等智算中心建设全流程。 We are hiring 系统架构师 岗位职责: 参与并主导 Tecorigin 异构众核加速器架构下的操作系统整体架构设计与实现; 负责异构众核片上操作系统的内核开发、裁剪、移植与性能优化,服务于高效的并行编程模型; 支持软硬件协同设计,深入参与从硬件接口定义到操作系统支撑的一体化方案设计;参与或指导面向异构加速平台的系统生态,包括驱动、运行时等系统软件栈的设计; 跟踪操作系统及系统软件领域的最新技术演进趋势,参与下一代软硬件协同架构的创新与实现; 分析与解决系统级疑难问题,支持关键业务系统的稳定性与性能优化; 任职资格要求: 1. 重点本科及以上学历,计算机、软件工程、微电子等相关专业; 2. 5 年以上操作系统内核开发经验,精通 Linux 内核架构与核心子系统(内存管理、进程调度、IO 子系统等); 3. 熟悉 Linux 驱动开发、性能调优,具备良好的内核调试能力; 4. 熟悉异构多核、众核架构,理解 SoC 中 CPU 、加速核、DMA 、互联总线等协同机制; 5. 有 RISC-V 或 ARM 架构背景者优先,理解 PCIe 、高速互联等底层机制; 6. 熟悉高并发、并行计算或分布式系统软件设计,了解异构加速编程模型(如 CUDA/GPU 软件栈、OpenCL 、OpenMP 等); 7. 具备良好的技术视野和系统级思考能力,能够从平台角度提出架构改进建议。 芯片验证工程师 岗位职责: 1.负责芯片的整体验证; 2.制定验证规格和验证方案,并搭建验证平台; 3.制定验证计划,整体负责项目验证工作,管理验证进度; 4.负责覆盖率收敛,并设计和编写测试用例完成 signoff 前的 cross-check ,输出整体验证报告; 5.负责组织项目的前、后仿工作; 6.负责 FPGA 和 emulator 的验证环境; 7.支持芯片的样片和量产测试。 职位要求: 1.5 年以上 IC 验证经验,微电子、计算机、电子、通信等相关专业,重点大学硕士及以上学历; 2.熟悉 SoC 验证流程,具备丰富的 IP/SOC 验证以及成功流片的经验; 3.熟悉 SystemVerilog 和 UVM 验证方法学; 4.熟悉 AXI/APB/AHB 等总线协议; 5.熟悉时钟、复位以及低功耗验证; 6.熟悉门级时序仿真; 7.能够识别项目风险点,具备团队协作精神,思路清晰,爱钻研,具备抗压能力; 8.具有较好的脚本编程能力。 AI 编译工程师 岗位职责 1.在太初 AI 架构上适配和优化 Triton 编译器; 2.基于 MLIR + Linalg 框架,提升编译器代码执行效率; 3.参与 图优化、后端代码生成、调度策略、指令优化、流水并行化 相关优化工作; 4.研究和优化 Kernel 计算性能,降低计算开销,提高吞吐率; 5.研究算子融合( Op Fusion )、自动调优( Auto-Tuning )、代码生成( CodeGen ) 相关优化策略; 6.与 硬件团队、AI 框架团队(如 PyTorch ) 协作,提升 AI 编译器的支持能力; 7.跟踪 LLVM 、Triton 、TVM 、XLA 、TorchInductor 等 AI 编译器前沿技术,优化编译性能。 任职要求 1.优秀的学习能力,对 AI 编译器、AI 计算优化有浓厚兴趣; 2.熟悉 C++/Python ,具备编译器或 AI 编译优化开发经验,熟悉 Triton 编译流程; 3.熟悉 MLIR 、Linalg 等基础设施; 4.具备 ai 编译优化(如 TVM 、XLA 、TorchInductor ) 经验者优先; 5.熟悉 Kernel 计算优化、算子融合、自动并行化等高性能计算优化策略者加分。 加分项(优先考虑) 1.参与过 Triton 、MLIR 、IREE 、XLA 、TVM 、TorchInductor 等编译器的开发,或在 GitHub 提交过相关 PR 。 2.具备 MLU/NPU/GPU 相关的编译优化经验。 更多岗位可以查看社招和校招官网: 社招: https://app.mokahr.com/social-recruitment/tecorigin/47401#/ 校招: https://app.mokahr.com/campus-recruitment/tecorigin/47402#/ 内推联系:Z290b3Jpb24=

linux.do · 2026-04-23 18:03:45+08:00 · tech

DeepSeek 于 4 月 22 日开源高性能 GPU 算子库 TileKernels,该项目基于 TileLang 开发。该库针对大语言模型(LLM)的训练与推理进行了深度优化,其算子性能已接近硬件计算强度与内存带宽的极限。 TileKernels 涵盖了 MoE 路由、FP8/FP4 量化及多种融合算子,并已在 DeepSeek 内部环境投入使用。该库目前适配 NVIDIA SM90 及最新的 SM100(Blackwell)架构,运行环境要求 CUDA 13.1 及以上版本。 Github 1 个帖子 - 1 位参与者 阅读完整话题

linux.do · 2026-04-23 17:29:18+08:00 · tech

DeepSeek于刚刚在GitHub上开源了名为 TileKernels 的GPU算子项目,该仓库以MIT协议发布,定位为面向大语言模型训练与推理场景的高性能GPU算子集合,底层基于TileLang构建。作者署名包括王翔文、徐晨浩、曹焕琪、田瑞、赵伟霖、余快与赵成钢。 github.com GitHub - deepseek-ai/TileKernels: A kernel library written in tilelang A kernel library written in tilelang 据仓库README介绍, TileLang 是一种用于在Python中表达高性能GPU算子的领域特定语言,具备易迁移、敏捷开发与自动优化的特性。项目方表示,库中大部分算子在算力强度与显存带宽方面已接近硬件性能极限,其中部分算子已应用于DeepSeek内部的训练与推理流程;不过官方也注明这些代码并不代表最佳实践,目前仍在持续改进代码质量与文档。 运行环境方面,项目要求Python 3.10及以上、PyTorch 2.10及以上、TileLang 0.1.9及以上,并需配备NVIDIA SM90或SM100架构GPU以及CUDA 13.1以上工具链。 8 个帖子 - 8 位参与者 阅读完整话题

linux.do · 2026-04-17 18:07:37+08:00 · tech

本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容: 我的帖子已经打上 开源推广 标签: 是 我的开源项目完整开源,无未开源部分: 是 我的开源项目已链接认可 LINUX DO 社区: 是 我帖子内的项目介绍,AI生成、润色内容部分已截图发出: 是 以上选择我承诺是永久有效的,接受社区和佬友监督: 是 以下为项目介绍正文内容,AI生成、润色内容已使用截图方式发出 上次发帖忘记加模板被始皇狠狠指点了,虽然是系列之三但这次还是加上模板。 月经贴又来力 已测试的模型: google\gemma-4-E4B-it Intel\Qwen3.5-2B-int4-AutoRound Intel\Qwen3.5-35B-A3B-int4-AutoRound Jackrong\Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-v2 Qwen\Qwen3-TTS-12Hz-1.7B-Base 这个月着重于解决MoE模型的运行乱码问题、Turboquant适配。 1、 具备生产能力的 Qwen-3.5-35B-A3B 模型太大,不能全丢进显存里面。必须做 CPU-XPU 混合推理,也就是专家层放在内存里,需要时再调到 XPU,这个机制其实很多推理引擎已经有对应的"cpu-offload"实现了。 2、 MoE 的性能卡点主要出现在 decode 阶段。对 MoE 实施混合推理推理设计,decode 每走一步都可能要重新选专家,所以特别容易被CPU-XPU之间的数据搬运环节拖慢,由于开发环境在平时打游戏的PC上,内存频率受限3200Mhz,所以现在运行 35B-A3B 的输出速度只有 1 tokens/s 。 3、 所有的模型权重都转换成项目内部兼容 XPU 的 int4 布局,节省资源。 项目内自定义算子的设计(如何自己写算子): 1、 gated_delta_fused_op.sycl 里通过 TORCH_LIBRARY 注册算子名字和参数形式,让项目能在Pytorch上运行。 2、 同时提供 Meta 和 XPU 两套。Meta 实现不真正计算,只负责告诉 PyTorch“输出长什么样”;XPU 实现才是真正在 Intel XPU 上跑的 kernel。 3、 Python 侧只负责“接线”,因为性能表现 太垃圾 。 fused_ops.py 负责加载 .pyd 动态库、暴露 run_xxx_fused() 这类包装函数。ops.py 再把这些 fused op 接到模型真实的 forward 调用链上。 4、 构建链路依赖 oneAPI + PyTorch XPU( 最终还是脱离不了Intel官方提供的技术栈,因为这一部分实现比较完整,自己弄CPP太耗时间了,一个人做不了 ) build_gated_delta_fused_op.py 会调用 dpcpp 编译出 .pyd,再动态加载到 torch.ops.anna 命名空间。 5、 所有算子都要非常严格地检查输入的维度信息、dtype、device、是否 contiguous 以及 shape 是否匹配。自定义算子一旦吃到错误输入,往往不是普通报错中断,而是直接结果错乱,包括输出乱码、思维链循环、甚至直接不输出任何内容。 6、 项目里很多输入虽然是 bf16/fp16,但中间经常要用 float32。避免模型出现乱码、异常重复、输出不稳定的清空。 7、 对 MoE 来说,路由、dispatch、scatter、专家缓存、专家搬运,常常比矩阵乘本身更影响速度。所以项目里不仅做了 GEMM 算子,还做了 router、dispatch、scatter 这些算子。 8、 测试选用的 AutoRound 量化模型导出的 int4 权重格式,不等于项目内部适合 XPU 直接算的 int4 格式。因此还有一层转换来做兼容化。 结构是: gated_delta_fused_op.sycl - 真正写 XPU 核心计算逻辑的地方 。 fused_ops.py - Python 到自定义算子的桥接层 。 ops.py - 模型真正调用这些算子的地方 。 build_gated_delta_fused_op.py - 负责编译和注册自定义算子 。 用 NotebookLM 内的 Nanobanana 2 帮忙画的简图 1 个帖子 - 1 位参与者 阅读完整话题