算子 - WWW.YOUINFO.SITE - WWW.YOUINFO.SITE

LinuxDo 最新话题 · 2026-05-10 22:08:14+08:00 · tech

请问下各位佬友，做高性能计算算子优化，想找个能租赁 AMD GPU 的平台测一下数据，尤其是： MI210 MI250 / MI250X MI300X 这种卡目前看了一圈，发现 NVIDIA 平台很多，但 AMD GPU 真不好找，国内更少不知道各位佬友有没有什么推荐的 AMD GPU 租赁平台 4 个帖子 - 3 位参与者阅读完整话题

有没有佬友研究WorldQuant

LinuxDo 最新话题 · 2026-05-08 11:07:15+08:00 · tech

如题我在研究自动化挖掘aplha的时候遇到了问题就是agent没办法用新算子来挖掘aplha，新算子的指标合格率太低了有没有佬友一起研究下 1 个帖子 - 1 位参与者阅读完整话题

tilelang前景与国产替代

linux.do · 2026-04-26 17:16:04+08:00 · tech

DS3.2开始使用tilelang写算子，开发效率和执行效率都有提升想问论坛的佬怎么看这个项目我看生态位tilelang是cuda以上的，感觉对于国产的意义巨大 1 个帖子 - 1 位参与者阅读完整话题

[酷工作] [北京上海无锡]基础框架/高性能算子多个方向

v2ex.com · 2026-04-26 17:13:46+08:00 · tech

关于太初电子科技太初（无锡）电子科技有限公司，自 2019 年成立以来，始终坚持以“铸造中国算力基石，构建未来智能世界”为使命，立足于高性能计算产业核心基座，布局自主可控、通用开放、性能完善的先进智能计算生态。面向政府和企业用户，建设高性能、高能效、高可靠的智能算力系统，深度定制 HPC+AI 关键领域解决方案，覆盖软硬件研发、算力系统设计和集成等智算中心建设全流程。 We are hiring 系统架构师岗位职责：参与并主导 Tecorigin 异构众核加速器架构下的操作系统整体架构设计与实现；负责异构众核片上操作系统的内核开发、裁剪、移植与性能优化，服务于高效的并行编程模型；支持软硬件协同设计，深入参与从硬件接口定义到操作系统支撑的一体化方案设计；参与或指导面向异构加速平台的系统生态，包括驱动、运行时等系统软件栈的设计；跟踪操作系统及系统软件领域的最新技术演进趋势，参与下一代软硬件协同架构的创新与实现；分析与解决系统级疑难问题，支持关键业务系统的稳定性与性能优化；任职资格要求： 1. 重点本科及以上学历，计算机、软件工程、微电子等相关专业； 2. 5 年以上操作系统内核开发经验，精通 Linux 内核架构与核心子系统（内存管理、进程调度、IO 子系统等）； 3. 熟悉 Linux 驱动开发、性能调优，具备良好的内核调试能力； 4. 熟悉异构多核、众核架构，理解 SoC 中 CPU 、加速核、DMA 、互联总线等协同机制； 5. 有 RISC-V 或 ARM 架构背景者优先，理解 PCIe 、高速互联等底层机制； 6. 熟悉高并发、并行计算或分布式系统软件设计，了解异构加速编程模型（如 CUDA/GPU 软件栈、OpenCL 、OpenMP 等）； 7. 具备良好的技术视野和系统级思考能力，能够从平台角度提出架构改进建议。芯片验证工程师岗位职责： 1.负责芯片的整体验证； 2.制定验证规格和验证方案，并搭建验证平台； 3.制定验证计划，整体负责项目验证工作，管理验证进度； 4.负责覆盖率收敛，并设计和编写测试用例完成 signoff 前的 cross-check ，输出整体验证报告； 5.负责组织项目的前、后仿工作； 6.负责 FPGA 和 emulator 的验证环境； 7.支持芯片的样片和量产测试。职位要求： 1.5 年以上 IC 验证经验，微电子、计算机、电子、通信等相关专业，重点大学硕士及以上学历； 2.熟悉 SoC 验证流程，具备丰富的 IP/SOC 验证以及成功流片的经验； 3.熟悉 SystemVerilog 和 UVM 验证方法学； 4.熟悉 AXI/APB/AHB 等总线协议； 5.熟悉时钟、复位以及低功耗验证； 6.熟悉门级时序仿真； 7.能够识别项目风险点，具备团队协作精神，思路清晰，爱钻研，具备抗压能力； 8.具有较好的脚本编程能力。 AI 编译工程师岗位职责 1.在太初 AI 架构上适配和优化 Triton 编译器； 2.基于 MLIR + Linalg 框架，提升编译器代码执行效率； 3.参与图优化、后端代码生成、调度策略、指令优化、流水并行化相关优化工作； 4.研究和优化 Kernel 计算性能，降低计算开销，提高吞吐率； 5.研究算子融合（ Op Fusion ）、自动调优（ Auto-Tuning ）、代码生成（ CodeGen ）相关优化策略； 6.与硬件团队、AI 框架团队（如 PyTorch ）协作，提升 AI 编译器的支持能力； 7.跟踪 LLVM 、Triton 、TVM 、XLA 、TorchInductor 等 AI 编译器前沿技术，优化编译性能。任职要求 1.优秀的学习能力，对 AI 编译器、AI 计算优化有浓厚兴趣； 2.熟悉 C++/Python ，具备编译器或 AI 编译优化开发经验，熟悉 Triton 编译流程； 3.熟悉 MLIR 、Linalg 等基础设施； 4.具备 ai 编译优化（如 TVM 、XLA 、TorchInductor ）经验者优先； 5.熟悉 Kernel 计算优化、算子融合、自动并行化等高性能计算优化策略者加分。加分项（优先考虑） 1.参与过 Triton 、MLIR 、IREE 、XLA 、TVM 、TorchInductor 等编译器的开发，或在 GitHub 提交过相关 PR 。 2.具备 MLU/NPU/GPU 相关的编译优化经验。更多岗位可以查看社招和校招官网：社招： https://app.mokahr.com/social-recruitment/tecorigin/47401#/ 校招： https://app.mokahr.com/campus-recruitment/tecorigin/47402#/ 内推联系：Z290b3Jpb24=

DeepSeek 开源 TileKernels：高性能 GPU 算子库瞄准大模型训练与推理，支持 NVIDIA Blackwell

linux.do · 2026-04-23 22:20:24+08:00 · tech

来源 4 个帖子 - 4 位参与者阅读完整话题

DeepSeek 开源 TileKernels 算子库，支持 NVIDIA Blackwell 架构

linux.do · 2026-04-23 18:03:45+08:00 · tech

DeepSeek 于 4 月 22 日开源高性能 GPU 算子库 TileKernels，该项目基于 TileLang 开发。该库针对大语言模型（LLM）的训练与推理进行了深度优化，其算子性能已接近硬件计算强度与内存带宽的极限。 TileKernels 涵盖了 MoE 路由、FP8/FP4 量化及多种融合算子，并已在 DeepSeek 内部环境投入使用。该库目前适配 NVIDIA SM90 及最新的 SM100（Blackwell）架构，运行环境要求 CUDA 13.1 及以上版本。 Github 1 个帖子 - 1 位参与者阅读完整话题

DeepSeek开源TileKernels：面向大语言模型的GPU算子库

linux.do · 2026-04-23 17:29:18+08:00 · tech

DeepSeek于刚刚在GitHub上开源了名为 TileKernels 的GPU算子项目，该仓库以MIT协议发布，定位为面向大语言模型训练与推理场景的高性能GPU算子集合，底层基于TileLang构建。作者署名包括王翔文、徐晨浩、曹焕琪、田瑞、赵伟霖、余快与赵成钢。 github.com GitHub - deepseek-ai/TileKernels: A kernel library written in tilelang A kernel library written in tilelang 据仓库README介绍， TileLang 是一种用于在Python中表达高性能GPU算子的领域特定语言，具备易迁移、敏捷开发与自动优化的特性。项目方表示，库中大部分算子在算力强度与显存带宽方面已接近硬件性能极限，其中部分算子已应用于DeepSeek内部的训练与推理流程；不过官方也注明这些代码并不代表最佳实践，目前仍在持续改进代码质量与文档。运行环境方面，项目要求Python 3.10及以上、PyTorch 2.10及以上、TileLang 0.1.9及以上，并需配备NVIDIA SM90或SM100架构GPU以及CUDA 13.1以上工具链。 8 个帖子 - 8 位参与者阅读完整话题

Intel Arc Alchemist XPU 运行 Qwen 3.5 / Qwen 3.6 / Gemma 4 并支持MoE （系列之三，教你如何自己写算子）

linux.do · 2026-04-17 18:07:37+08:00 · tech

本帖使用社区开源推广，符合推广要求。我申明并遵循社区要求的以下内容：我的帖子已经打上开源推广标签：是我的开源项目完整开源，无未开源部分：是我的开源项目已链接认可 LINUX DO 社区：是我帖子内的项目介绍，AI生成、润色内容部分已截图发出：是以上选择我承诺是永久有效的，接受社区和佬友监督：是以下为项目介绍正文内容，AI生成、润色内容已使用截图方式发出上次发帖忘记加模板被始皇狠狠指点了，虽然是系列之三但这次还是加上模板。月经贴又来力已测试的模型： google\gemma-4-E4B-it Intel\Qwen3.5-2B-int4-AutoRound Intel\Qwen3.5-35B-A3B-int4-AutoRound Jackrong\Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-v2 Qwen\Qwen3-TTS-12Hz-1.7B-Base 这个月着重于解决MoE模型的运行乱码问题、Turboquant适配。 1、具备生产能力的 Qwen-3.5-35B-A3B 模型太大，不能全丢进显存里面。必须做 CPU-XPU 混合推理，也就是专家层放在内存里，需要时再调到 XPU，这个机制其实很多推理引擎已经有对应的"cpu-offload"实现了。 2、 MoE 的性能卡点主要出现在 decode 阶段。对 MoE 实施混合推理推理设计，decode 每走一步都可能要重新选专家，所以特别容易被CPU-XPU之间的数据搬运环节拖慢，由于开发环境在平时打游戏的PC上，内存频率受限3200Mhz，所以现在运行 35B-A3B 的输出速度只有 1 tokens/s 。 3、所有的模型权重都转换成项目内部兼容 XPU 的 int4 布局，节省资源。项目内自定义算子的设计（如何自己写算子）： 1、 gated_delta_fused_op.sycl 里通过 TORCH_LIBRARY 注册算子名字和参数形式，让项目能在Pytorch上运行。 2、同时提供 Meta 和 XPU 两套。Meta 实现不真正计算，只负责告诉 PyTorch“输出长什么样”；XPU 实现才是真正在 Intel XPU 上跑的 kernel。 3、 Python 侧只负责“接线”，因为性能表现太垃圾。 fused_ops.py 负责加载 .pyd 动态库、暴露 run_xxx_fused() 这类包装函数。ops.py 再把这些 fused op 接到模型真实的 forward 调用链上。 4、构建链路依赖 oneAPI + PyTorch XPU（最终还是脱离不了Intel官方提供的技术栈，因为这一部分实现比较完整，自己弄CPP太耗时间了，一个人做不了） build_gated_delta_fused_op.py 会调用 dpcpp 编译出 .pyd，再动态加载到 torch.ops.anna 命名空间。 5、所有算子都要非常严格地检查输入的维度信息、dtype、device、是否 contiguous 以及 shape 是否匹配。自定义算子一旦吃到错误输入，往往不是普通报错中断，而是直接结果错乱，包括输出乱码、思维链循环、甚至直接不输出任何内容。 6、项目里很多输入虽然是 bf16/fp16，但中间经常要用 float32。避免模型出现乱码、异常重复、输出不稳定的清空。 7、对 MoE 来说，路由、dispatch、scatter、专家缓存、专家搬运，常常比矩阵乘本身更影响速度。所以项目里不仅做了 GEMM 算子，还做了 router、dispatch、scatter 这些算子。 8、测试选用的 AutoRound 量化模型导出的 int4 权重格式，不等于项目内部适合 XPU 直接算的 int4 格式。因此还有一层转换来做兼容化。结构是： gated_delta_fused_op.sycl - 真正写 XPU 核心计算逻辑的地方。 fused_ops.py - Python 到自定义算子的桥接层。 ops.py - 模型真正调用这些算子的地方。 build_gated_delta_fused_op.py - 负责编译和注册自定义算子。用 NotebookLM 内的 Nanobanana 2 帮忙画的简图 1 个帖子 - 1 位参与者阅读完整话题

腾讯混元 AI Infra 新开源：HPC-Ops 推理核心算子全面升级

36氪 · None · tech

36氪获悉，为了进一步满足推理系统对动态业务负载的适应性、核心模块对复杂精度和高性能融合算子的需求，HPC-Ops 推出全新更新开源升级，包含五大关键算子。本次升级在主流推理平台上，有效缓解了Attention长尾延迟、显存搬运开销、跨卡通信等实际工程瓶颈，多项性能指标显著优于现有的开源基线。

/tag/算子