夕丰木 · 文库

夕丰木 · 文库

首页博客文库总览

PyTorch

PyTorch 调度器干货大合集 TorchScript / FX / torch.compile 关系总结

分布式

ProcessGroup 与 NCCL 通信路径梳理自定义 AllReduce 算子实现思路 ZeRO 参数分片与 AllGather 流程分析 Megatron 并行机制笔记

GPU

Triton 与 CUDA 核心原理整理从 Softmax Kernel 到性能优化

GPU 与内核优化

Triton 与 CUDA 核心原理整理

深入 Triton 与 CUDA 的执行模型，调度关键路径，编译优化策略与性能关键点。

2025-05-26· 22 分钟阅读CUDAPerformanceKernel

引言

Triton 与 CUDA 都服务于 GPU 编程，但它们处在不同抽象层级。CUDA 更接近硬件，Triton 更强调块级程序抽象与编译器优化。

执行模型对比

CUDA：显式管理 block、thread、shared memory 与同步。
Triton：以 program 为单位描述块级计算，由编译器负责较多底层细节。
二者都需要理解内存层次、访存合并与并行规约。

工程取舍

Triton 适合快速实现高性能原型，CUDA 适合极致控制与硬件相关优化。真实工程中，两者往往是互补关系。

小结

学习 Triton 不意味着绕过 CUDA。真正稳定的优化能力，来自对底层硬件与上层抽象的共同理解。

Megatron 并行机制笔记

梳理 Megatron-LM 的模型并行、流水并行、张量并行与序列并行原理及实现细节。

从 Softmax Kernel 到性能优化

分析 Softmax 的计算特征与访存模式，探讨 Kernel 优化方法与性能对比。

On this page

引言执行模型对比工程取舍小结