夕丰木 · 文库

夕丰木 · 文库

首页博客文库总览

PyTorch

PyTorch 调度器干货大合集 TorchScript / FX / torch.compile 关系总结

分布式

ProcessGroup 与 NCCL 通信路径梳理自定义 AllReduce 算子实现思路 ZeRO 参数分片与 AllGather 流程分析 Megatron 并行机制笔记

GPU

Triton 与 CUDA 核心原理整理从 Softmax Kernel 到性能优化

分布式训练

Megatron 并行机制笔记

梳理 Megatron-LM 的模型并行、流水并行、张量并行与序列并行原理及实现细节。

2025-05-08· 20 分钟阅读LLMDistributedMegatron

引言

Megatron-LM 的并行机制把大模型训练拆成多个相互协作的维度：张量并行、流水并行、数据并行以及序列并行。理解这些边界，是理解大模型训练系统的入口。

并行维度

Tensor Parallel：切分单层内部的矩阵计算。
Pipeline Parallel：沿层维度拆分模型，关注 bubble 与调度策略。
Data Parallel：复制模型副本，进行梯度同步。
Sequence Parallel：进一步降低激活显存压力。

工程观察

并行策略不是越多越好。通信代价、显存占用、batch size、网络拓扑和算子粒度都会改变最优配置。

小结

Megatron 的价值不只在并行算法本身，更在于它把并行策略变成可组合、可配置、可调试的工程系统。

ZeRO 参数分片与 AllGather 流程分析

解析 ZeRO 各阶段的内存优化策略，深入 AllGather 的执行流程与通信开销。

Triton 与 CUDA 核心原理整理

深入 Triton 与 CUDA 的执行模型，调度关键路径，编译优化策略与性能关键点。

On this page

引言并行维度工程观察小结