夕丰木 · 文库

夕丰木 · 文库

首页博客文库总览

PyTorch

PyTorch 调度器干货大合集 TorchScript / FX / torch.compile 关系总结

分布式

ProcessGroup 与 NCCL 通信路径梳理自定义 AllReduce 算子实现思路 ZeRO 参数分片与 AllGather 流程分析 Megatron 并行机制笔记

GPU

Triton 与 CUDA 核心原理整理从 Softmax Kernel 到性能优化

分布式训练

自定义 AllReduce 算子实现思路

从环形 AllReduce 到树形 AllReduce，详解自定义算子的实现与优化策略。

2025-04-02· 16 分钟阅读DistributedNCCLCUDA

引言

AllReduce 是分布式训练中最关键的通信原语之一。它连接着每一次梯度同步，也决定了训练吞吐、尾延迟与扩展效率的上限。

核心思路

明确通信拓扑：环形、树形与分层 AllReduce 适合不同规模与网络结构。
拆分数据块：通过 chunk / slice 让通信与规约可以流水化执行。
关注 stream：通信 stream 与计算 stream 的同步边界会直接影响重叠效率。

工程实现关注点

自定义算子不仅要实现数学语义，还要处理 buffer 管理、异步 work handle、错误传播以及 profile 标记。真正的难点在于让通信路径稳定、可观测、可复现。

小结

AllReduce 优化不是单点 kernel 优化，而是拓扑、调度、内存与框架接口的整体工程。

ProcessGroup 与 NCCL 通信路径梳理

深入 ProcessGroup 的后端实现，梳理 NCCL 通信路径、Stream 管理与异步执行机制。

ZeRO 参数分片与 AllGather 流程分析

解析 ZeRO 各阶段的内存优化策略，深入 AllGather 的执行流程与通信开销。

On this page

引言核心思路工程实现关注点小结