
藏书枝阁
BLOG收录 AI 基础框架、推理系统、并行编程与工程复盘
夕木成林·枝上藏书






精选卷宗
全部文章
Triton 与 CUDA 核心原理整理
深入 Triton 与 CUDA 的执行模型,调度关键路径,编译优化策略与性能关键点。
2025-05-26 22 分钟阅读
- CUDA
- Performance
- Kernel
Megatron 并行机制笔记
梳理 Megatron-LM 的模型并行、流水并行、张量并行与序列并行原理及实现细节。
2025-05-08 20 分钟阅读
- LLM
- Distributed
- Megatron
PyTorch 调度器干货大合集
系统梳理 PyTorch Dispatcher、Kernel 注册、调度路径与执行模型的核心知识体系。
2025-04-12 18 分钟阅读
- PyTorch
- Distributed
- NCCL
自定义 AllReduce 算子实现思路
从环形 AllReduce 到树形 AllReduce,详解自定义算子的实现与优化策略。
2025-04-02 16 分钟阅读
- Distributed
- NCCL
- CUDA
ProcessGroup 与 NCCL 通信路径梳理
深入 ProcessGroup 的后端实现,梳理 NCCL 通信路径、Stream 管理与异步执行机制。
2025-03-28 15 分钟阅读
- Distributed
- PyTorch
- NCCL
从 Softmax Kernel 到性能优化
分析 Softmax 的计算特征与访存模式,探讨 Kernel 优化方法与性能对比。
2025-03-20 14 分钟阅读
- CUDA
- Kernel
- Optimization
TorchScript / FX / torch.compile 关系总结
对比三种图表示与编译路径,总结在不同场景下的适用性与最佳实践。
2025-03-15 17 分钟阅读
- PyTorch
- Compiler
- FX
ZeRO 参数分片与 AllGather 流程分析
解析 ZeRO 各阶段的内存优化策略,深入 AllGather 的执行流程与通信开销。
2025-03-10 19 分钟阅读
- LLM
- ZeRO
- Distributed

月窗茶室
Get In Touch
月色入窗,茶气未散。若你也在 AI Infra、应用落地、鸣潮、方舟肉鸽与洛克王国之间游走,欢迎留信,我们可以聊聊系统、优化与好玩的世界。


