藏书枝阁

BLOG

收录 AI 基础框架、推理系统、并行编程与工程复盘

精选卷宗

全部文章

Triton 与 CUDA 核心原理整理

深入 Triton 与 CUDA 的执行模型,调度关键路径,编译优化策略与性能关键点。

2025-05-26 22 分钟阅读
  • CUDA
  • Performance
  • Kernel
阅读全文

Megatron 并行机制笔记

梳理 Megatron-LM 的模型并行、流水并行、张量并行与序列并行原理及实现细节。

2025-05-08 20 分钟阅读
  • LLM
  • Distributed
  • Megatron
阅读全文

PyTorch 调度器干货大合集

系统梳理 PyTorch Dispatcher、Kernel 注册、调度路径与执行模型的核心知识体系。

2025-04-12 18 分钟阅读
  • PyTorch
  • Distributed
  • NCCL
阅读全文

自定义 AllReduce 算子实现思路

从环形 AllReduce 到树形 AllReduce,详解自定义算子的实现与优化策略。

2025-04-02 16 分钟阅读
  • Distributed
  • NCCL
  • CUDA
阅读全文

ProcessGroup 与 NCCL 通信路径梳理

深入 ProcessGroup 的后端实现,梳理 NCCL 通信路径、Stream 管理与异步执行机制。

2025-03-28 15 分钟阅读
  • Distributed
  • PyTorch
  • NCCL
阅读全文

从 Softmax Kernel 到性能优化

分析 Softmax 的计算特征与访存模式,探讨 Kernel 优化方法与性能对比。

2025-03-20 14 分钟阅读
  • CUDA
  • Kernel
  • Optimization
阅读全文

TorchScript / FX / torch.compile 关系总结

对比三种图表示与编译路径,总结在不同场景下的适用性与最佳实践。

2025-03-15 17 分钟阅读
  • PyTorch
  • Compiler
  • FX
阅读全文

ZeRO 参数分片与 AllGather 流程分析

解析 ZeRO 各阶段的内存优化策略,深入 AllGather 的执行流程与通信开销。

2025-03-10 19 分钟阅读
  • LLM
  • ZeRO
  • Distributed
阅读全文

月窗茶室

Get In Touch

月色入窗,茶气未散。若你也在 AI Infra、应用落地、鸣潮、方舟肉鸽与洛克王国之间游走,欢迎留信,我们可以聊聊系统、优化与好玩的世界。