文库总览
夕丰木的技术文库——CUDA、PyTorch、分布式训练与推理系统的体系化笔记。
这里是全站技术笔记的总入口。与博客的时间线视角不同,文库按知识体系组织,方便沿主题深入。
板块
PyTorch 核心机制
Dispatcher、torch.compile 与框架内部原理。
分布式训练
NCCL、集合通信、ZeRO 与大规模并行策略。
GPU 与内核优化
Triton、CUDA 编程模型与高性能算子实现。
如何使用
- 左侧边栏按主题浏览全部笔记。
- 使用搜索(
Ctrl K/⌘ K)在全文中检索关键词。 - 每篇笔记的右侧有目录,可在小节之间快速跳转。