slides

% Pipedream - Generalized Pipeline Parallelism for DNN Training % Authors from MSR + CMU + Stanford; Presentation & Interpretation by laekov % July 14 DNN Training 的三种并行模式 Data Parallel (DP) 沿 batch 维度进行切分通信: 同步 weight Model Parallel (MP) 沿 weight 维度进行切分通信: feature tensor 的求和或者拼装 Pipeline Parallel (PP) Inter-layer partition 通信: 切口处的 feature tensor 及它们的梯度 (在部分模型中通信更少) Overlap 通信和计算 (DP 的 lazy update 也算 pipeline 的一种) Inter-batch Parallelism 无并行的 pipeline 分摊 weight 所需显存支持不同规格加速器混用在 homogeneous 环境下毫无加速 GPipe 并行: 批处理模式 Pipedream 并行多发射 forward 和 backwoard 交错进行可填满流水线计算通信 overlap 由 pytorch 框架实现....