節(jié)點(diǎn)規(guī)模對訓(xùn)練效率的影響
單純提升服務(wù)器節(jié)點(diǎn)規(guī)模,集群計(jì)算效率反而下降
帶寬對訓(xùn)練效率的影響
服務(wù)器集群的通信帶寬已成為提升分布式訓(xùn)練效率的瓶頸
動(dòng)態(tài)時(shí)延對訓(xùn)練效率的影響
網(wǎng)絡(luò)擁塞導(dǎo)致動(dòng)態(tài)時(shí)延高,降低GPU利用率,訓(xùn)練時(shí)間延長
丟包率對于訓(xùn)練效率的影響
RDMA丟包重傳導(dǎo)致帶寬利用率快速降低,丟包率達(dá)到1%,嚴(yán)重影響訓(xùn)練效率