Administrator
发布于 2022-10-12 / 16 阅读
0

优化PyTorch的速度和内存效率

数据加载

1、把数据放到SSD中

2、Dataloader(dataset, num_workers=4*num_GPU)

num_workers=0使数据加载需要在训练完成后或前一个处理已完成后进行。设置num_workers>0有望加快速度,特别是对于大数据的i/o和增强。具体到GPU,有实验发现num_workers = 4*num_GPU 具有最好的性能。也就是说,你也可以为你的机器测试最佳的num_workers。需要注意的是,高num_workers将会有很大的内存消耗开销,这也是意料之中的,因为更多的数据副本正在内存中同时处理。

3、Dataloader(dataset, pin_memory=True)

设置pin_memory=True可以跳过从可分页memory到pinned memory的数据传输

GPU无法直接从CPU的可分页内存中访问数据。设置pin_memory=True 可以为CPU主机上的数据直接分配临时内存,节省将数据从可分页内存转移到临时内存(即固定内存又称页面锁定内存)的时间。该设置可以与num_workers = 4*num_GPU结合使用。

数据操作

4、直接在设备中创建torch.Tensor,不要在一个设备中创建再移动到另一个设备中

5、避免CPU和GPU之间不必要的数据传输

6、使用torch.from_numpy(numpy_array)或者torch.as_tensor(others)代替 torch.tensor

torch.tensor() 会拷贝数据

如果源设备和目标设备都是CPU,torch.from_numpytorch.as_tensor不会创建数据拷贝。如果源数据是NumPy数组,使用torch.from_numpy(numpy_array) 会更快。如果源数据是一个具有相同数据类型和设备类型的张量,那么torch.as_tensor(others) 可以避免拷贝数据。others 可以是Python的listtuple,或者torch.tensor

7、在数据传输操作可以重叠时,使用tensor.to(non_blocking=True)

  1. 使用PyTorch JIT将元素操作融合到单个kernel中。

点操作包括常见的数学操作,通常是内存受限的。PyTorch JIT会自动将相邻的点操作融合到一个内核中,以保存多次内存读/写操作。例如,通过将5个核融合成1个核,gelu函数可以被加速4倍。

模型结构

9、在使用混合精度的FP16时,对于所有不同架构设计,设置图像尺寸和batch size为8的倍数

训练

10、将batch size设置为8的倍数,最大化GPU内存的使用

11、前向的时候使用混合精度(后向的使用不用)

有些操作不需要float64或float32的精度。因此,将操作设置为较低的精度可以节省内存和执行时间。值得注意的是,通常矩阵越大,混合精度加速度越高。在较大的神经网络中(例如BERT),实验表明混合精度可以加快2.75倍的训练,并减少37%的内存使用。可能会降低模型的精度,这取决于算法,数据和问题。使用自动混合精度(AMP)很容易在PyTorch中利用混合精度。PyTorch中的默认浮点类型是float32。AMP将通过使用float16来进行一组操作(例如,matmul, linear, conv2d)来节省内存和时间。

12、在优化器更新权重之前,设置梯度为Nonemodel.zero_grad(set_to_none=True)

通过model.zero_grad()optimizer.zero_grad()将对所有参数执行memset ,并通过读写操作更新梯度。但是,将梯度设置为None将不会执行memset,并且将使用“只写”操作更新梯度。因此,设置梯度为None更快。

13、梯度积累:每隔x个batch更新一次权重,模拟大batch size的效果

这个技巧是关于从更多的数据样本积累梯度,以便对梯度的估计更准确,权重更新更接近局部/全局最小值。这在batch size较小的情况下更有帮助(由于GPU内存限制较小或每个样本的数据量较大)。

推理/验证

14、在推理和验证的时候禁用梯度计算

CNN (卷积神经网络) 特有的

15、torch.backends.cudnn.benchmark = True

在训练循环之前设置torch.backends.cudnn.benchmark = True可以加速计算。由于计算不同内核大小卷积的cuDNN算法的性能不同,自动调优器可以运行一个基准来找到最佳算法。当你的输入大小不经常改变时,建议开启这个设置。如果输入大小经常改变,那么自动调优器就需要太频繁地进行基准测试,这可能会损害性能。它可以将向前和向后传播速度提高1.27x到1.70x。

16、对于4D NCHW Tensors,使用channels_last的内存格式

使用channels_last内存格式以逐像素的方式保存图像,作为内存中最密集的格式。原始4D NCHW张量在内存中按每个通道(红/绿/蓝)顺序存储。转换之后,x = x.to(memory_format=torch.channels_last),数据在内存中被重组为NHWC (channels_last格式)。你可以看到RGB层的每个像素更近了。据报道,这种NHWC格式与FP16的AMP一起使用可以获得8%到35%的加速。

17、在batch normalization之前的卷积层可以去掉bias

nn.Conv2d(..., bias=False)

bias可以通过batch normalization的均值减法来抵消。我们可以节省模型参数、运行时的内存。

分布式

18、用DistributedDataParallel代替DataParallel

对于多GPU来说,即使只有单个节点,也总是优先使用 DistributedDataParallel而不是 DataParallel ,因为 DistributedDataParallel 应用于多进程,并为每个GPU创建一个进程,从而绕过Python全局解释器锁(GIL)并提高速度。

总结

总的来说,你可以通过3个关键点来优化时间和内存使用。首先,尽可能减少i/o(输入/输出),使模型管道更多的用于计算,而不是用于i/o(带宽限制或内存限制)。这样,我们就可以利用GPU及其他专用硬件来加速这些计算。第二,尽量重叠过程,以节省时间。第三,最大限度地提高内存使用效率,节约内存。然后,节省内存可以启用更大的batch size大小,从而节省更多的时间。拥有更多的时间有助于更快的模型开发周期,并导致更好的模型性能。