优化PyTorch的速度和内存效率

数据加载

1、把数据放到SSD中

2、Dataloader(dataset, num_workers=4*num_GPU)

num_workers=0使数据加载需要在训练完成后或前一个处理已完成后进行。设置num_workers>0有望加快速度，特别是对于大数据的i/o和增强。具体到GPU，有实验发现num_workers = 4*num_GPU 具有最好的性能。也就是说，你也可以为你的机器测试最佳的num_workers。需要注意的是，高num_workers将会有很大的内存消耗开销，这也是意料之中的，因为更多的数据副本正在内存中同时处理。

3、Dataloader(dataset, pin_memory=True)

设置pin_memory=True可以跳过从可分页memory到pinned memory的数据传输

GPU无法直接从CPU的可分页内存中访问数据。设置pin_memory=True 可以为CPU主机上的数据直接分配临时内存，节省将数据从可分页内存转移到临时内存(即固定内存又称页面锁定内存)的时间。该设置可以与num_workers = 4*num_GPU结合使用。

数据操作

4、直接在设备中创建torch.Tensor，不要在一个设备中创建再移动到另一个设备中

5、避免CPU和GPU之间不必要的数据传输

6、使用torch.from_numpy(numpy_array)或者torch.as_tensor(others)代替 torch.tensor

torch.tensor() 会拷贝数据

如果源设备和目标设备都是CPU，torch.from_numpy和torch.as_tensor不会创建数据拷贝。如果源数据是NumPy数组，使用torch.from_numpy(numpy_array) 会更快。如果源数据是一个具有相同数据类型和设备类型的张量，那么torch.as_tensor(others) 可以避免拷贝数据。others 可以是Python的list， tuple，或者torch.tensor。

7、在数据传输操作可以重叠时，使用tensor.to(non_blocking=True)

使用PyTorch JIT将元素操作融合到单个kernel中。

点操作包括常见的数学操作，通常是内存受限的。PyTorch JIT会自动将相邻的点操作融合到一个内核中，以保存多次内存读/写操作。例如，通过将5个核融合成1个核，gelu函数可以被加速4倍。

模型结构

9、在使用混合精度的FP16时，对于所有不同架构设计，设置图像尺寸和batch size为8的倍数

训练

10、将batch size设置为8的倍数，最大化GPU内存的使用

11、前向的时候使用混合精度（后向的使用不用）

有些操作不需要float64或float32的精度。因此，将操作设置为较低的精度可以节省内存和执行时间。值得注意的是，通常矩阵越大，混合精度加速度越高。在较大的神经网络中(例如BERT)，实验表明混合精度可以加快2.75倍的训练，并减少37%的内存使用。可能会降低模型的精度，这取决于算法，数据和问题。使用自动混合精度(AMP)很容易在PyTorch中利用混合精度。PyTorch中的默认浮点类型是float32。AMP将通过使用float16来进行一组操作(例如，matmul, linear, conv2d)来节省内存和时间。

12、在优化器更新权重之前，设置梯度为None，model.zero_grad(set_to_none=True)

通过model.zero_grad()或optimizer.zero_grad()将对所有参数执行memset ，并通过读写操作更新梯度。但是，将梯度设置为None将不会执行memset，并且将使用“只写”操作更新梯度。因此，设置梯度为None更快。

13、梯度积累：每隔x个batch更新一次权重，模拟大batch size的效果

这个技巧是关于从更多的数据样本积累梯度，以便对梯度的估计更准确，权重更新更接近局部/全局最小值。这在batch size较小的情况下更有帮助(由于GPU内存限制较小或每个样本的数据量较大)。

推理/验证

14、在推理和验证的时候禁用梯度计算

CNN (卷积神经网络) 特有的

15、torch.backends.cudnn.benchmark = True

在训练循环之前设置torch.backends.cudnn.benchmark = True可以加速计算。由于计算不同内核大小卷积的cuDNN算法的性能不同，自动调优器可以运行一个基准来找到最佳算法。当你的输入大小不经常改变时，建议开启这个设置。如果输入大小经常改变，那么自动调优器就需要太频繁地进行基准测试，这可能会损害性能。它可以将向前和向后传播速度提高1.27x到1.70x。

16、对于4D NCHW Tensors，使用channels_last的内存格式

使用channels_last内存格式以逐像素的方式保存图像，作为内存中最密集的格式。原始4D NCHW张量在内存中按每个通道(红/绿/蓝)顺序存储。转换之后，x = x.to(memory_format=torch.channels_last)，数据在内存中被重组为NHWC (channels_last格式)。你可以看到RGB层的每个像素更近了。据报道，这种NHWC格式与FP16的AMP一起使用可以获得8%到35%的加速。

17、在batch normalization之前的卷积层可以去掉bias

nn.Conv2d(..., bias=False)

bias可以通过batch normalization的均值减法来抵消。我们可以节省模型参数、运行时的内存。

分布式

18、用DistributedDataParallel代替DataParallel

对于多GPU来说，即使只有单个节点，也总是优先使用 DistributedDataParallel而不是 DataParallel ，因为 DistributedDataParallel 应用于多进程，并为每个GPU创建一个进程，从而绕过Python全局解释器锁(GIL)并提高速度。

总结

总的来说，你可以通过3个关键点来优化时间和内存使用。首先，尽可能减少i/o(输入/输出)，使模型管道更多的用于计算，而不是用于i/o(带宽限制或内存限制)。这样，我们就可以利用GPU及其他专用硬件来加速这些计算。第二，尽量重叠过程，以节省时间。第三，最大限度地提高内存使用效率，节约内存。然后，节省内存可以启用更大的batch size大小，从而节省更多的时间。拥有更多的时间有助于更快的模型开发周期，并导致更好的模型性能。

菜单

分享

优化PyTorch的速度和内存效率

数据加载

数据操作

模型结构

训练

推理/验证

CNN (卷积神经网络) 特有的

分布式

总结

【0号教程】书写代码的必要前置工作

HAProxy 自动化扫描与负载均衡

13号机Linux无GUI配置clash流程

服务器代理配置指南

Vscode连接服务器失败的解决方案

记录一次GPU集群的存储崩溃

ddwgroup共享文件夹使用方式

服务器基础环境安装

Accelerate使用

Gitea简要使用教程