pytorch 如何使用amp进行混合精度训练

简介

amp：automatic mixed precision，自动混合精度，可以在神经网络推理过程中，针对不同的层，采用不同的数据精度进行计算，从而实现节省显存和加快速度的目的。

在pytorch 1.5版本及以前，通过nvidia提供的apex库可以实现amp功能。但是在使用过程中会伴随着一些版本兼容和奇怪的报错问题。

从1.6版本开始，pytorch原生支持自动混合精度训练，并已进入稳定阶段，amp 训练能在 tensor core gpu 上实现更高的性能并节省多达 50％的内存。

环境

python 3.8

pytorch 1.7.1

cuda 11 + cudnn 8

nvidia gefore rtx 3070

ps：后续使用移动端的3070，或者3080结合我目前训练的分类网络来测试实际效果

原理

关于低精度计算

当前的深度学习框架大都采用的都是fp32来进行权重参数的存储，比如python float的类型为双精度浮点数 fp64，pytorch tensor的默认类型为单精度浮点数fp32。

随着模型越来越大，加速训练模型的需求就产生了。在深度学习模型中使用fp32主要存在几个问题，第一模型尺寸大，训练的时候对显卡的显存要求高；第二模型训练速度慢；第三模型推理速度慢。

其解决方案就是使用低精度计算对模型进行优化。

推理过程中的模型优化目前比较成熟的方案就是fp16量化和int8量化，nvidia tensorrt等框架就可以支持，这里不再赘述。训练方面的方案就是混合精度训练，它的基本思想很简单: 精度减半(fp32→ fp16) ，训练时间减半。

与单精度浮点数float32（32bit，4个字节）相比，半精度浮点数float16仅有16bit，2个字节组成。

可以很明显的看到，使用fp16可以解决或者缓解上面fp32的两个问题：显存占用更少：通用的模型fp16占用的内存只需原来的一半，训练的时候可以使用更大的batchsize。

计算速度更快：有论文指出半精度的计算吞吐量可以是单精度的 2-8 倍。

从上到下依次为 fp16、fp32 、fp64

当前很多nvidia gpu搭载了专门为快速fp16矩阵运算设计的特殊用途tensor core，比如tesla p100，tesla v100、tesla a100、gtx 20xx 和rtx 30xx等。

tensor core是一种矩阵乘累加的计算单元，每个tensor core每个时钟执行64个浮点混合精度操作（fp16矩阵相乘和fp32累加），英伟达宣称使用tensor core进行矩阵运算可以轻易的提速，同时降低一半的显存访问和存储。

随着tensor core的普及fp16计算也一步步走向成熟，低精度计算也是未来深度学习的一个重要趋势。

tensor core 的 4x4x4 矩阵乘法与累加

volta gv100 tensor core 流程图

自动混合精度训练

不同于在推理过程中直接削减权重精度，在模型训练的过程中，直接使用半精度进行计算会导致的两个问题的处理：舍入误差(rounding error)和溢出错误(grad overflow / underflow)。

舍入误差： float16的最大舍入误差约为 (~2 ^-10 )，比float32的最大舍入误差(~2 ^-23) 要大不少。对足够小的浮点数执行的任何操作都会将该值四舍五入到零，在反向传播中很多甚至大多数梯度更新值都非常小，但不为零。在反向传播中舍入误差累积可以把这些数字变成0或者 nan，这会导致不准确的梯度更新，影响网络的收敛。

溢出错误： 由于float16的有效的动态范围约为 ( 5.96×10^-8 ~ 6.55×10^4)，比单精度的float32(1.4×10^-45 ~ 1.7×10^38)要狭窄很多，精度下降(小数点后16相比较小数点后8位要精确的多)会导致得到的值大于或者小于fp16的有效动态范围，也就是上溢出或者下溢出。

在深度学习中，由于激活函数的的梯度往往要比权重梯度小，更易出现下溢出的情况。2018年iclr论文 mixed precision training 中提到，简单的在每个地方使用fp16会损失掉梯度更新小于2^-24的值——大约占他们的示例网络所有梯度更新的5%。

解决方案就是使用混合精度训练（mixed precision）和损失缩放(loss scaling)：

1、混合精度训练：

混合精度训练是一种通过在fp16上执行尽可能多的操作来大幅度减少神经网络训练时间的技术，在像线性层或是卷积操作上，fp16运算较快，但像reduction运算又需要 fp32的动态范围。通过混合精度训练的方式，便可以在部分运算操作使用fp16，另一部分则使用 fp32，混合精度功能会尝试为每个运算使用相匹配的数据类型，在内存中用fp16做储存和乘法从而加速计算，用fp32做累加避免舍入误差。这样在权重更新的时候就不会出现舍入误差导致更新失败，混合精度训练的策略有效地缓解了舍入误差的问题。

2、损失缩放：

即使用了混合精度训练，还是会存在无法收敛的情况，原因是激活梯度的值太小，造成了下溢出。损失缩放是指在执行反向传播之前，将损失函数的输出乘以某个标量数(论文建议从8开始)。乘性增加的损失值产生乘性增加的梯度更新值，提升许多梯度更新值到超过fp16的安全阈值2^-24。只要确保在应用梯度更新之前撤消缩放，并且不要选择一个太大的缩放以至于产生inf权重更新(上溢出) ，从而导致网络向相反的方向发散。

使用pytorch amp

pytorch原生的amp模式使用起来相当简单，只需要从torch.cuda.amp导入gradscaler和 autocast这两个函数即可。torch.cuda.amp的名字意味着这个功能只能在cuda上使用，事实上，这个功能正是nvidia的开发人员贡献到pytorch项目中的。

pytorch在amp模式下维护两个权重矩阵的副本，一个主副本用 fp32，一个半精度副本用 fp16。梯度更新使用fp16矩阵计算，但更新于 fp32矩阵。这使得应用梯度更新更加安全。

autocast上下文管理器实现了 fp32到fp16的转换，它会自动判别哪些层可以进行fp16哪些层不可以。 gradscaler对梯度更新计算(检查是否溢出)和优化器(将丢弃的batches转换为 no-op)进行控制，通过放大loss的值来防止梯度的溢出。

在训练中的具体使用方法如下所示：

实验

硬件使用nvidia geforce rtx 3070作为测试卡，这块卡有184个tensor core，能比较好的支持amp模式。

模型使用erfnet分割模型作为基准，cityscapes作为测试数据，10个epoch下的测试效果如下所示：

在模型的训练性能方面，amp模式下的平均训练时间并没有明显节省，甚至还略低于正常模式。

显存的占用大约节省了25%，对于需要大量显存的模型来说这个提升还是相当可观的。

理论上训练速度应该也是有提升的，到pytorch的github issue里翻了一下，好像30系显卡会存在速度提不上来的问题，不太清楚是驱动支持不到位还是软件适配不到位。

metrics	time	memory
amp	66.72s	2.5g
no_amp	65.64s	3.3g

amp

no_amp

在模型的精度方面，在不进行数据shuffle的情况下统计了10个epoch下两种模式的train_loss和val_acc，可以看出不管是训练还是推理，amp模式并没有带来明显的精度损失。

cmp

以上为个人经验，希望能给大家一个参考，也希望大家多多支持www.887551.com。

黄山市民网：https://www.huangshanshimin.com/

简介

环境

原理

关于低精度计算

自动混合精度训练

使用pytorch amp

实验

相关文章