本文档仅说明在HAT中进行量化训练时需要的操作,关于量化的基本原理和在训练框架中的实现方式请参阅 horizon_plugin_pytorch 的相关文档。
在量化训练中,由浮点模型到定点模型的转换流程如下:

其中大部分步骤都已集成在HAT的训练pipeline中,用户只需注意在添加自定义模型时实现 fuse_model 方法来完成模型融合,且实现 set_qconfig 方法对量化方式进行配置即可。在编写模型时需要注意以下几点:
HAT只会调用最外层模块的 fuse_model 方法,因此在 fuse_model 的实现中要负责所有子模块的fuse。
优先使用 hat.models.base_modules 中提供的基础模块,这些基础模块已实现 fuse_model 方法,可减少工作量和开发难度。
模型注册,HAT中的各种模块全部采用了注册机制,只有将定义的模型在对应的注册项中进行注册,才可以在config文件中以 dict(type={$class_name}, ...) 的形式使用模型。
需要在最外层模块实现 set_qconfig 方法,如果子模块中有特殊layer需单独设置 QConfig,也需要在该子模块中实现 set_qconfig 方法,此部分细节可见 set_qconfig 书写规范和自定义 qconfig 介绍 章节。
此外,为使模型可转为量化模型,需要满足一些条件,具体见horizon_plugin_pytorch 的相关文档。
只需在使用 tools/train.py 脚本时按顺序指定训练阶段即可,会自动根据训练阶段调用相应的 solver 来执行训练过程:
float:正常的浮点训练。
qat:QAT训练(量化感知训练),首先初始化一个浮点模型,加载训练好的浮点模型权重,再将此模点模型转为QAT模型进行训练。
int_infer:定点转化预测,此阶段首先初始化一浮点模型,将此浮点模型先转为QAT模型并加载训练好的QAT模型权重,再将 QAT模型转为定点模型。转出的定点模型无法进行训练,只能执行validation得到最终的定点模型精度。
可以通过在 config 的 {stage}_trainer 中配置 resume_optimizer 和 resume_epoch_or_step 字段来恢复意外中断的训练,或仅恢复optimizer来进行fine-tune。例如:
恢复训练有三种使用场景:
完全恢复: 该场景为恢复意外中断的训练,会恢复上一个checkpoint的所有状态,包括optimizer、LR、epoch、step 等。该场景只需配置 resume_optimizer 字段即可;
恢复optimizer用于fine-tune: 该场景只会恢复optimizer和LR的状态,但epoch、step都会从0开始,用于某些任务的 fine-tune。该场景需要配置 resume_optimizer,并且需要配置resume_epoch_or_step=False。
只加载模型参数: 该场景只会加载模型参数,不会恢复其他任何状态(optimizer、epoch、step、LR)。该场景只需要在 model_convert_pipeline 中配置 LoadCheckpoint ,并且需要配置 resume_optimizer=False 和 resume_epoch_or_step=False。
qat_mode 用于设置QAT阶段是否带BN进行量化训练,配合HAT提供的 FuseBN 接口还可以控制量化训练全程带BN或是中途逐步吸收BN。
qat_mode可选的设置有如下三种:
QAT阶段没有BN,HAT默认的量化训练方式。
通过将qat_mode设置为 fuse_bn ,在浮点模型op融合的过程中,BN的weight和bias均被吸收到Conv的weight和bias中,原来的Conv + BN的组合将只剩下 Conv,这一吸收过程理论上是没有误差的。
QAT 阶段带 BN 进行训练。
通过设置qat_mode为 with_bn ,浮点模型转为QAT模型的时候BN不会吸收进Conv,而是在QAT阶段以 Conv + BN + 输出量化节点 的形式作为一个被融合的量化op存在于量化模型中。最终在量化训练结束转为quantized(也称int infer) 模型的步骤中,BN的weight和bias将自动吸收进conv的量化参数中,吸收之后得到的quantized op和原来的QAT op计算结果保持一致。
在这一模式下,用户还可以选择在QAT中途将BN吸收进Conv。用户手动吸收BN前后QAT模型的forward结果不一致,原因是BN weight吸收至Conv weight之后,在之前量化训练中统计出来的量化参数conv_weight_scale不再适用于当前的conv_weight,在对conv_weight的量化中将产生较大误差,需要继续进行量化训练调整量化参数。
QAT 阶段带 BN 进行训练。
本模式与 with_bn 的不同之处在于在BN吸收之前,量化训练阶段计算conv_weight_scale时会考虑BN的weight(具体的计算方式不在此详述),目的是为了吸收BN weight之后conv_weight_scale仍然适用于新的conv_weight。
该模式用意是为分步吸收BN提供一种无损的吸收方式:在量化训练中途吸收BN,吸收前后模型forward结果理论上完全一致,用户可以在量化训练结束前逐步吸收模型中所有的BN并且保证每次吸收之后loss不会有太大的波动。
在该模式下如果有BN在量化训练结束时仍未被吸收,在QAT模型转quantized模型的过程中剩余的BN将自动被吸收,这一吸收操作理论上是无损的。
用户只需要在 model_convert_pipeline 中设置 qat_mode 即可。
例如:
在 with_bn 和 with_bn_reverse_fold 两种模式下,用户可以将 FuseBN 设置为回调函数用于在指定的epoch或是step吸收指定module中的BN。
FuseBN定义:
在config文件中使用FuseBN Example:
| qat_mode | BN 何时被吸收 | 如何吸收BN | 理论上吸收后模型 forward 结果是否有变化 |
| fuse_bn | 一定在浮点模型 op 融合过程 | 执行 fuse_module 之后吸收完成 | 无 |
| with_bn | 可以在量化训练中途 | 通过设置回调函数在指定 epoch 或 batch 吸收 | 有 |
| with_bn | 可以在 QAT 模型转 quantized 模型过程 | 随 QAT 转 quantized 自动完成 | 无 |
| with_bn_reverse_fold | 可以在量化训练中途 | 通过设置回调函数在指定 epoch 或 batch 吸收 | 无 |
| with_bn_reverse_fold | 可以在 QAT 模型转 quantized 模型过程 | 随 QAT 转 quantized 自动完成 | 无 |
一般训练流程是浮点训练到理想精度然后量化训练,该流程只需要使用 fuse_bn 即可。如果是没有浮点训练一开始就是量化训练,为了确保模型能收敛,才需要使用带BN的量化训练模式。
本文中之所以说“理论上吸收前后无损”或“无变化”,是由于在实际计算中吸收前后两次浮点计算的结果有较低的概率会在小数点较靠后的数位上不一致,微小的变化加上量化操作导致吸收BN后Conv的输出相比吸收前Conv + BN的输出在部分数值上可能会产生一个输出scale的绝对误差。