我们可以使用一种称为蒸馏(distillation)的机制:训练学生模型来匹配教师模型的输出分布。我们可以交替进行「在新数据上微调」和「蒸馏以恢复行为」这两个阶段,使我们的模型能够随着时间的推移学习并保持知…...