数据增强(data augmentation),理学-统计学-大数据统计分析-深度神经网络-预训练模型-数据增强,数据分析中通过添加适当修改过的数据副本或从现有数据中创建新的合成数据来增加数据量的技术。它可以在训练机器学习模型时用于正则化,减少过拟合。简介数据增强是通过修改或合成现有数据来增加数据量的技术,是一种正则化。在图像分类、信号处理以及语音识别等方面均有所运用。数据增强主要可以一定程度缓解训练机器学习模型时数据量不足的问题。训练机器学习模型实际上是通过调参使得机器学习模型能较好地将输入映射到输出,而优化的目标是追求模型损失的最低点,因此需要足够大的模型以能够捕获数据的关系以及问题的具体细节,如果一个模型有较多参数,则需要足够比例的数据集来实现较好的拟合或减小过拟合,但在现实问题中,数据集的大小很可能是有限的。同时,机器学习模型的目标可能存在于不同的条件之下,例如,不同的方向、位置、规模、亮度等,即使拥有很大的数据量,模型也需要更多相关有效的数据使得模型更加准确。模型可以使用额外的修改合成得到的数据来适应这些情况。