预训练模型(pre-trained models),理学-统计学-大数据统计分析-深度神经网络-预训练模型,通过在大规模的语料数据集中进行无监督学习,学习得到通用的语言表征来提高自然语言学习模型在下游任务中的表现。背景随着深度学习的发展,一系列的神经网络模型被用于自然语言学习中,比如卷积神经网络、循环神经网络、图神经网络以及注意力机制等等。相比于计算机视觉领域,文本领域含标注的数据较少,而有监督学习中神经网络参数的训练通常是通过后向传播进行的。在缺乏标注数据的情况下,往往会产生过拟合现象,使得模型的效果降低。而预训练能够很好地解决这个问题。预训练分为两个过程,首先是通过大量无标注的语言文本进行语言模型的训练,得到一套模型参数,利用这套参数对模型进行初始化。其次是根据具体的任务在现有的语言模型的基础上进行微调。大量研究表明,基于大型语料库的预训练模型可以学习通用的语言表示,有利于下游的自然语言学习任务,同时可以避免从零开始训练模型。