数据挖掘(Data mining)是用人工智能、机器学习、统计学和数据库的交叉方法在相对较大型的数据集中发现模式的计算过程。训练数据是指数据挖掘过程中用于训练数据挖掘模型的数据。训练数据选择一般有以下要求:数据样本尽可能大、数据多样化,数据样本质量较高。训练数据(Train Data)即数据挖掘过程中用于数据挖掘模型构建的数据。在数据挖掘过程中,除了训练数据还有测试数据(Test Data),即用于检测模型构建,此数据只在模型检验时使用,用于评估模型的准确率。绝对不允许用于模型构建过程,否则会导致过渡拟合。验证数据(Validation Data):可选,用于辅助模型构建,可以重复使用。当数据集较小,会采用一些方法来来弥补这个缺点,如自助法。