数据中心化(data centralization),理学-统计学-描述统计-数据标准化,变量减去其均值或数学期望的数据变换处理方法。又称去均值化、零均值化。是一种数据预处理方法。数据中心化的目的是消除特征之间的差异性,可以使得不同的特征具有相同的尺度,使不同特征对参数的影响程度一致。数据中心化的过程就是一个将数据平移到原点附近的过程,平移后的中心点就是原点,此时数据在原点周围分布。计算公式为:。式中为变量的均值或数学期望。中心化得到的变量均值为0,通过中心化处理,可以消除不同的变量在均值上的差异。数据中心化的优点主要有:①消除不同变量在数值大小上的差异,解决模型运行不稳定的问题。例如在线性回归模型中对数据进行中心化,可以有效解决交互项变量和主变量之间的多重共线问题。②中心化后的数据易于计算各种类间或样本间的方差。中心化后的数据来自均值为0的总体,便于计算方差,其方差的计算公式为:式中为样本数;为第个样本数据。数据中心化的不足表现为只能剔除不同特征在数值大小上的差异,不能消除不同特征的量纲和变异程度的差异。因此,对中心化后的数据使用要谨慎。