数据规格化(data normalization)指对数据的规范化处理。有些情况下,为 了能正确地真正反映实际情况,必须对原始数据进行加工处理,使之规范化。数据规格化对相似系数有较大的影响。数据经过规格化后其计算结果与未经规格化的计算结果差别较大。这是由于相似系数取决于坐标原点的位置。在规格化后,坐标原点移动了,使样品之间的夹角改变很大。有时在试验中,每个标本(样品)有许多种测定值。每种测定值的量纲和数量大小是很不一样的,有的变量的绝对值很大,有的很小,变化幅度很不一样。假如直接用原始数据进行计算,就会突出那些绝对值大的变量,而压低绝对值小的那些变量的作用。为 了能正确地真正反映实际情况,必须对原始数据进行加工处理,使之规范化。比如,文体竞赛活动中,对于评委所打的分数(原始数据),首先去掉一个 (或两个)最高分,一个(或两个)最低分,然后再求其余分数的算术平均数,以来代表被评者的最后得分, 再去和其他参赛者比较优劣。又如,对原始数据进行标准化处理也是数据规格化的例子。 设有一组数据x1,x2, …,xn,其平均数为,标准差为σ,用公式处理后所得的数据z1,z2,…,zn即为标准化数据。