特征工程(feature engineering),理学-统计学-大数据统计分析-大数据数据特征-特征工程,数据分析、建模中,对原始数据进行加工处理,提炼特征的过程。在数据分析的实践中,存在着这样一个共识:数据和特征决定了机器学习的上限,而应用模型和算法只是在逼近这个上限而已。特征的提取工作将直接影响对原始数据利用的效率,因而对最终的分析结果、模型表现也有着至关重要的影响。特征工程在数据挖掘、机器学习、深度学习中具有广泛的应用,通常作为数据分析、建模的前置环节,用来为特定的分析模型提供输入特征(见图)。特征工程的主要目标在于尽可能从原始数据中提取对后续分析建模有价值的特征,从而最大化对原始数据的挖掘利用,提高模型效果。特征工程在建模分析中的作用示意图特征工程通常广义地指在原始数据上进行特征加工的多种活动,其概念内涵广泛,包括:①数据预处理。例如对数值型数据的标准化、归一化,对离散数据标签的编码,对缺失数据的清洗、插补等。②特征构建。基于原始数据构造出特征,通过新特征对数据信息进行抽象、提炼。