随机森林树(random forest),理学-统计学-数理统计-统计学习,一种以决策树为基学习器的集成学习算法,属于一种有监督学习算法,能同时应用于分类和回归问题。又称随机森林。为了解决普通决策树方法具有高方差的缺点,可以通过多次使用自助抽样训练集(bootstrapped samples),并建立回归树或分类树,然后对多次预测结果求平均或者投票的方式得到最终集成学习的预测结果,进而以达到减小统计学习方法方差的目的。这种方法叫作引导聚集算法(bootstrap aggregation),即聚合法法(bagging)。但是,装袋法中的决策树是由使用相同的输入变量组合在不同的自助抽样训练集得到,从而它们具有一定的相关性,进而增加了得到的集成预测结果的方差。为了减少这种由于决策树之间相关性造成的方差,L.布雷曼和A.卡特勒在2001年提出了随机森林的算法。具体而言,相比如装袋法,随机森林在对自助抽样训练集建立决策树的时候,不是考虑所有的个输入变量,而是随机抽取个输入变量来构建决策树(这里通常远小于)。