眾所周知,機器學習中處理缺失值的方法有很多,然而,由題目“隨機森林如何處理缺失值”可知,問題關鍵在于隨機森林如何處理,所以先簡要介紹下隨機森林吧。
隨機森林是由很多個決策樹組成的,首先要建立Bootstrap數據集,即從原始的數據中有放回地隨機選取一些,作為新的數據集,新數據集中會存在重復的數據,然后對每個數據集構造一個決策樹,但是不是直接用所有的特征來建造決策樹,而是對于每一步,都從中隨機的選擇一些特征,來構造決策樹,這樣我們就構建了多個決策樹,組成隨機森林,把數據輸入各個決策樹中,看一看每個決策樹的判斷結果,統計一下所有決策樹的預測結果,Bagging整合結果,得到最終輸出。
那么,隨機森林中如何處理缺失值呢?根據隨機森林創建和訓練的特點,隨機森林對缺失值的處理還是比較特殊的。