1. 特征工程是什么?
有這么一句話在業界廣泛流傳:數據和特征決定了機器學習的上限,而模型和算法只是逼近這個上限而已。那特征工程到底是什么呢?顧名思義,其本質是一項工程活動,目的是最大限度地從原始數據中提取特征以供算法和模型使用。通過總結和歸納,人們認為特征工程包括以下方面:
2. 數據預處理
2.1 無量綱化 2.1.1 標準化 2.1.2 區間縮放法 2.1.3 標準化與歸一化的區別
2.2 對定量特征二值化 2.3 對定性特征啞編碼 2.4 缺失值計算 2.5 數據變換 2.6 回顧
3. 特征選擇
3.1 Filter 3.1.1 方差選擇法 3.1.2 相關系數法 3.1.3 卡方檢驗 3.1.4 互信息法3.2 Wrapper 3.2.1 遞歸特征消除法 3.3 Embedded 3.3.1 基于懲罰項的特征選擇法 3.3.2 基于樹模型的特征選擇法
4. 降維4.1 主成分分析法(PCA) 4.2 線性判別分析法(LDA)