Lecture 3¶
1. Feature Engineering¶
1.1. Feature Engineering¶
特征创建、特征转换、特征提取、特征选择。
1.2. Data Preparation¶
数据准备,数据清洗,数据组织,数据集成,数据变换。
从validity、reliability、comleteness、precision、timeliness、integrity来保证数据质量。
1.3. Data Quality¶
处理缺失值:使用NA、NULL、NaN等表示缺失值。 处理重复值:使用drop_duplicates()函数删除重复值。 处理异常值:winsorization(将异常值替换为没那么极端的值)、z-score(标准化)等方法;同时报告均值和中位数。
1.4. Feature Creation¶
Domain-specific:基于某个领域的知识来创建特征。 Data-driven:基于数据本身的特征来创建特征。 Synthetic:基于已有特征的组合来创建特征。
1.5. Feature Scaling¶
Min-max scaling:将数据缩放到[0, 1]区间。 Standard scaling:将数据缩放到均值为0,标准差为1的正态分布。 Robust scaling:使用中位数和四分位数来缩放数据,适用于异常值较多的数据。
1.6. Feature Transformation¶
One-hot encoding:将分类变量转换为二进制变量。 其他方式有:对数、平方根、reciprocal等。
1.7. Feature Selection¶
Filter:使用统计方法来选择特征,如卡方检验、互信息等。 Wrapper:使用模型来选择特征,如递归特征消除(RFE)等。 Embedded:使用模型本身来选择特征,如Lasso回归、决策树等。结合了Filter和Wrapper的优点。
简单的说,Filter是先选特征再建模,Wrapper是先建模再选特征,Embedded是边建模边选特征。
简单的基准线可以使用方差分析、相关性分析等方法来选择特征,还可以使用互信息、卡方检验等方法来选择特征。