Lecture 6¶
1. Regression Analysis¶
1.1. Influential Data Points¶
Cook's Distance:库克距离,是一种衡量数据点对回归模型影响力的指标。它考虑了数据点的杠杆值和残差平方和。杠杆值是数据点在自变量空间中的位置,残差平方和是数据点在因变量空间中的位置。库克距离越大,说明数据点对回归模型的影响越大。一般来说,库克距离大于4/n(n为样本大小)时,认为该数据点是异常值。
Dummy Variable:虚拟变量,是一种将分类变量转换为数值变量的方法。它将分类变量的每个类别转换为一个二进制变量,表示该类别是否存在。虚拟变量的个数等于分类变量的类别数减去1。
1.2. Non-Parametric Linear Regression¶
Non-parametric linear regression:非参数线性回归,是一种不假设数据分布的线性回归方法。它使用局部加权回归(LOWESS)或局部多项式回归(LOESS)等方法来拟合数据。
2. Machine Learning¶
2.1. Unsupervised Learning¶
使用没有标签的数据进行训练,在没有显性指导的情况下进行学习,用于探索数据的结构和模式。常用的方法有聚类分析、主成分分析(PCA)、独立成分分析(ICA)等。
Clustering:聚类分析,是一种将数据分为不同组的方法。常用的方法有K-means、层次聚类、DBSCAN等。