Lecture 7¶
1. Machine Learning¶
1.1. Supervised Learning¶
使用有标签的数据进行训练,在有显性指导的情况下进行学习,用于预测数据的结果。常用的方法有线性回归、逻辑回归、支持向量机(SVM)、决策树、随机森林等。
1.2. Reinforcement Learning¶
围绕智能体与环境之间的交互进行学习。智能体通过与环境的交互来学习如何在给定状态下采取行动,以最大化累积奖励。常用的方法有Q-learning、SARSA、Deep Q-Network(DQN)等。
2. Classification Problems¶
Classification是一种监督学习方法,用于将数据分为不同的类别。
将数据分为training set和test set。训练集用于训练模型,测试集用于评估模型的性能。
Classification的评估指标有准确率、精确率、召回率、F1-score等。
Confusion Matrix:混淆矩阵,是一种用于评估分类模型性能的工具。它展示了模型预测结果与实际结果之间的关系,如下:
Predicted Positive | Predicted Negative | |
---|---|---|
Actual Positive | True Positive (TP) | False Negative (FN) |
Actual Negative | False Positive (FP) | True Negative (TN) |
Accuracy:准确率,是指模型预测正确的样本数占总样本数的比例,公式如下: $$ Accuracy = \frac{TP + TN}{TP + TN + FP + FN} $$
Recall:召回率,是指实际为正类的样本中,被模型预测为正类的比例: $$ Recall = \frac{TP}{TP + FN} $$
Precision:精确率,是指模型预测为正类的样本中,实际为正类的比例,公式如下: $$ Precision = \frac{TP}{TP + FP} $$
Specificity:特异性,是指实际为负类的样本中,被模型预测为负类的比例,公式如下: $$ Specificity = \frac{TN}{TN + FP} $$
F1-score是精确率和召回率的调和平均数,公式如下:
值域在0到1之间,越接近1表示模型性能越好。
Threshold Choice:阈值选择,是指在分类模型中选择一个合适的阈值来将预测结果转换为类别标签。
AUC(Area Under Curve):曲线下面积,是一种用于评估分类模型性能的指标。它表示模型在不同阈值下的性能,值域在0到1之间,越接近1表示模型性能越好。
ROC曲线(Receiver Operating Characteristic Curve):接收者操作特征曲线,是一种用于评估分类模型性能的工具。它展示了模型在不同阈值下的真正率和假正率之间的关系。
2.1. Logistic Regression¶
逻辑回归用于预测一个dependent variable(因变量)与一个或多个independent variables(自变量)之间的关系,其中dependent variable是categorical variable(分类变量)。
如,基于GRE、Rank、GPA来预测是否被录取。 也就是说,逻辑回归用于预测一个binary outcome,即回答是与否的问题。
2.2. Decision Trees¶
决策树是一个监督学习算法,用于分类和回归任务。它把决策和结果表示为树形结构。每个节点表示一个特征的测试,每个分支表示测试结果,每个叶子节点表示一个类标签或回归值。
决策树的优点是易于理解和解释,只需要少量的数据预处理,可以处理数值型和分类型数据,能够可视化决策过程。
2.2.1. Classification Trees¶
分类树用于分类任务。它通过对特征进行分裂来将数据划分为不同的类别。每个节点表示一个特征的测试,每个分支表示测试结果,每个叶子节点表示一个类标签。
2.2.2. Regression Trees¶
回归树用于回归任务。它通过对特征进行分裂来将数据划分为不同的区域。每个节点表示一个特征的测试,每个分支表示测试结果,每个叶子节点表示一个数值预测。
2.2.3. Structure of Decision Trees¶
-Root Node:根节点,表示整个数据集。 -Internal Node:内部节点,表示一个特征的测试。 -Leaf Node:叶子节点,表示一个类标签或回归值。 -Branch:分支,表示测试结果。
二元分类,approve or reject。
2.2.4. Gini Impurity Measure¶
Gini impurity measure用于评估分类树的分裂质量。它表示一个节点中样本的不纯度,值域在0到~0.5之间,越接近0表示节点越纯,越接近0.5表示节点越不纯。
Gini impurity的计算公式如下: $$ Gini = 1 - \sum_{i=1}^{n} p_i^2 $$
其中,\(p_i\)表示第i类样本在节点中的比例,n表示类别数。 Gini impurity measure的值越小,表示节点越纯,分裂质量越好。
例如:10个样本中有6个A类,4个B类,则Gini impurity为: $$ Gini = 1 - (0.6^2 + 0.4^2) = 1 - (0.36 + 0.16) = 1 - 0.52 = 0.48 $$
0.48说明这个节点不纯,分裂质量不好,需要继续分裂。
2.2.5. Entropy¶
Entropy用于评估分类树的分裂质量。它表示一个节点中样本的不确定性,值域在0到1之间,越接近0表示节点越纯,越接近1表示节点越不纯。 Entropy的计算公式如下: $$ Entropy = - \sum_{i=1}^{n} p_i \cdot log_2(p_i) $$
其中,\(p_i\)表示第i类样本在节点中的比例,n表示类别数。 Entropy的值越小,表示节点越纯,分裂质量越好。