机器学习在数据分析中的应用¶
Data Analysis with Machine Learning (DAinML)
课程概述
本课程系统介绍数据分析的完整流程,从数据收集、清洗、探索性分析到建模与预测。课程涵盖描述性统计与推断统计的理论基础,特征工程的实用技巧,以及无监督学习与监督学习的核心算法。通过本课程的学习,能够掌握从原始数据到可行动洞察的全链路分析能力。
课程导览¶
-
Lecture 1 — 数据分析导论
数据流水线总览:数据收集、理解、清洗、探索、建模与目标设定。Python 基础环境搭建。
-
Lecture 2 — 数据类型与抽样
定量数据(区间 / 比率)与分类数据(名义 / 序数)的区分;概率与非概率抽样方法(随机、分层、整群、雪球等)。
-
Lecture 3 — 特征工程
特征创建、转换、提取与选择;数据质量保障(缺失值、重复值、异常值处理);特征缩放(Min-max / Standard scaling)。
-
Lecture 4 — 描述统计与可视化
中央趋势(均值、中位数、众数)、分布形态(偏度、多峰);双变量相关性分析(Pearson's r、Spearman's rho);数据可视化。
-
Lecture 5 — 推断统计与回归分析
假设检验(t 检验、方差分析、卡方检验)、第一类 / 第二类错误;回归分析入门(线性回归、逻辑回归、岭回归)。
-
Lecture 6 — 回归进阶与无监督学习
Cook's Distance 与影响力分析、虚拟变量、非参数线性回归(LOWESS/LOESS);聚类分析(K-means、层次聚类、DBSCAN)与 PCA。
-
Lecture 7 — 监督学习与分类
监督学习(SVM、决策树、随机森林)、强化学习(Q-learning、DQN);分类问题评估:混淆矩阵、准确率、精确率、召回率、F1-score。
-
Lecture 8 — K 近邻算法
KNN 算法原理与实现;距离度量与多数投票 / 加权投票机制;K 值选择对模型的影响。