机器学习在数据分析中的应用¶

Data Analysis with Machine Learning (DAinML)

课程概述

本课程系统介绍数据分析的完整流程，从数据收集、清洗、探索性分析到建模与预测。课程涵盖描述性统计与推断统计的理论基础，特征工程的实用技巧，以及无监督学习与监督学习的核心算法。通过本课程的学习，能够掌握从原始数据到可行动洞察的全链路分析能力。

课程导览¶

Lecture 1 — 数据分析导论

数据流水线总览：数据收集、理解、清洗、探索、建模与目标设定。Python 基础环境搭建。

前往 Lecture 1
Lecture 2 — 数据类型与抽样

定量数据（区间 / 比率）与分类数据（名义 / 序数）的区分；概率与非概率抽样方法（随机、分层、整群、雪球等）。

前往 Lecture 2
Lecture 3 — 特征工程

特征创建、转换、提取与选择；数据质量保障（缺失值、重复值、异常值处理）；特征缩放（Min-max / Standard scaling）。

前往 Lecture 3
Lecture 4 — 描述统计与可视化

中央趋势（均值、中位数、众数）、分布形态（偏度、多峰）；双变量相关性分析（Pearson's r、Spearman's rho）；数据可视化。

前往 Lecture 4
Lecture 5 — 推断统计与回归分析

假设检验（t 检验、方差分析、卡方检验）、第一类 / 第二类错误；回归分析入门（线性回归、逻辑回归、岭回归）。

前往 Lecture 5
Lecture 6 — 回归进阶与无监督学习

Cook's Distance 与影响力分析、虚拟变量、非参数线性回归（LOWESS/LOESS）；聚类分析（K-means、层次聚类、DBSCAN）与 PCA。

前往 Lecture 6
Lecture 7 — 监督学习与分类

监督学习（SVM、决策树、随机森林）、强化学习（Q-learning、DQN）；分类问题评估：混淆矩阵、准确率、精确率、召回率、F1-score。

前往 Lecture 7
Lecture 8 — K 近邻算法

KNN 算法原理与实现；距离度量与多数投票 / 加权投票机制；K 值选择对模型的影响。

前往 Lecture 8