跳转至

机器学习在数据分析中的应用

  Data Analysis with Machine Learning (DAinML)


课程概述

本课程系统介绍数据分析的完整流程,从数据收集、清洗、探索性分析到建模与预测。课程涵盖描述性统计与推断统计的理论基础,特征工程的实用技巧,以及无监督学习与监督学习的核心算法。通过本课程的学习,能够掌握从原始数据到可行动洞察的全链路分析能力。

课程导览

  •   Lecture 1 — 数据分析导论


    数据流水线总览:数据收集、理解、清洗、探索、建模与目标设定。Python 基础环境搭建。

    前往 Lecture 1

  •   Lecture 2 — 数据类型与抽样


    定量数据(区间 / 比率)与分类数据(名义 / 序数)的区分;概率与非概率抽样方法(随机、分层、整群、雪球等)。

    前往 Lecture 2

  •   Lecture 3 — 特征工程


    特征创建、转换、提取与选择;数据质量保障(缺失值、重复值、异常值处理);特征缩放(Min-max / Standard scaling)。

    前往 Lecture 3

  •   Lecture 4 — 描述统计与可视化


    中央趋势(均值、中位数、众数)、分布形态(偏度、多峰);双变量相关性分析(Pearson's r、Spearman's rho);数据可视化。

    前往 Lecture 4

  •   Lecture 5 — 推断统计与回归分析


    假设检验(t 检验、方差分析、卡方检验)、第一类 / 第二类错误;回归分析入门(线性回归、逻辑回归、岭回归)。

    前往 Lecture 5

  •   Lecture 6 — 回归进阶与无监督学习


    Cook's Distance 与影响力分析、虚拟变量、非参数线性回归(LOWESS/LOESS);聚类分析(K-means、层次聚类、DBSCAN)与 PCA。

    前往 Lecture 6

  •   Lecture 7 — 监督学习与分类


    监督学习(SVM、决策树、随机森林)、强化学习(Q-learning、DQN);分类问题评估:混淆矩阵、准确率、精确率、召回率、F1-score。

    前往 Lecture 7

  •   Lecture 8 — K 近邻算法


    KNN 算法原理与实现;距离度量与多数投票 / 加权投票机制;K 值选择对模型的影响。

    前往 Lecture 8