Skip to content

Lecture 4

参数有:Ratio(比例)、Interval(区间)、Ordinal(序数)、Nominal(名义)。

1. Quantitative Data

Descriptive Statistics:描述性统计,主要用于描述数据的基本特征。

中央趋势:均值、中位数、众数。

1746770229966

正态分布:t分布、F分布、卡方分布等。

Skewness:偏度,描述数据分布的对称性。unimodal(单峰)、bimodal(双峰)、multimodal(多峰)。

2. Bivariate Statistics - Correlation

相关性分析:描述两个变量之间的关系。

Pearson'r:皮尔逊相关系数,描述两个变量之间的线性关系。从-1到1,越接近1或-1,相关性越强。

1746770448749

Spearman's rho:斯皮尔曼相关系数,描述两个变量之间的单调关系。从-1到1,越接近1或-1,相关性越强。

Correlation 和 Causation:相关性和因果关系。相关性不代表因果关系。

3. Data Visualization

  • Bar Graph:条形图,适用于分类变量的可视化。
  • Histogram:直方图,适用于连续变量的可视化。
  • Pie Chart:饼图,适用于分类变量的可视化。
  • Box Plot:箱线图,适用于连续变量的可视化。
  • Violin Plot:小提琴图,适用于连续变量的可视化。
  • Line Plot:折线图,适用于时间序列数据的可视化。
  • Area Plot:面积图,适用于时间序列数据的可视化。
  • Stacked Area Plot:堆叠面积图,适用于时间序列数据的可视化。
  • Bubble Plot:气泡图,适用于三个变量的可视化。
  • Heatmap:热力图,适用于两个变量的可视化,展示大量数据的相关性。
  • Radar Chart/Spider Chart:雷达图,展示不同领域的比较。