Lecture 4¶
参数有:Ratio(比例)、Interval(区间)、Ordinal(序数)、Nominal(名义)。
1. Quantitative Data¶
Descriptive Statistics:描述性统计,主要用于描述数据的基本特征。
中央趋势:均值、中位数、众数。
正态分布:t分布、F分布、卡方分布等。
Skewness:偏度,描述数据分布的对称性。unimodal(单峰)、bimodal(双峰)、multimodal(多峰)。
2. Bivariate Statistics - Correlation¶
相关性分析:描述两个变量之间的关系。
Pearson'r:皮尔逊相关系数,描述两个变量之间的线性关系。从-1到1,越接近1或-1,相关性越强。
Spearman's rho:斯皮尔曼相关系数,描述两个变量之间的单调关系。从-1到1,越接近1或-1,相关性越强。
Correlation 和 Causation:相关性和因果关系。相关性不代表因果关系。
3. Data Visualization¶
- Bar Graph:条形图,适用于分类变量的可视化。
- Histogram:直方图,适用于连续变量的可视化。
- Pie Chart:饼图,适用于分类变量的可视化。
- Box Plot:箱线图,适用于连续变量的可视化。
- Violin Plot:小提琴图,适用于连续变量的可视化。
- Line Plot:折线图,适用于时间序列数据的可视化。
- Area Plot:面积图,适用于时间序列数据的可视化。
- Stacked Area Plot:堆叠面积图,适用于时间序列数据的可视化。
- Bubble Plot:气泡图,适用于三个变量的可视化。
- Heatmap:热力图,适用于两个变量的可视化,展示大量数据的相关性。
- Radar Chart/Spider Chart:雷达图,展示不同领域的比较。