과학과 기술/통계이론설명
통계기초 정리 1
부르칸
2021. 9. 8. 02:06
1. Mean
- Population Mean
$$\mu = \frac {\sum x} {N}$$
- Sample Mean
$$\bar{x} = \frac {\sum x} {n}$$
Median
중간에 있는 값
Mode
가장 많은 frequency를 갖는 값
Skew left
Skew right
2. Standard deviation
- Sample standard deviation
$$s = \sqrt{\frac {\sum (x - \bar{x})^2}{n-1}}$$
- Population standard deviation
$$\sigma = \sqrt{ \frac {\sum (x-\mu)^2}{N}}$$
3. Empirical rule
정규분포 데이터의 95%는 평균의 2$\sigma$ 범위 안에 들어온다.
4. z-score
표준정규분포를 따르는 데이터로 만들수는 있지만 항상 표준정규분포를 따르지는 않는다.
$$z = \frac{x - \bar{x}}{s}$$
여기서
$x=$ 데이터변수
$\bar{x}=$ x의 평균
$s=$ x의 표준편차
5. Five Number
- Minimum: 가장 작은 값을 의미하지만 보통 $Q1 - 1.5 \times IQR$ 로 사용
- First quartile Q1: 25th percentile
- Median: Q2, 50th percentile
- Third quartile Q3: 75th percentile
- Maximum 가장 큰값을 의미하지만 보통 $Q3 + 1.5 \times IQR$
Minimum과 Maximum 밖의 값을 outlier이다.
Interquartile range
$$IQR = Q_3 - Q_1$$
6. Box plot
가운데 네모로 된건 Q1에서 Q3의 값들이고 그 중간에 Median이다.
위아래 선으로 연결된것은 최대값과 최소값을 나타내고
별표는 Outlier이다.
7. Pearson's Correlation
$$r_{xy} = \frac {\sum (x_i - \bar{x}) (y_i - \bar{y})} {\sqrt{\sum (x_i - \bar{x})^2} \sqrt{\sum (y_i - \bar{y})^2}}$$
Properties
- $-1 \le r \le 1$
- r이 양수이면 x가 증가할때 y도 증가, r이 음수이면 x가 증가할때 y가 감소
r의 값 | |
0 ~ 0.2 | Very weak |
0.2 ~ 0.4 | Weak |
0.4 ~ 0.6 | Moderate |
0.6 ~ 0.8 | Strong |
0.8 ~ 1.0 | Very strong |
Outlier에 민감하게 변화한다.