獨斷論

통계기초 정리 3. 가설검증 본문

과학과 기술/통계이론설명

통계기초 정리 3. 가설검증

부르칸 2021. 9. 22. 10:22

신뢰구간

Population의 parameter는 보통 알수없는 값이므로 일정한 신뢰수준(confidence level, $1-\alpha$)으로 원하는 sample statistic의 영역을 구하는데 이를 신뢰구간이라고 한다.

95%의 신뢰수준으로 신뢰구간을 구하고자 한다면

$$\textrm{(Sample statistic)} \pm 2\textrm{(standard error)}$$

가 된다.

 

p-value

$p\textrm{-value} \gt \alpha$이면 H0를 기각하지 못한다. 그러나 이것이 H0가 사실이라는 말은 아니고 H0가 거짓이라고 할만한 충분한 증거가 있지 못하다는 의미이다.

$p\textrm{-value} \le \alpha$이면 H0를 기각하고 H1은 통계적으로 유의미하다고 말한다.

 

Type I and Type II Error

H0를 기각했을때 실제로 H0이 사실인 경우 Type I error라고 말하고 이 확률값은 $\alpha$로 나타낸다.

$$\alpha = P( \textrm{Type I error})$$

여기서 $\alpha$는 보통 0.05를 사용하지만 꼭 이 값일 필요는 없으며 $\alpha$는 또한 significance level이라고도 한다.

 

H0를 기각하지 못했을때 실제로 H0가 거짓일 경우 Type II error라고 말하고 이 확률값은 $\beta$로 나타낸다.

$$\beta = P( \textrm{Type II error})$$

 

표로 나타내면 아래와 같다.


결정

실제
$H_0$이 참

$H_0$이 거짓
$H_0$을 기각 ($H_a$로 결정)

Type I error

Correct decision

$H_0$을 기각하지 못함

Correct decision

Type II error

 

alpha값 0.05를 이용하여 Hypothesis test를 100개를 한다고 가정하자. Hypothesis test를 모두 수행하였을때 100개의 H0를 모두 기각했다면 이 중 5개의 H0는 기각하였지만 사실인 경우에 해당된다(Type I error). 따라서 이러한 Type I error를 줄이기 위하여 alpha값을 hypothesis test의 갯수(100개)로 나누어주는 경우가 있는데 이를 Bonferroni method라고 한다. Bonferroni method는 type II error를 증가시킨다.

 

Power

H0가 거짓일때 H0를 기각할 확률이다.

$$Power = 1 - \beta$$

여기서

$\beta = $ Type II 에러의 확률

 

Power는 아래와 같은 경우에 증가한다.

  • Sample size를 증가시킬때
  • Standard error가 감소할대
  • alpha level를 증가시킬때

위 세가지 경우 모두 H0를 기각할 가능성이 커지므로 power가 증가한다.

 

Sample size가 일정할때 $\alpha$를 감소시키면 $\beta$가 증가한다. $\alpha$와 $\beta$를 모두 감소시키려면 sample size를 증가시켜야만 한다.

 

H0를 기각하지 못하였을때 아래 2가지 경우에 해당한다.

  • H0가 참이거나
  • sample size가 작아서 H0를 기각하지 못하였을 경우에 해당한다.

 

Effect size

Sample size가 커짐에 따라 작은변화임에도 불구하고 통계적으로 의미있는 결과가 나오는데 샘플의 크기가 커지면 샘플의  standard error도 작아지기때문이다. 따라서 단순히 두 측정값의 차이를 보고 판단하는 경우가 있는데 이를  effect size락 한다.

 

자주 사용되는 effect size의 test로 Cohen's d가 있다.

 

Cohen's d

두 그룹의 평균을 비교하는데 사용된다.

$$d = \frac {\bar{x}_1 - \bar{x}_2} {s_p}$$

여기서

$$s_p = \sqrt{ \frac { (n_1 - 1) s_1^2 + (n_2 - 1) s_2^2 } {n_1 + n_2 - 2} }$$

 

일반적으로 사용되는 해석

 Cohen's d  해석
 0.0  ~ 0.2
 0.2 ~ 0.5
 0.5 ~ 0.8
 0.8 이상
 Little or no effect
 Small
 Medium
 Large

 

 

 

Comments