獨斷論

통계기초 정리 4. 가설검증 본문

과학과 기술/통계이론설명

통계기초 정리 4. 가설검증

부르칸 2021. 9. 23. 03:47

신뢰구간 일반적인 형태

$$\textrm{sample statistic} \pm \textrm{(multiplier)} \, \textrm{(standard error)}$$

여기서 (multiplier) x (standard error)를 margin of error라고도 한다.

 

검정통계량 일반적인

$$ \textrm{test statistic} = \frac {\textrm{sample statistic} - \textrm{null parameter}} {\textrm{standard error}} $$

 

1. One Sample Proportion

신뢰구간 구하기

샘플의 비율 $\hat{p} = \frac {X}{n}$이라고 할때 $n \hat{p} \ge 10$이고 $n(1-\hat{p}) \ge 10$이면 정규분포로 보고 근사할수 있다.

 

정규분포 근사에 의한 비율의 신뢰구간

$$ \hat{p} \pm z^*  \sqrt {\frac {\hat{p} (1 - \hat{p})} {n}}  $$

 

z*의 값은 아래와 같다.

신뢰수준 z*
90%
95%
98%
99%
1.645
1.960
2.327
2.576

 

최소한의 샘플크기

$$  n = \left( \frac {z^*} {M} \right)^2 \hat{p} (1 - \hat{p})$$

 

 

예제)

1168명의 샘플 중 747명이 노후준비가 되어있지 않다고 대답했을때, 전체인구가 노후준비가 되어 있지 않은 사람 비율의 95% 신뢰구간을 구하면

$\hat{p} = 747 / 1168 = 0.640$

$n \hat{p} = 747 $

$n (1 - \hat{p}) = 1168 (1 - 0.640) = 421 $

 

np와 n(1-p)가 10보다 크므로 정규분포로 가정하고 신뢰구간을 구한다

$SE = \sqrt{ \frac {\hat{p} (1 - \hat{p})} {n} } = \sqrt{ \frac {0.64 (1 - 0.64)} {1168} }  = 0.014$

z*는 95%일때 1.96

따라서 신뢰구간은

$0.64 \pm 1.96 (0.014)$ = [0.614, 0.688]

 

검정통계량 구하기

$$ z = \frac {\hat{p} - p_0} { \sqrt{ \frac{p_0 (1-p_0} {n}} } $$

 

예제)

100명의 샘플 중 87명이 오른손잡이라면 전체인구 중 80% 이상이 오른손잡이겠는가?

$H_0 : p = 0.8$

$H_a : p \gt 0.8$

$\hat{p} = 0.87$

$p_0 = 0.8$

$z = (0.87 - 0.8) / ( 0.8(1-0.8) / 100 )^{0.5} = 1.75$

$\textrm{p-value} = P(z \ge 1.75) = 0.04$

H0를 기각한다.

 

2. One Sample Mean

sample size가 30보다 크면 t-distribution은 정규분포에 가까워진다.

신뢰구간 구하기, t-test

$$ \bar{x} \; \pm \; t^* \frac {s} {\sqrt{n}} $$

t*의 값은 t-분포표를 보고 찾는데 자유도 $df = n - 1$이다

 

예제)

어떤집단의 30명 샘플의 나이의 평균이 28살이고 표준편차가 4.4일때 95%의 신뢰수준으로 모집단의 나이의 신뢰구간을 구하면

$n=30$

$s = 4.4$

$\bar{x} = 28$

$df = 30-1=29$

$SE = s / \sqrt{n} = 4.4 / \sqrt{30} = 0.803$

two-tailed test이므로 $\alpha$가 0.025이고 자유도가 29일때 t값을 찾으면 2.045이다.

신뢰구간은

$28 \pm 2.045 (0.803) = [26.357, 29.643]$

 

최소한의 샘플크기는

$$ n = \left( \frac{z \, \tilde{\sigma}} {M} \right)^2 $$

여기서

$z = z $ multiplier for given confidence level

$\tilde{\sigma} = $ estimated population standard deviation

$M =$ margin of error

 

검정통계량 구하기, t-테스트

$$ t = \frac { \bar{x} - {\mu}_0 } { {s} / {\sqrt{n}} } $$

여기서

$\bar{x}=$ sample mean

$\mu_0 = $ hypothesized population mean$

$ s = $ sample standard deviation

$n = $ sample size

 

예제 1)

57명의 대학생을 샘플로 취하여 맥박수를 측정했을때 평균이 70.4이고 표준편차가 9.95였다. 이때 전체 대학생의 평균 맥박수가 72와 다르다고 할수 있겠는가

 

n이 30보다 크므로 t-분포를 이용한다.

$H_0 : \mu = 72$

$H_a : \mu \ne 72$

$t = \frac {70.4 - 72} {9.95 / \sqrt{57}} = -1.214$

$df = 56$

 

$\textrm{p-value} = P(t \le -1.214) + P(t \gt 1.214) = 0.2298$

p값은 아래와 같이 R에서 구할수 있다.

> pt(q=-1.214, df=56, lower.tail=TRUE)*2
[1] 0.2298428

p-value가 0.05보다 크므로 H0를 기각할수가 없다.

 

예제2)

국민전체가 하루에 커피를 3잔 이상 마시는지 조사해보고자 샘플 50명을 취하여 하루에 먹는 커피량을 조사했더니 평균이 3.8잔이고 표준편차가 1.5였다. 이때 국민전체가 커피를 하루에 3잔이상 마신다고 할수 있겠는가?

 

$H_0 : \mu = 3$

$H_a : \mu \gt 3$

$\bar{x} = 3.8$

$s = 1.5$

$\mu = 3$

$df = 50-1=49$

$t = \frac { 3.8 - 3 } {  {1.5}  / \sqrt{50}  } = 3.771$

$\textrm{p-value} = P(t \ge 3.771) = 0.0002191$

> 1 - pt(q=3.771, df=49, lower.tail=TRUE)
[1] 0.0002191372

> pt(q=3.771, df=49, lower.tail=FALSE)
[1] 0.0002191372

H0 기각

하루에 3잔 이상 마신다고 할수 있다.

 

검정통계량 구하기, z-test

모집단이 정규분포를 따르고 모집단의 표준편차가 알려져 있을때 사용할수 있다.

$$z = \frac { \bar{x} - \mu_0  } { \sigma / \sqrt{n}  }$$

 

 

Comments