獨斷論

통계기초 정리 4. 가설검증 본문

과학과 기술/통계이론설명

통계기초 정리 4. 가설검증

부르칸 2021. 9. 23. 03:47

신뢰구간 일반적인 형태

sample statistic±(multiplier)(standard error)

여기서 (multiplier) x (standard error)를 margin of error라고도 한다.

 

검정통계량 일반적인

test statistic=sample statisticnull parameterstandard error

 

1. One Sample Proportion

신뢰구간 구하기

샘플의 비율 ˆp=Xn이라고 할때 nˆp10이고 n(1ˆp)10이면 정규분포로 보고 근사할수 있다.

 

정규분포 근사에 의한 비율의 신뢰구간

ˆp±zˆp(1ˆp)n

 

z*의 값은 아래와 같다.

신뢰수준 z*
90%
95%
98%
99%
1.645
1.960
2.327
2.576

 

최소한의 샘플크기

n=(zM)2ˆp(1ˆp)

 

 

예제)

1168명의 샘플 중 747명이 노후준비가 되어있지 않다고 대답했을때, 전체인구가 노후준비가 되어 있지 않은 사람 비율의 95% 신뢰구간을 구하면

ˆp=747/1168=0.640

nˆp=747

n(1ˆp)=1168(10.640)=421

 

np와 n(1-p)가 10보다 크므로 정규분포로 가정하고 신뢰구간을 구한다

SE=ˆp(1ˆp)n=0.64(10.64)1168=0.014

z*는 95%일때 1.96

따라서 신뢰구간은

0.64±1.96(0.014) = [0.614, 0.688]

 

검정통계량 구하기

z=ˆpp0p0(1p0n

 

예제)

100명의 샘플 중 87명이 오른손잡이라면 전체인구 중 80% 이상이 오른손잡이겠는가?

H0:p=0.8

Ha:p>0.8

ˆp=0.87

p0=0.8

z=(0.870.8)/(0.8(10.8)/100)0.5=1.75

p-value=P(z1.75)=0.04

H0를 기각한다.

 

2. One Sample Mean

sample size가 30보다 크면 t-distribution은 정규분포에 가까워진다.

신뢰구간 구하기, t-test

ˉx±tsn

t*의 값은 t-분포표를 보고 찾는데 자유도 df=n1이다

 

예제)

어떤집단의 30명 샘플의 나이의 평균이 28살이고 표준편차가 4.4일때 95%의 신뢰수준으로 모집단의 나이의 신뢰구간을 구하면

n=30

s=4.4

ˉx=28

df=301=29

SE=s/n=4.4/30=0.803

two-tailed test이므로 α가 0.025이고 자유도가 29일때 t값을 찾으면 2.045이다.

신뢰구간은

28±2.045(0.803)=[26.357,29.643]

 

최소한의 샘플크기는

n=(z˜σM)2

여기서

z=z multiplier for given confidence level

˜σ= estimated population standard deviation

M= margin of error

 

검정통계량 구하기, t-테스트

t=ˉxμ0s/n

여기서

ˉx= sample mean

μ0= hypothesized population mean$

s= sample standard deviation

n= sample size

 

예제 1)

57명의 대학생을 샘플로 취하여 맥박수를 측정했을때 평균이 70.4이고 표준편차가 9.95였다. 이때 전체 대학생의 평균 맥박수가 72와 다르다고 할수 있겠는가

 

n이 30보다 크므로 t-분포를 이용한다.

H0:μ=72

Ha:μ72

t=70.4729.95/57=1.214

df=56

 

p-value=P(t1.214)+P(t>1.214)=0.2298

p값은 아래와 같이 R에서 구할수 있다.

> pt(q=-1.214, df=56, lower.tail=TRUE)*2
[1] 0.2298428

p-value가 0.05보다 크므로 H0를 기각할수가 없다.

 

예제2)

국민전체가 하루에 커피를 3잔 이상 마시는지 조사해보고자 샘플 50명을 취하여 하루에 먹는 커피량을 조사했더니 평균이 3.8잔이고 표준편차가 1.5였다. 이때 국민전체가 커피를 하루에 3잔이상 마신다고 할수 있겠는가?

 

H0:μ=3

Ha:μ>3

ˉx=3.8

s=1.5

μ=3

df=501=49

t=3.831.5/50=3.771

p-value=P(t3.771)=0.0002191

> 1 - pt(q=3.771, df=49, lower.tail=TRUE)
[1] 0.0002191372

> pt(q=3.771, df=49, lower.tail=FALSE)
[1] 0.0002191372

H0 기각

하루에 3잔 이상 마신다고 할수 있다.

 

검정통계량 구하기, z-test

모집단이 정규분포를 따르고 모집단의 표준편차가 알려져 있을때 사용할수 있다.

z=ˉxμ0σ/n

 

 

Comments