일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 우분투
- spss
- categorical variable
- 풍백
- 지리지
- 통계
- 후한서
- t test
- 선형회귀분석
- post hoc test
- 독사방여기요
- 태그를 입력해 주세요.
- 단군
- 신라
- ANOVA
- 히스토그램
- 창평
- linear regression
- R
- repeated measures ANOVA
- 낙랑군
- 패수
- Histogram
- 유주
- 한서지리지
- 기자
- 한서
- 기자조선
- 통계학
- 고구려
- Today
- Total
獨斷論
통계기초 정리 6. 가설검증 본문
4. Two Independent Proportions
신뢰구간
신뢰구간을 구하는 일반적인 형태는 항상 같다.
sample statistic±(multiplier) (standard error)
np≥10이고 n(1−p)≥10이면 정규분포로 근사할수 있고, 독립된 샘플이 2개일때 신뢰구간은 아래와 같이 구한다. standard error만 독립된 2개의 샘플에 맞게 고쳐주면 된다.
(ˆp1−ˆp2)±z∗√ˆp1(1−ˆp1)n1+ˆp2(1−ˆp2)n2
예제)
동성간의 결혼이 불법인지 대학생들의 의견을 묻는 조사에서 남학생은 199명중 107명이 불법이라고 대답했고 여학생은 251명중 185명이 불법이라고 대답했다고 가정하자. 이때 동성간 결혼이 불법이라고 생각하는 남학생 비율과 여학생 비율 차이에대한 95% 신뢰구간을 구하여보자.
nm=199
nf=251
ˆpm=107/199=0.538
ˆpf=185/251=0.737
CI=(0.737−0.538)±1.96√0.737(1−0.737)251+0.538(1−0.538)199=0.199± 1.96*0.088 = [0.111, 0.287]
가설검증
H0:p1=p2
Ha:p1≠p2
이다.
np≥10이고 n(1−p)≥10일때 test statistic은 다음과 같이 구한다.
z=ˆp1−ˆp2SE0
여기서 standard error SE0를 구하려면
Standard error
SE0=√ˆp(1−ˆp)n1+ˆp(1−ˆp)n2=√ˆp(1−ˆp)(1n1+1n2)
standard error에 0이 붙은 이유는 H0 가정하에 standard error를 구하였다는 것을 나타내기 위함이다.
그리고 두 샘플 p에 대한 pooled estimate는 다음과 같다.
ˆp=ˆp1n1+ˆp2n2n1+n2
예제
아이스크림회사에서 아이스크림을 담아주는 cone과 bowl에 대한 어른과 어린이들의 선호도를 조사하고자한다. 500명의 샘플을 취하였고 그중 어른은 240명이고 어린이는 260명이다. 이때 어른은 124명이 cone을 선호했고 아이들은 90명이 cone을 선호했다.
pa를 어른들의 cone선호도라고 하고 pc를 아이들의 cone 선호도라고하면
pa=124/240=0.517
pc=90/260=0.346
napa=124
na(1−pa)=116
ncpc=90
nc(1−pc)=170
이므로 정규분포근사를 사용할수 있다.
H0:pa=pc
Ha:pa≠pc
ˆp=(124+90)/(240+260)=0.428
SE0=√0.428(1−0.428)(1/240+1/260)=0.04429
z=(124/240−90/260)/0.04429=3.850
이때 p-value는 0.000118이므로 H0를 기각한다.
> pnorm(q=3.850, lower.tail=FALSE)*2
[1] 0.0001181178
따라서 어른의 cone에 대한 선호도는 아이들의 cone에 대한 선호도와 다르다.
R script를 사용하면 다음과 같다.
> x = c(124, 90)
> n = c(240, 260)
> prop.test(x, n, alternative = "two.sided", correct=FALSE)
2-sample test for equality of proportions without continuity
correction
data: x out of n
X-squared = 14.821, df = 1, p-value = 0.0001182
alternative hypothesis: two.sided
95 percent confidence interval:
0.0848327 0.2561929
sample estimates:
prop 1 prop 2
0.5166667 0.3461538
위 script에서 correct=FALSE는 Yates' continuity correction를 사용하지 않는다는 의미이다.
5. Two Independent Means
신뢰구간
(ˉx1−ˉx2)±t∗√s21n1+s22n2
자유도는 가장 작은 n값에서 구한다.
df=minimum(n)−1
예제
A학교의 시험성적과 B학교의 시험성적을 비교하면
A school B school
xbar 41.48 40.79
s 6.03 6.79
n 239 138
ˉx1−ˉx2=41.48−40.79=0.69
SE=√6.032/239+6.792/138=0.697
df=138−1=137
t∗=1.97743
> qt(p=0.025, df=137, lower.tail=FALSE)
[1] 1.977431

CI=0.69±1.97743(0.697)=0.69±1.378=[0.688,2.068]
가설검증
test statistic은 다음과 같이 구한다.
t=ˉx1−ˉx2Sp√1n1+1n2
여기서 모집단 표준편차의 pooled estimator, Sp는
Sp=√(n1−1)s21+(n2−1)s22n1+n2−2
자유도는
df=n1+n2−2
예제
샘플 x1이 (90, 98, 84, 75, 62)이고 샘플 x2가 (85, 75, 63, 45, 47, 32)일때 이 샘플이 서로 다른지 비교하고자 한다면
> x1 = c(90, 98, 84, 75, 62) # 데이터 x1
> x2 = c(85, 75, 63, 45, 47, 32) # 데이터 x2
> mean_x1 = mean(x1) # x1의 평균
> mean_x2 = mean(x2) # x2의 평균
> n1 = length(x1) # x1 샘플크기
> n2 = length(x2) # x2 샘플크기
> s1 = sd(x1) # x1 표준편차
> s2 = sd(x2) # x2 표준편차
> Sp = sqrt(((n1-1)*s1^2 + (n2-1)*s2^2) / (n1+n2-2))
# 모집단 표준편차의 pooled estimator
> t_stat = (mean_x1 - mean_x2) / (Sp * sqrt(1/n1 + 1/n2))
# test statistic
> pvalue = pt(q=t_stat, df = n1+n2-2, lower.tail=FALSE)*2
# p-value 구하기
> pvalue
[1] 0.05089079
R에서 제공하는 함수를 이용하면
> t.test(x1, x2, alternative="two.sided", var.equal=TRUE)
Two Sample t-test
data: x1 and x2
t = 2.2514, df = 9, p-value = 0.05089
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-0.1150352 48.0483685
sample estimates:
mean of x mean of y
81.80000 57.83333
p-value가 0.05보다 크지만 0.05에 매우 가까우므로 marginally significant라고 해야한다.