獨斷論

통계기초 정리 2. 표집분포(Sampling distribution) 본문

과학과 기술/통계이론설명

통계기초 정리 2. 표집분포(Sampling distribution)

부르칸 2021. 9. 8. 05:43

통계량(Statistic)은 통계적인 목적을 가지고 sample에서 계산된 값을 의미한다. 예를 들어 샘플로부터 계산된 평균이나 표준편차 같은 값들이 statistic에 해당한다. Statistic은 sample로부터 계산되므로 sample을 여러번 취하여 계산되었을때 statistic은 분포를 갖게 되며 이를 sampling distribution이라고 말한다.

 

Sampling distribution 예제1

N=2099인 Population의 가상의 값에 대한 평균이 2.238이고 표준편차가 3.066이라고 가정하자.
이 population으로부터 sample size n = 10으로 샘플링하며 평균과 표준편차를 구해보면(아래 std error는 sample mean의 표준편차이다. 두번째 샘플링에서 std error는 3.890과 2.301들의 표준편차이고 세번째 샘플링에서 std error는 3.890과 2.301과 2.578들의 표준편차이다.)

 

첫번째 샘플링 mean=3.890, std=3.954
두번째 샘플링 mean=2.301, std=2.332, std error=1.124, sample mean = (3.890+2.301)/2 = 3.095
세번째 샘플링 mean=2.578, std=3.041, std error=0.849, sample mean = (3.890+2.301+2.578)/3=2.923
네번째 샘플링 mean=1.477, std=1.857, std error=1.002, sample mean = 2.562
다섯째 샘플링 mean=1.49, std=1.877, std error=0.991 sample mean = 2.347
여섯째 샘플링 mean=1.351, std=1.776, std error=0.975 sample mean = 2.181
...
...
...
106번째 샘플링 mean=1.864, std=2.044, std error=0.992, sample mean=2.224
...
...
...
1106번째 샘플링 mean=0.789, std=0.506, std error=0.948, sample mean=2.262
...
...
...
10106번째 샘플링 mean=1.953, std=3.02, std error=0.966, sample mean=2.242

 

10106번째 샘플링을 하였을때 sample mean=2.242로 population mean=2.238에 가까워졌으며 샘플링을 무한히 반복하면 sample mean은population mean으로 수렴한다.

 

Sampling distribution 예제2: 동전 던지기

동전이 앞뒤로 균일하다면 앞면이 나올 확률은 1/2이다. 즉 population mean이 1/2이다. 이 동전 "100번 던지기"를 무한히 반복하여 평균을 구하면(sample size n=100)

 

첫번째샘플링 mean=0.600

두번째샘플링 mean=0.800, std erorr=0.141, sample mean=0.700

세번째샘플링 mean=0.400, std erorr=0.200, sample mean=0.600

네번째샘플링 mean=0.600, std erorr=0.163, sample mean=0.600

다섯째샘플링 mean=0.600, std erorr=0.141, sample mean=0.600

여섯째샘플링 mean=0.600, std erorr=0.126, sample mean=0.600

일곱째샘플링 mean=1.000, std erorr=0.190, sample mean=0.657

여덟째샘플링 mean=0.400, std erorr=0.198, sample mean=0.625

...

...

...

1009번째 샘플링 mean=0.400, std=0.224, sample mean=0.499

 

Sample size와 standard error

sample size가 클수록  standard error는 감소한다. sample size가 클수록 첫번째샘플링과 두번째샘플링 등의 각각의 샘플링에서 구한 통계량이 크게 변화하지 않는다.

 

동전던지기를 예를들어보자.

 

sample size n이 5일때, 10일때, 50일때, 100일때, 500일때 5가지의 경우에 대하여 1000번 샘플링했을때 standard error를 계산하면

 

sample size n=5일때 1000번 샘플링하면 sample mean=0.510, std error=0.235

sample size n=10일때 1000번 샘플링하면 sample mean=0.515, std error=0.156

sample size n=50일때 1000번 샘플링하면 sample mean=0.499, std error=0.068

sample size n=100일때 1000번 샘플링하면 sample mean=0.500, std error=0.050

sample size n=500일때 1000번 샘플링하면 sample mean=0.500, std error=0.022

 

sample size가 클수록 1000번 샘플링했을대 standard error가 작아짐을 알수 있다.

Comments