일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 선형회귀분석
- repeated measures ANOVA
- 독사방여기요
- 풍백
- Histogram
- 낙랑군
- 우분투
- linear regression
- 지리지
- ANOVA
- 한서지리지
- 히스토그램
- 한서
- 패수
- categorical variable
- 태그를 입력해 주세요.
- 유주
- 창평
- 신라
- 기자조선
- 통계
- post hoc test
- 통계학
- 고구려
- R
- 단군
- 기자
- spss
- t test
- 후한서
- Today
- Total
獨斷論
통계기초 정리 2. 표집분포(Sampling distribution) 본문
통계량(Statistic)은 통계적인 목적을 가지고 sample에서 계산된 값을 의미한다. 예를 들어 샘플로부터 계산된 평균이나 표준편차 같은 값들이 statistic에 해당한다. Statistic은 sample로부터 계산되므로 sample을 여러번 취하여 계산되었을때 statistic은 분포를 갖게 되며 이를 sampling distribution이라고 말한다.
Sampling distribution 예제1
N=2099인 Population의 가상의 값에 대한 평균이 2.238이고 표준편차가 3.066이라고 가정하자.
이 population으로부터 sample size n = 10으로 샘플링하며 평균과 표준편차를 구해보면(아래 std error는 sample mean의 표준편차이다. 두번째 샘플링에서 std error는 3.890과 2.301들의 표준편차이고 세번째 샘플링에서 std error는 3.890과 2.301과 2.578들의 표준편차이다.)
첫번째 샘플링 mean=3.890, std=3.954
두번째 샘플링 mean=2.301, std=2.332, std error=1.124, sample mean = (3.890+2.301)/2 = 3.095
세번째 샘플링 mean=2.578, std=3.041, std error=0.849, sample mean = (3.890+2.301+2.578)/3=2.923
네번째 샘플링 mean=1.477, std=1.857, std error=1.002, sample mean = 2.562
다섯째 샘플링 mean=1.49, std=1.877, std error=0.991 sample mean = 2.347
여섯째 샘플링 mean=1.351, std=1.776, std error=0.975 sample mean = 2.181
...
...
...
106번째 샘플링 mean=1.864, std=2.044, std error=0.992, sample mean=2.224
...
...
...
1106번째 샘플링 mean=0.789, std=0.506, std error=0.948, sample mean=2.262
...
...
...
10106번째 샘플링 mean=1.953, std=3.02, std error=0.966, sample mean=2.242
10106번째 샘플링을 하였을때 sample mean=2.242로 population mean=2.238에 가까워졌으며 샘플링을 무한히 반복하면 sample mean은population mean으로 수렴한다.
Sampling distribution 예제2: 동전 던지기
동전이 앞뒤로 균일하다면 앞면이 나올 확률은 1/2이다. 즉 population mean이 1/2이다. 이 동전 "100번 던지기"를 무한히 반복하여 평균을 구하면(sample size n=100)
첫번째샘플링 mean=0.600
두번째샘플링 mean=0.800, std erorr=0.141, sample mean=0.700
세번째샘플링 mean=0.400, std erorr=0.200, sample mean=0.600
네번째샘플링 mean=0.600, std erorr=0.163, sample mean=0.600
다섯째샘플링 mean=0.600, std erorr=0.141, sample mean=0.600
여섯째샘플링 mean=0.600, std erorr=0.126, sample mean=0.600
일곱째샘플링 mean=1.000, std erorr=0.190, sample mean=0.657
여덟째샘플링 mean=0.400, std erorr=0.198, sample mean=0.625
...
...
...
1009번째 샘플링 mean=0.400, std=0.224, sample mean=0.499
Sample size와 standard error
sample size가 클수록 standard error는 감소한다. sample size가 클수록 첫번째샘플링과 두번째샘플링 등의 각각의 샘플링에서 구한 통계량이 크게 변화하지 않는다.
동전던지기를 예를들어보자.
sample size n이 5일때, 10일때, 50일때, 100일때, 500일때 5가지의 경우에 대하여 1000번 샘플링했을때 standard error를 계산하면
sample size n=5일때 1000번 샘플링하면 sample mean=0.510, std error=0.235
sample size n=10일때 1000번 샘플링하면 sample mean=0.515, std error=0.156
sample size n=50일때 1000번 샘플링하면 sample mean=0.499, std error=0.068
sample size n=100일때 1000번 샘플링하면 sample mean=0.500, std error=0.050
sample size n=500일때 1000번 샘플링하면 sample mean=0.500, std error=0.022
sample size가 클수록 1000번 샘플링했을대 standard error가 작아짐을 알수 있다.