일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | |
7 | 8 | 9 | 10 | 11 | 12 | 13 |
14 | 15 | 16 | 17 | 18 | 19 | 20 |
21 | 22 | 23 | 24 | 25 | 26 | 27 |
28 | 29 | 30 |
- R
- 한서
- 유주
- 태그를 입력해 주세요.
- 통계
- 우분투
- 기자
- 후한서
- 단군
- 한서지리지
- repeated measures ANOVA
- 풍백
- ANOVA
- Histogram
- post hoc test
- 고구려
- t test
- categorical variable
- spss
- 선형회귀분석
- 통계학
- linear regression
- 패수
- 독사방여기요
- 창평
- 신라
- 낙랑군
- 지리지
- 히스토그램
- 기자조선
- Today
- Total
목록전체 글 (436)
獨斷論
SAS 라이브러리 파일을 받아서 원하는 디렉토리에 저장한다. 일원빈도표(one-way frequency table) libname icdb 'd:\tmp'; proc freq data=icdb.back; tables sex race; run; 위 SAS 코드를 실행하면 sex와 race 두 범주형변수에 대하여 일원빈도표(일원도수표)를 만든다. tables sex와 race를 넣지 않으면 모든변수에 대하여 도수표를 만들게 된다. 범주형변수의 각 수준(level)에 대하여 빈도표를 만들려면 proc sort를 수행한 후에 proc freq 안에 by 문장을 넣어서 SAS 코드를 수행하면 된다. proc sort data=icdb.back out=s_back; by sex; run; proc freq data..
여러개의 t test를 수행하면 type I 에러가 증가하지만 ANOVA를 하면 이를 줄일수 있다. One-way ANOVA에서는 F test를 사용한다. F statistic은 개념적으로 다음과 같다. $$F = \frac {\textrm{Between groups variability}} {\textrm{Within group variability}} $$ Variability라고 함은 mean square로 나타낼수 있다. $$F = \frac {MS_{Between} }{MS_{Within}}$$ ANOVA table로 정리하여 위 F statistic값을 구하면 다음과 같다. 여기서 $k : $ group index, $k = 1, 2, 3, \cdots, K$ $K : $ 총 그룹 갯수 $i ..
4. Two Independent Proportions 신뢰구간 신뢰구간을 구하는 일반적인 형태는 항상 같다. $$\textrm{sample statistic} \pm \textrm{(multiplier) (standard error)}$$ $np \ge 10$이고 $n (1-p) \ge 10$이면 정규분포로 근사할수 있고, 독립된 샘플이 2개일때 신뢰구간은 아래와 같이 구한다. standard error만 독립된 2개의 샘플에 맞게 고쳐주면 된다. $$ \left( \hat{p}_1 - \hat{p}_2 \right) \pm z^* \sqrt{ \frac{ \hat{p}_1 (1-\hat{p}_1) }{n_1} + \frac{ \hat{p}_2 (1-\hat{p}_2) }{n_2} }$$ 예제) 동성간..
3. One Sample Paired Means 신뢰구간 구하기 일반적으로 신뢰구간을 구하는 방법은 항상 같다. $$\textrm{sample statistic} \pm \left( \textrm{multiplier} \right) \, \left( \textrm{standard error} \right) $$ Paired means의 신뢰구간을 구하기 위해서는 다음과 같이 구한다. $$ CI = \bar{x}_d \pm t^* \left( \frac {s_d} {\sqrt{n}} \right) $$ 예제) 100명의 학생을 샘플을 취하여 중간고사와 기말고사의 점수차이 평균이 4이고 표준편차가 6이었을때 95% 신뢰구간을 구하면 $x_d = 4$ $s_d = 6$ $n = 100$ $t^* = 1.984..
신뢰구간 일반적인 형태 $$\textrm{sample statistic} \pm \textrm{(multiplier)} \, \textrm{(standard error)}$$ 여기서 (multiplier) x (standard error)를 margin of error라고도 한다. 검정통계량 일반적인 $$ \textrm{test statistic} = \frac {\textrm{sample statistic} - \textrm{null parameter}} {\textrm{standard error}} $$ 1. One Sample Proportion 신뢰구간 구하기 샘플의 비율 $\hat{p} = \frac {X}{n}$이라고 할때 $n \hat{p} \ge 10$이고 $n(1-\hat{p}) \ge ..
신뢰구간 Population의 parameter는 보통 알수없는 값이므로 일정한 신뢰수준(confidence level, $1-\alpha$)으로 원하는 sample statistic의 영역을 구하는데 이를 신뢰구간이라고 한다. 95%의 신뢰수준으로 신뢰구간을 구하고자 한다면 $$\textrm{(Sample statistic)} \pm 2\textrm{(standard error)}$$ 가 된다. p-value $p\textrm{-value} \gt \alpha$이면 H0를 기각하지 못한다. 그러나 이것이 H0가 사실이라는 말은 아니고 H0가 거짓이라고 할만한 충분한 증거가 있지 못하다는 의미이다. $p\textrm{-value} \le \alpha$이면 H0를 기각하고 H1은 통계적으로 유의미하다고 말..
$X$가 연속인 확률변수이고 누적분포함수(cumulative distribution function, CDF)가 $F_X (x)$일때 $Y=F_X (X)$로 정의되는 확률변수 $Y$는 (0, 1) 사이의 균일분포를 따른다. $X$가 정규분포를 따른다고 할때 정규분포를 갖는 난수 10 000개를 생성하고 이 난수 10 000개에 대한 누적정규분포함수값을 구하면 이 10 000개의 누적정규분포함수값들은 0과 1사이의 균일분포를 따른다는 말이다. # 1만개의 정규분포를 따르는 난수 발생 x
SAS 라이브러리 파일을 받아서 원하는 디렉토리에 저장한다. 아래 SAS 코드를 수행하면 기본적인 univariate의 결과들이 출력된다. libname icdb 'd:\tmp'; proc univariate data=icdb.hem2; var rbc; run; var rbc를 추가하지 않으면 모든 변수에 대해서 수행된다. normal 옵션을 추가하면 Shapiro-Wilk, Kolmogorov-Smirnov, Cramer-von Mises, and Anderson-Darling 등의 정규분포 테스트 결과를 출력한다. . libname icdb 'd:\tmp'; proc univariate data=icdb.hem2 normal; var rbc; run;