獨斷論

Notice

Recent Posts

Recent Comments

Link

« 2024/04 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

Tags more

Archives

Today

Total

관리 메뉴

목록전체 글 (436)

獨斷論

SAS 문법 - 12: 범주형변수 proc freq 수행하기

SAS 라이브러리 파일을 받아서 원하는 디렉토리에 저장한다. 일원빈도표(one-way frequency table) libname icdb 'd:\tmp'; proc freq data=icdb.back; tables sex race; run; 위 SAS 코드를 실행하면 sex와 race 두 범주형변수에 대하여 일원빈도표(일원도수표)를 만든다. tables sex와 race를 넣지 않으면 모든변수에 대하여 도수표를 만들게 된다. 범주형변수의 각 수준(level)에 대하여 빈도표를 만들려면 proc sort를 수행한 후에 proc freq 안에 by 문장을 넣어서 SAS 코드를 수행하면 된다. proc sort data=icdb.back out=s_back; by sex; run; proc freq data..

과학과 기술/SAS 2021. 10. 3. 04:42

통계기초 정리 7. One-way ANOVA

여러개의 t test를 수행하면 type I 에러가 증가하지만 ANOVA를 하면 이를 줄일수 있다. One-way ANOVA에서는 F test를 사용한다. F statistic은 개념적으로 다음과 같다. $$F = \frac {\textrm{Between groups variability}} {\textrm{Within group variability}} $$ Variability라고 함은 mean square로 나타낼수 있다. $$F = \frac {MS_{Between} }{MS_{Within}}$$ ANOVA table로 정리하여 위 F statistic값을 구하면 다음과 같다. 여기서 $k : $ group index, $k = 1, 2, 3, \cdots, K$ $K : $ 총 그룹 갯수 $i ..

카테고리 없음 2021. 10. 2. 07:37

통계기초 정리 6. 가설검증

4. Two Independent Proportions 신뢰구간 신뢰구간을 구하는 일반적인 형태는 항상 같다. $$\textrm{sample statistic} \pm \textrm{(multiplier) (standard error)}$$ $np \ge 10$이고 $n (1-p) \ge 10$이면 정규분포로 근사할수 있고, 독립된 샘플이 2개일때 신뢰구간은 아래와 같이 구한다. standard error만 독립된 2개의 샘플에 맞게 고쳐주면 된다. $$ \left( \hat{p}_1 - \hat{p}_2 \right) \pm z^* \sqrt{ \frac{ \hat{p}_1 (1-\hat{p}_1) }{n_1} + \frac{ \hat{p}_2 (1-\hat{p}_2) }{n_2} }$$ 예제) 동성간..

과학과 기술/통계이론설명 2021. 10. 1. 03:35

통계기초 정리 5. 가설검증

3. One Sample Paired Means 신뢰구간 구하기 일반적으로 신뢰구간을 구하는 방법은 항상 같다. $$\textrm{sample statistic} \pm \left( \textrm{multiplier} \right) \, \left( \textrm{standard error} \right) $$ Paired means의 신뢰구간을 구하기 위해서는 다음과 같이 구한다. $$ CI = \bar{x}_d \pm t^* \left( \frac {s_d} {\sqrt{n}} \right) $$ 예제) 100명의 학생을 샘플을 취하여 중간고사와 기말고사의 점수차이 평균이 4이고 표준편차가 6이었을때 95% 신뢰구간을 구하면 $x_d = 4$ $s_d = 6$ $n = 100$ $t^* = 1.984..

과학과 기술/통계이론설명 2021. 9. 30. 03:58

통계기초 정리 4. 가설검증

신뢰구간 일반적인 형태 $$\textrm{sample statistic} \pm \textrm{(multiplier)} \, \textrm{(standard error)}$$ 여기서 (multiplier) x (standard error)를 margin of error라고도 한다. 검정통계량 일반적인 $$ \textrm{test statistic} = \frac {\textrm{sample statistic} - \textrm{null parameter}} {\textrm{standard error}} $$ 1. One Sample Proportion 신뢰구간 구하기 샘플의 비율 $\hat{p} = \frac {X}{n}$이라고 할때 $n \hat{p} \ge 10$이고 $n(1-\hat{p}) \ge ..

과학과 기술/통계이론설명 2021. 9. 23. 03:47

통계기초 정리 3. 가설검증

신뢰구간 Population의 parameter는 보통 알수없는 값이므로 일정한 신뢰수준(confidence level, $1-\alpha$)으로 원하는 sample statistic의 영역을 구하는데 이를 신뢰구간이라고 한다. 95%의 신뢰수준으로 신뢰구간을 구하고자 한다면 $$\textrm{(Sample statistic)} \pm 2\textrm{(standard error)}$$ 가 된다. p-value $p\textrm{-value} \gt \alpha$이면 H0를 기각하지 못한다. 그러나 이것이 H0가 사실이라는 말은 아니고 H0가 거짓이라고 할만한 충분한 증거가 있지 못하다는 의미이다. $p\textrm{-value} \le \alpha$이면 H0를 기각하고 H1은 통계적으로 유의미하다고 말..

과학과 기술/통계이론설명 2021. 9. 22. 10:22

확률적분변환(probability integral transform)

$X$가 연속인 확률변수이고 누적분포함수(cumulative distribution function, CDF)가 $F_X (x)$일때 $Y=F_X (X)$로 정의되는 확률변수 $Y$는 (0, 1) 사이의 균일분포를 따른다. $X$가 정규분포를 따른다고 할때 정규분포를 갖는 난수 10 000개를 생성하고 이 난수 10 000개에 대한 누적정규분포함수값을 구하면 이 10 000개의 누적정규분포함수값들은 0과 1사이의 균일분포를 따른다는 말이다. # 1만개의 정규분포를 따르는 난수 발생 x

과학과 기술/통계이론설명 2021. 9. 16. 13:14

SAS 문법 - 11: proc univariate 수행하기

SAS 라이브러리 파일을 받아서 원하는 디렉토리에 저장한다. 아래 SAS 코드를 수행하면 기본적인 univariate의 결과들이 출력된다. libname icdb 'd:\tmp'; proc univariate data=icdb.hem2; var rbc; run; var rbc를 추가하지 않으면 모든 변수에 대해서 수행된다. normal 옵션을 추가하면 Shapiro-Wilk, Kolmogorov-Smirnov, Cramer-von Mises, and Anderson-Darling 등의 정규분포 테스트 결과를 출력한다. . libname icdb 'd:\tmp'; proc univariate data=icdb.hem2 normal; var rbc; run;

과학과 기술/SAS 2021. 9. 15. 01:06

Prev 1 2 3 4 5 6 7 ··· 55 Next

목록전체 글 (436)

獨斷論

티스토리툴바