일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- 선형회귀분석
- 신라
- 독사방여기요
- 낙랑군
- linear regression
- 기자조선
- t test
- 히스토그램
- 통계
- repeated measures ANOVA
- 패수
- 기자
- 태그를 입력해 주세요.
- ANOVA
- post hoc test
- 한서지리지
- 통계학
- 풍백
- 유주
- 창평
- categorical variable
- Histogram
- R
- 한서
- 고구려
- 지리지
- 후한서
- 단군
- spss
- 우분투
- Today
- Total
목록독단론 (438)
獨斷論
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/3kiqZ/btrfa25cJ8z/ST9mfsBPzKfYff6TkE6IJK/img.png)
$X$가 연속인 확률변수이고 누적분포함수(cumulative distribution function, CDF)가 $F_X (x)$일때 $Y=F_X (X)$로 정의되는 확률변수 $Y$는 (0, 1) 사이의 균일분포를 따른다. $X$가 정규분포를 따른다고 할때 정규분포를 갖는 난수 10 000개를 생성하고 이 난수 10 000개에 대한 누적정규분포함수값을 구하면 이 10 000개의 누적정규분포함수값들은 0과 1사이의 균일분포를 따른다는 말이다. # 1만개의 정규분포를 따르는 난수 발생 x
SAS 라이브러리 파일을 받아서 원하는 디렉토리에 저장한다. 아래 SAS 코드를 수행하면 기본적인 univariate의 결과들이 출력된다. libname icdb 'd:\tmp'; proc univariate data=icdb.hem2; var rbc; run; var rbc를 추가하지 않으면 모든 변수에 대해서 수행된다. normal 옵션을 추가하면 Shapiro-Wilk, Kolmogorov-Smirnov, Cramer-von Mises, and Anderson-Darling 등의 정규분포 테스트 결과를 출력한다. . libname icdb 'd:\tmp'; proc univariate data=icdb.hem2 normal; var rbc; run;
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/bn6T9d/btreZ0TRXp7/zFEkHHjtNDMQmHPAgd7vc0/img.png)
ANOVA를 수행하지 않고 데이터만 가지고 상호작용interaction plot을 그려보기로 한다. 아래 SAS데이터라이브러리 파일을 받아서 원하는 디렉토리에 저장한다. 여기서는 d:\tmp에 저장하였다. 그리고 아래 SAS 코드를 실행한다. libname icdb 'd:\tmp'; proc sort data=icdb.back out=back; by sex race; run; proc means data=back noprint; by sex race; var ed_level; output out=muEdu_dat mean=muEdLevel; run; proc plot data=muEdu_dat; plot muEdLevel * race = sex; run; 그룹변수에 대해서 proc sort를 수행하여 b..
앞서 베이즈 확률표 Bayesian probability table - 5에서 측정값이 y 하나일때만 알아보았는데 여기서는 측정값 y가 여러개일경우를 생각해보자. Random sample $y_1, y_2, \cdots , y_n$가 평균이 $\mu$이고 알려진 표준편차 $\sigma$라고 가정하면 posterior는 $$p( \mu | y_1 , y_2 , \cdots , y_n ) \propto p(\mu) \, p(y_1 , y_2 , \cdots , y_n | \mu)$$ 인데 여기서 y는 모두 독립이므로 $$p( \mu | y_1 , y_2 , \cdots , y_n ) \propto p(\mu) \, p(y_1 | \mu) \, p(y_2 | \mu) \, \cdots \, p(y_n | \m..
통계량(Statistic)은 통계적인 목적을 가지고 sample에서 계산된 값을 의미한다. 예를 들어 샘플로부터 계산된 평균이나 표준편차 같은 값들이 statistic에 해당한다. Statistic은 sample로부터 계산되므로 sample을 여러번 취하여 계산되었을때 statistic은 분포를 갖게 되며 이를 sampling distribution이라고 말한다. Sampling distribution 예제1 N=2099인 Population의 가상의 값에 대한 평균이 2.238이고 표준편차가 3.066이라고 가정하자. 이 population으로부터 sample size n = 10으로 샘플링하며 평균과 표준편차를 구해보면(아래 std error는 sample mean의 표준편차이다. 두번째 샘플링에서 ..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/NNq05/btrek8ElHBJ/9WdFaVWNkVCuop37d72bRk/img.png)
1. Mean Population Mean $$\mu = \frac {\sum x} {N}$$ Sample Mean $$\bar{x} = \frac {\sum x} {n}$$ Median 중간에 있는 값 Mode 가장 많은 frequency를 갖는 값 Skew left Skew right 2. Standard deviation Sample standard deviation $$s = \sqrt{\frac {\sum (x - \bar{x})^2}{n-1}}$$ Population standard deviation $$\sigma = \sqrt{ \frac {\sum (x-\mu)^2}{N}}$$ 3. Empirical rule 정규분포 데이터의 95%는 평균의 2$\sigma$ 범위 안에 들어온다. 4. ..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/pQILG/btrd9klJb5x/lkg36YZQPSxATysYi0KgKK/img.png)
진단시약이 아래와 같이 건강한 사람과 환자를 진단했다고 가정하면 민감도(sensitivity)는 $P(positive | sick)$이다. Sensitivity = 15 / 17 = 0.882 특이도(specificity)는 $P(negative | healthy)$ Specificity = 19 / 24 = 0.792
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/b2CtZ1/btrec3WzJeL/3WmQDHEFrtoHKyRsCjtvv0/img.png)
SAS 라이브러리 파일을 내려받아 원하는 하드드라이브에 저장한다. 여기서는 d:\tmp에 저장하였다. 1. CONTENTS와 PRINT libname icdb "d:\tmp\"; proc contents data=icdb.hem2; run; proc print data=icdb.hem2 (obs=15); run; libname으로 저장된 디렉토리를 설정하고 hem2.sas7bat를 불러들이기 위해서 libname에 확장자를 제외한 SAS library 파일명을 사용한다. proc contents는 데이터의 개략적인 사항들을 보여주고 proc print는 데이터의 변수값들을 보여주는데 여기서 (obs = 15)라는 옵션을 사용하면 전체 observation 중에서 위에서 15개만 보여주게 된다. 2. PR..