일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- t test
- post hoc test
- R
- ANOVA
- 풍백
- 히스토그램
- 신라
- 태그를 입력해 주세요.
- 선형회귀분석
- 유주
- 패수
- 기자조선
- 한서
- spss
- repeated measures ANOVA
- 지리지
- 후한서
- 한서지리지
- categorical variable
- 통계학
- 우분투
- 창평
- 기자
- Histogram
- 고구려
- 독사방여기요
- linear regression
- 낙랑군
- 통계
- 단군
- Today
- Total
목록과학과 기술 (233)
獨斷論
Pearson's correlation 모집단의 상관관계는 $rho$로 나타내고 샘플의 상관관계는 $r$로 나타낸다. 두 샘플 x와 y에 대한 상관관계를 구하려면 $$ r = \frac {1} {n-1} \sum \left( \frac {x - \bar{x}} {s_x}\right) \left( \frac{y - \bar{y}} {s_y} \right)$$ 여기서 $s_x$는 샘플 x의 표준편차이고 $s_y$는 샘플 y의 표준편차이다. $\bar{x}$는 샘플 x의 평균이다. 이제 두 샘플의 상관관계를 구해보자 데이터 exam.df = read.csv("d:/tmp/exam.csv", header = TRUE) x = exam.df$Quiz_Average y = exam.df$Final mean_x = ..
어떤 사건이 시간당 발생할 속도(비율)이 평균적으로 이미 알려져 있고 이 값을 $r$라고 가정하자. 즉 일정시간 $N$당 이 사건이 $k$번 일어난다고 이미 알려져 있다면 $r = k / N$이다. 이때 이 사건이 $t$라는 시간동안 $x$번 일어날 확률을 구하면 이는 Poisson distribution에 해당되며 아래와 같이 구한다. $$Pr(x) = \frac {(r \, t)^x e^{-rt}} {x!}$$ 여기서 $rt$를 $\lambda$로 주로 나타내고 rate parameter라고도 부른다. Probability mass function을 $\lambda$와 같이 나타내면 $$f(x; \lambda) = Pr(X=x) = \frac {\lambda^x e^{-\lambda}} {x!}$$ ..
SAS 라이브러리 파일을 받아서 원하는 디렉토리에 저장한다. 일원빈도표(one-way frequency table) libname icdb 'd:\tmp'; proc freq data=icdb.back; tables sex race; run; 위 SAS 코드를 실행하면 sex와 race 두 범주형변수에 대하여 일원빈도표(일원도수표)를 만든다. tables sex와 race를 넣지 않으면 모든변수에 대하여 도수표를 만들게 된다. 범주형변수의 각 수준(level)에 대하여 빈도표를 만들려면 proc sort를 수행한 후에 proc freq 안에 by 문장을 넣어서 SAS 코드를 수행하면 된다. proc sort data=icdb.back out=s_back; by sex; run; proc freq data..
4. Two Independent Proportions 신뢰구간 신뢰구간을 구하는 일반적인 형태는 항상 같다. $$\textrm{sample statistic} \pm \textrm{(multiplier) (standard error)}$$ $np \ge 10$이고 $n (1-p) \ge 10$이면 정규분포로 근사할수 있고, 독립된 샘플이 2개일때 신뢰구간은 아래와 같이 구한다. standard error만 독립된 2개의 샘플에 맞게 고쳐주면 된다. $$ \left( \hat{p}_1 - \hat{p}_2 \right) \pm z^* \sqrt{ \frac{ \hat{p}_1 (1-\hat{p}_1) }{n_1} + \frac{ \hat{p}_2 (1-\hat{p}_2) }{n_2} }$$ 예제) 동성간..
3. One Sample Paired Means 신뢰구간 구하기 일반적으로 신뢰구간을 구하는 방법은 항상 같다. $$\textrm{sample statistic} \pm \left( \textrm{multiplier} \right) \, \left( \textrm{standard error} \right) $$ Paired means의 신뢰구간을 구하기 위해서는 다음과 같이 구한다. $$ CI = \bar{x}_d \pm t^* \left( \frac {s_d} {\sqrt{n}} \right) $$ 예제) 100명의 학생을 샘플을 취하여 중간고사와 기말고사의 점수차이 평균이 4이고 표준편차가 6이었을때 95% 신뢰구간을 구하면 $x_d = 4$ $s_d = 6$ $n = 100$ $t^* = 1.984..
신뢰구간 일반적인 형태 $$\textrm{sample statistic} \pm \textrm{(multiplier)} \, \textrm{(standard error)}$$ 여기서 (multiplier) x (standard error)를 margin of error라고도 한다. 검정통계량 일반적인 $$ \textrm{test statistic} = \frac {\textrm{sample statistic} - \textrm{null parameter}} {\textrm{standard error}} $$ 1. One Sample Proportion 신뢰구간 구하기 샘플의 비율 $\hat{p} = \frac {X}{n}$이라고 할때 $n \hat{p} \ge 10$이고 $n(1-\hat{p}) \ge ..
신뢰구간 Population의 parameter는 보통 알수없는 값이므로 일정한 신뢰수준(confidence level, $1-\alpha$)으로 원하는 sample statistic의 영역을 구하는데 이를 신뢰구간이라고 한다. 95%의 신뢰수준으로 신뢰구간을 구하고자 한다면 $$\textrm{(Sample statistic)} \pm 2\textrm{(standard error)}$$ 가 된다. p-value $p\textrm{-value} \gt \alpha$이면 H0를 기각하지 못한다. 그러나 이것이 H0가 사실이라는 말은 아니고 H0가 거짓이라고 할만한 충분한 증거가 있지 못하다는 의미이다. $p\textrm{-value} \le \alpha$이면 H0를 기각하고 H1은 통계적으로 유의미하다고 말..
$X$가 연속인 확률변수이고 누적분포함수(cumulative distribution function, CDF)가 $F_X (x)$일때 $Y=F_X (X)$로 정의되는 확률변수 $Y$는 (0, 1) 사이의 균일분포를 따른다. $X$가 정규분포를 따른다고 할때 정규분포를 갖는 난수 10 000개를 생성하고 이 난수 10 000개에 대한 누적정규분포함수값을 구하면 이 10 000개의 누적정규분포함수값들은 0과 1사이의 균일분포를 따른다는 말이다. # 1만개의 정규분포를 따르는 난수 발생 x