일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- spss
- 통계학
- ANOVA
- 독사방여기요
- 태그를 입력해 주세요.
- t test
- 유주
- categorical variable
- linear regression
- 고구려
- 히스토그램
- 선형회귀분석
- 패수
- 기자
- R
- 풍백
- 낙랑군
- 기자조선
- 창평
- 후한서
- 우분투
- 단군
- post hoc test
- 한서지리지
- 신라
- repeated measures ANOVA
- 지리지
- Histogram
- 한서
- 통계
- Today
- Total
목록과학과 기술/통계이론설명 (31)
獨斷論
신뢰구간 Population의 parameter는 보통 알수없는 값이므로 일정한 신뢰수준(confidence level, $1-\alpha$)으로 원하는 sample statistic의 영역을 구하는데 이를 신뢰구간이라고 한다. 95%의 신뢰수준으로 신뢰구간을 구하고자 한다면 $$\textrm{(Sample statistic)} \pm 2\textrm{(standard error)}$$ 가 된다. p-value $p\textrm{-value} \gt \alpha$이면 H0를 기각하지 못한다. 그러나 이것이 H0가 사실이라는 말은 아니고 H0가 거짓이라고 할만한 충분한 증거가 있지 못하다는 의미이다. $p\textrm{-value} \le \alpha$이면 H0를 기각하고 H1은 통계적으로 유의미하다고 말..
$X$가 연속인 확률변수이고 누적분포함수(cumulative distribution function, CDF)가 $F_X (x)$일때 $Y=F_X (X)$로 정의되는 확률변수 $Y$는 (0, 1) 사이의 균일분포를 따른다. $X$가 정규분포를 따른다고 할때 정규분포를 갖는 난수 10 000개를 생성하고 이 난수 10 000개에 대한 누적정규분포함수값을 구하면 이 10 000개의 누적정규분포함수값들은 0과 1사이의 균일분포를 따른다는 말이다. # 1만개의 정규분포를 따르는 난수 발생 x
앞서 베이즈 확률표 Bayesian probability table - 5에서 측정값이 y 하나일때만 알아보았는데 여기서는 측정값 y가 여러개일경우를 생각해보자. Random sample $y_1, y_2, \cdots , y_n$가 평균이 $\mu$이고 알려진 표준편차 $\sigma$라고 가정하면 posterior는 $$p( \mu | y_1 , y_2 , \cdots , y_n ) \propto p(\mu) \, p(y_1 , y_2 , \cdots , y_n | \mu)$$ 인데 여기서 y는 모두 독립이므로 $$p( \mu | y_1 , y_2 , \cdots , y_n ) \propto p(\mu) \, p(y_1 | \mu) \, p(y_2 | \mu) \, \cdots \, p(y_n | \m..
통계량(Statistic)은 통계적인 목적을 가지고 sample에서 계산된 값을 의미한다. 예를 들어 샘플로부터 계산된 평균이나 표준편차 같은 값들이 statistic에 해당한다. Statistic은 sample로부터 계산되므로 sample을 여러번 취하여 계산되었을때 statistic은 분포를 갖게 되며 이를 sampling distribution이라고 말한다. Sampling distribution 예제1 N=2099인 Population의 가상의 값에 대한 평균이 2.238이고 표준편차가 3.066이라고 가정하자. 이 population으로부터 sample size n = 10으로 샘플링하며 평균과 표준편차를 구해보면(아래 std error는 sample mean의 표준편차이다. 두번째 샘플링에서 ..
1. Mean Population Mean $$\mu = \frac {\sum x} {N}$$ Sample Mean $$\bar{x} = \frac {\sum x} {n}$$ Median 중간에 있는 값 Mode 가장 많은 frequency를 갖는 값 Skew left Skew right 2. Standard deviation Sample standard deviation $$s = \sqrt{\frac {\sum (x - \bar{x})^2}{n-1}}$$ Population standard deviation $$\sigma = \sqrt{ \frac {\sum (x-\mu)^2}{N}}$$ 3. Empirical rule 정규분포 데이터의 95%는 평균의 2$\sigma$ 범위 안에 들어온다. 4. ..
진단시약이 아래와 같이 건강한 사람과 환자를 진단했다고 가정하면 민감도(sensitivity)는 $P(positive | sick)$이다. Sensitivity = 15 / 17 = 0.882 특이도(specificity)는 $P(negative | healthy)$ Specificity = 19 / 24 = 0.792
Likelihood가 평균이 $\mu$이고 분산이 $\sigma^2$인 정규분포를 따른다면 $$ p(y | \mu) \propto e^{-\frac{1}{2 \sigma^2} (y - \mu)^2} $$ 인데 여기서 중요한점은 $y$는 측정값으로 고정되어 있고 $\mu$가 가능한 모든 값에서 변한다는 것이다. Prior는 2.0, 2.5, 3.0, 3.5, 4.0의 값만 가질수 있고 각각의 확률이 모두 0.2라고 가정한다. 실험으로부터 얻어진 $y| \mu$는 평균이 $\mu$이고 표준편차가 $\sigma = 1$인 정규분포를 따르는데 얻어진 $y$값은 3.2라고 가정할때 베이즈 표(Bayesian table)을 만들어 보자. $\mu$ Prior Likelihood Prior x Likelihood P..
베이즈추론(Bayesian inference)를 prior가 확률함수로 주어졌을때 몇가지 경우에 한하여 해석적인 해를 구할수 있다. 이항분포(Bionomial distribution)함수는 $$ f(y | \pi) = \left(\begin{array}{c}n\\ y\end{array}\right) \pi^y \left( 1- \pi \right)^{n-y} $$ 여기서 y = 1, 2, 3, ..., n 이며 한번 시행할 확률 $\pi$는 고정값이다. 같은 이항분포이지만 y는 고정되어 있고 $\pi$가 변함에 따라서 확률값을 계산한다면 이는 likelihood가 된다. $$ f(y | \pi) = \left(\begin{array}{c}n\\ y\end{array}\right) \pi^y \left( ..