일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- Histogram
- 독사방여기요
- t test
- 단군
- 기자
- 후한서
- 유주
- 고구려
- 통계학
- 풍백
- R
- 통계
- 지리지
- 한서
- linear regression
- 신라
- 기자조선
- 한서지리지
- repeated measures ANOVA
- 태그를 입력해 주세요.
- 선형회귀분석
- 패수
- spss
- 창평
- 우분투
- ANOVA
- 히스토그램
- 낙랑군
- categorical variable
- post hoc test
- Today
- Total
獨斷論
확률이론 정리3. 이산분포(Discrete distribution) 본문
Probability Mass fucntion(p.m.f)
이산확률변수 $X$에 대하여 이산질량함수(probability mass function) $P(X = x) = f(x)$는 다음을 만족한다.
- $P(X = x) = f(x) \gt 0$
- $\sum\limits_{x \in S} f(x) = 1$
- $P(X \in A) = \sum\limits_{x \in A} f(x)$
Cumulative distribution function(CDF)
확률변수 $X$의 누적분포함수는 다음과 같이 정의된다.
$$F_X (t) = P(X \le t)$$
CDF의 성질들
- $F_X (t)$는 증가하는 함수이다. t의 범위는 $-\infty \lt t \lt \infty$
- $0 \le F_X (t) \le 1$
- 확률변수 X의 최소값이 a라면 $F_X (a) = P(X \le a) = P(X=a) = f_X (a) $. 만약 c가 a 보다 작으면 $F_X (b) = 0$
- $b_i$가 X의 최대값이라면 $F_X (b) = 1 $
- 단순히 distribution function이라고도 부른다.
기본연산들
다음의 확률을 cdf로 나타내어보자
- $P(X \le a)= F_X (a) $
- $f_X (a) = P(X = a)$, 여기서 $f_X (x)$는 X의 p.m.f
$P(X = a) = P(X \le a) - P(X \le a-1) = F_X (a) - F_X (a-1)$ - $P(X < a)$
$P(X < a) = P(X \le a) - P(X = a) = P(X \le a-1) = F_X (a-1)$ - $P(X \ge a)
$P(X \ge a) = 1 - P(X \le a-1) = 1 - F_X (a-1)
Hypergeometric distribution
N개의 공이 들어 있는 주머니에 빨간공이 m개 들어있고 N-m개의 파란공이 들어있다고 가정하자. 이때 n개의 공을 다시 넣지 않고 뽑기만 할때 빨간공을 x개 뽑을 확률은 무엇인가 계산해보면
전체 경우의 수는 N개에서 n을 뽑는것이므로 $\dbinom{N}{n}$
빨간공을 x개 뽑는 경우의 수는
전체 빨간공 m에서 x를 뽑고 전체 파란공 N-m에서 n-x를 뽑아야하므로 $\dbinom{m}{x} \dbinom{N-m}{n-x}$
따라서 p.m.f는
$$P(X = x) = f(x) = \frac { \dbinom{m}{x} \dbinom{N-m}{n-x} } {\dbinom{N}{x}}$$
예제)
호수에 600마리의 물고기가 살고있을때 과학자들이 연구를 위하여 80마리의 물고기에 꼬리표를 달았다고 가정을 하자. 이때 호수로부터 15마리의 물고기를 건져낼때 과학자들이 꼬리표를 달은 물고기가 $x$마리일 확률은?
전체경우의 수는 600마리에서 15개를 건져내는것이므로 $\dbinom{600}{15}$
꼬리표를 단 물고기를 건져내는 경우의 수는 꼬리표를 달고있는 80마리에서 x를 건져내고 나머지 600-80마리에서 15-x를 건져내야하므로 $\dbinom{80}{x} \dbinom{600-80}{15-x}$
따라서 확률은
$$P(X=x) = \frac {\dbinom{80}{x} \dbinom{600-80}{15-x}} {\dbinom{600}{15}}$$
수학적기대(mathematical expectation)
p.m.f가 f(x)인 확률변수 X에 대해 함수 u(x)의 기대값 또는 수학적기대는?
$$E \left[ u(X) \right]=\sum\limits_{x\in S}u(x)f(x)$$
예제) 주사위를 던져 나오는 숫자의 기대값은?
$f(x) = 1/6$
$u(x) = 1, 2, 3, 4, 5, 6$
$E(u(X)) = 1(1/6) + 2(1/6) + \cdots + 6(1/6) = 3.5$
정리: 수학적기대(mathematical expectation)
- 상수 c에 대하여 $E(c) = c$
$\begin{align} E(c) &= \sum_{x \in S} c f(x) \\ &= c \sum_{x \in S} f(x) \\ &= c \cdot 1 = c \end{align}$ - c가 상수이고 u가 함수일때 $E\left[c \, u(X) \right] = cE\left[ u(X) \right]$
$\begin{align} E[c \, u(X)] &= \sum_{x \in S} c u(x) f(x) \\ &= c \sum_{x \in S} u(x) f(x) \\ &= c E[u(X)] \end{align}$ - $c_1$과 $c_2$가 상수이고 $u_1$과 $u_2$가 함수일때 $E[c_1 u_1 (X) + c_2 u_2 (X) ] = c_1 E(u_1 (X)) + c_2 E(u_2 (X))$
$\begin{align} E[c_1 u_1 (X) + c_2 u_2 (X) ] &= \sum_{x \in S} (c_1 u_1 (x) + c_2 u_2 (x) ) f(x) \\ &= \sum_{x \in S} c_1 u_1 (x) f(x) + \sum_{x \in S} c_2 u_2 (x) f(x) \\ &= c_1 \sum_{x \in S} u_1 (x) f(x) + c_2 \sum_{x \in S} u_2 (x) f(x) \\ &= c_1 E[ u_1 (X)] + c_2 E[u_2 (X)] \end{align}$
예제) p.m.f가 다음과 같을때
x 0 1 2 3
f(x) 0.2 0.1 0.4 0.3
$\begin{align}E(X) &= \sum x f(x) \\ &= 0(0.2) + 1(0.1) + 2(0.4) + 3(0.3) \\ &= 1.8 \end{align}$
$\begin{align}E(X^2) &= \sum x^2 f(x) \\ &= 0(0.2) + 1(0.1) + 4(0.4) + 9(0.3) \\ &= 4.4 \end{align}$
$\begin{align}E(2X + 3X^2) &= 2 E(X) + 3 E(^2) \\ &= 2 \times 1.8 + 3 \times 4.4 \\ &= 16.8 \end{align}$
First Moment about the Origin
$u(X)=X$일때 $E(u(X)) = E(X) = \sum_{x in S} x f(x)$가 되고 이를 X의 기대값 또는 평균이라고 한다. $\mu$로도 나타내며 기대값은 또한 first moment about the origin이라고도 한다.
X의 분산
$u(X) = (X - \mu)^2$일때 u(X)의 기대값을 X의 분산이라고 하고 $\sigma^2$ 또는 $Var(X)$로 나타낸다.
$\begin{align} E[u(X)] &= E[(X - \mu)^2] \\ &= \sum_{s \in S} (x - \mu)^2 f(x) \end{align}$
이는 또한 second moment of X about the mean $\mu$라고도 부른다.
정리
$\sigma^2 = Var(X) = E(X^2) - \mu^2$
$\begin{align} Var(X) &= E[(X-\mu)^2] \\ &= E[X^2 - 2X\mu + \mu^2] \\ &= E(X^2) - 2\mu E(X) + \mu^2 \\ &= E(X^2) - 2\mu^2 + \mu^2 \\ &= E(X^2) - \mu^2 \end{align}$
정리
확률변수 X의 평균과 분산이 $\mu_X$와 $\sigma_X ^2$일때 확률변수 $Y = aX + b$의 평균과 분산은
$\mu_Y = a \mu_X + b$
$\sigma_Y ^2 = a^2 \sigma_X ^2$
$\sigma_Y = |a| \sigma_X$
Sample Mean
n개의 데이터 $x_1 , x_2 , \cdots , x_n$의 sample mean은
$$\bar{x} = \frac {x_1 + x_2 + \cdots + x_n} {n} = \frac {1}{n} \sum_{i=1}^n {x_i}$$
Sample Variance
$s^2$으로 나타내고
$$s^2 = \frac { 1 } {n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2$$
정리
$$s^2=\dfrac{1}{n-1}\left[\sum\limits_{i=1}^n x^2_i - n{\bar{x}}^2\right]$$