獨斷論

확률이론 정리3. 이산분포(Discrete distribution) 본문

과학과 기술/통계이론설명

확률이론 정리3. 이산분포(Discrete distribution)

부르칸 2021. 10. 13. 06:58

Probability Mass fucntion(p.m.f)

이산확률변수 $X$에 대하여 이산질량함수(probability mass function) $P(X = x) = f(x)$는 다음을 만족한다.

  • $P(X = x) = f(x) \gt 0$
  • $\sum\limits_{x \in S} f(x) = 1$
  • $P(X \in A) = \sum\limits_{x \in A} f(x)$

Cumulative distribution function(CDF)

확률변수 $X$의 누적분포함수는 다음과 같이 정의된다.

$$F_X (t) = P(X \le t)$$

 

CDF의 성질들

  1. $F_X (t)$는 증가하는 함수이다. t의 범위는 $-\infty \lt t \lt \infty$
  2. $0 \le F_X (t) \le 1$
  3. 확률변수 X의 최소값이 a라면 $F_X (a) = P(X \le a) = P(X=a) = f_X (a) $. 만약 c가 a 보다 작으면 $F_X (b) = 0$
  4. $b_i$가 X의 최대값이라면 $F_X (b) = 1 $
  5. 단순히 distribution function이라고도 부른다.

기본연산들

다음의 확률을 cdf로 나타내어보자

  • $P(X \le a)= F_X (a) $
  • $f_X (a) = P(X = a)$, 여기서 $f_X (x)$는 X의  p.m.f
    $P(X = a) = P(X \le a) - P(X \le a-1) = F_X (a) - F_X (a-1)$
  • $P(X < a)$
    $P(X < a) = P(X \le a) - P(X = a) = P(X \le a-1) = F_X (a-1)$
  • $P(X \ge a)
    $P(X \ge a) = 1 - P(X \le a-1) = 1 - F_X (a-1)

Hypergeometric distribution

N개의 공이 들어 있는 주머니에 빨간공이 m개 들어있고 N-m개의 파란공이 들어있다고 가정하자. 이때 n개의 공을 다시 넣지 않고 뽑기만 할때 빨간공을 x개 뽑을 확률은 무엇인가 계산해보면

전체 경우의 수는 N개에서 n을 뽑는것이므로 $\dbinom{N}{n}$

빨간공을 x개 뽑는 경우의 수는
전체 빨간공 m에서 x를 뽑고 전체 파란공 N-m에서 n-x를 뽑아야하므로 $\dbinom{m}{x} \dbinom{N-m}{n-x}$

따라서 p.m.f는

$$P(X = x) = f(x) = \frac { \dbinom{m}{x}  \dbinom{N-m}{n-x}  } {\dbinom{N}{x}}$$

 

예제)

호수에 600마리의 물고기가 살고있을때 과학자들이 연구를 위하여 80마리의 물고기에 꼬리표를 달았다고 가정을 하자. 이때 호수로부터 15마리의 물고기를 건져낼때 과학자들이 꼬리표를 달은 물고기가 $x$마리일 확률은?

전체경우의 수는 600마리에서 15개를 건져내는것이므로 $\dbinom{600}{15}$

꼬리표를 단 물고기를 건져내는 경우의 수는 꼬리표를 달고있는 80마리에서 x를 건져내고 나머지 600-80마리에서 15-x를 건져내야하므로 $\dbinom{80}{x} \dbinom{600-80}{15-x}$

따라서 확률은

$$P(X=x) = \frac {\dbinom{80}{x} \dbinom{600-80}{15-x}} {\dbinom{600}{15}}$$

 

수학적기대(mathematical expectation)

p.m.f가 f(x)인 확률변수 X에 대해 함수 u(x)의 기대값 또는 수학적기대는?

$$E \left[ u(X) \right]=\sum\limits_{x\in S}u(x)f(x)$$

 

예제) 주사위를 던져 나오는 숫자의 기대값은?

$f(x) = 1/6$

$u(x) = 1, 2, 3, 4, 5, 6$

$E(u(X)) = 1(1/6) + 2(1/6) + \cdots + 6(1/6) = 3.5$

 

정리: 수학적기대(mathematical expectation)

  1. 상수 c에 대하여 $E(c) = c$
    $\begin{align} E(c) &= \sum_{x \in S} c f(x) \\ &= c \sum_{x \in S} f(x) \\ &= c \cdot 1 = c \end{align}$
  2. c가 상수이고 u가 함수일때 $E\left[c \, u(X) \right] = cE\left[ u(X) \right]$
    $\begin{align} E[c \, u(X)] &= \sum_{x \in S} c u(x) f(x)  \\ &= c \sum_{x \in S} u(x) f(x) \\ &= c E[u(X)] \end{align}$
  3. $c_1$과 $c_2$가 상수이고 $u_1$과 $u_2$가 함수일때  $E[c_1 u_1 (X) + c_2 u_2 (X) ] = c_1 E(u_1 (X)) + c_2 E(u_2 (X))$
    $\begin{align} E[c_1 u_1 (X) + c_2 u_2 (X) ] &= \sum_{x \in S} (c_1 u_1 (x) + c_2 u_2 (x) ) f(x) \\ &= \sum_{x \in S} c_1 u_1 (x) f(x) + \sum_{x \in S} c_2 u_2 (x) f(x) \\ &= c_1 \sum_{x \in S} u_1 (x) f(x) + c_2 \sum_{x \in S} u_2 (x) f(x) \\ &= c_1 E[ u_1 (X)] + c_2 E[u_2 (X)] \end{align}$

예제) p.m.f가 다음과 같을때

x     0    1    2    3
f(x)  0.2  0.1  0.4  0.3

$\begin{align}E(X) &= \sum x f(x) \\ &= 0(0.2) + 1(0.1) + 2(0.4) + 3(0.3) \\ &= 1.8 \end{align}$

$\begin{align}E(X^2) &= \sum x^2 f(x) \\ &= 0(0.2) + 1(0.1) + 4(0.4) + 9(0.3) \\ &= 4.4 \end{align}$

$\begin{align}E(2X + 3X^2) &= 2 E(X) + 3 E(^2) \\ &= 2 \times 1.8 + 3 \times 4.4 \\ &= 16.8 \end{align}$

 

First Moment about the Origin

$u(X)=X$일때 $E(u(X)) = E(X) = \sum_{x in S} x f(x)$가 되고 이를 X의 기대값 또는 평균이라고 한다. $\mu$로도 나타내며 기대값은 또한 first moment about the origin이라고도 한다.

 

X의 분산

$u(X) = (X - \mu)^2$일때 u(X)의 기대값을 X의 분산이라고 하고 $\sigma^2$ 또는 $Var(X)$로 나타낸다.

$\begin{align} E[u(X)] &= E[(X - \mu)^2] \\ &= \sum_{s \in S} (x - \mu)^2 f(x) \end{align}$

이는 또한 second moment of X about the mean $\mu$라고도 부른다.

 

정리

$\sigma^2 = Var(X) = E(X^2) - \mu^2$

$\begin{align} Var(X) &= E[(X-\mu)^2] \\ &= E[X^2 - 2X\mu + \mu^2] \\ &= E(X^2) - 2\mu E(X) + \mu^2 \\ &= E(X^2) - 2\mu^2 + \mu^2 \\ &= E(X^2) - \mu^2 \end{align}$

 

정리

확률변수 X의 평균과 분산이 $\mu_X$와 $\sigma_X ^2$일때 확률변수 $Y = aX + b$의 평균과 분산은

$\mu_Y = a \mu_X + b$

$\sigma_Y ^2 = a^2 \sigma_X ^2$

$\sigma_Y = |a| \sigma_X$

 

Sample Mean

n개의 데이터 $x_1 , x_2 , \cdots , x_n$의 sample mean은

$$\bar{x} = \frac {x_1 + x_2 + \cdots + x_n} {n} = \frac {1}{n} \sum_{i=1}^n {x_i}$$

 

Sample Variance

$s^2$으로 나타내고

$$s^2 = \frac { 1 } {n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2$$

 

정리

$$s^2=\dfrac{1}{n-1}\left[\sum\limits_{i=1}^n x^2_i - n{\bar{x}}^2\right]$$

Comments