獨斷論

확률이론 정리3. 이산분포(Discrete distribution) 본문

과학과 기술/통계이론설명

확률이론 정리3. 이산분포(Discrete distribution)

부르칸 2021. 10. 13. 06:58

Probability Mass fucntion(p.m.f)

이산확률변수 X에 대하여 이산질량함수(probability mass function) P(X=x)=f(x)는 다음을 만족한다.

  • P(X=x)=f(x)>0
  • xSf(x)=1
  • P(XA)=xAf(x)

Cumulative distribution function(CDF)

확률변수 X의 누적분포함수는 다음과 같이 정의된다.

FX(t)=P(Xt)

 

CDF의 성질들

  1. FX(t)는 증가하는 함수이다. t의 범위는 <t<
  2. 0FX(t)1
  3. 확률변수 X의 최소값이 a라면 FX(a)=P(Xa)=P(X=a)=fX(a). 만약 c가 a 보다 작으면 FX(b)=0
  4. bi가 X의 최대값이라면 FX(b)=1
  5. 단순히 distribution function이라고도 부른다.

기본연산들

다음의 확률을 cdf로 나타내어보자

  • P(Xa)=FX(a)
  • fX(a)=P(X=a), 여기서 fX(x)는 X의  p.m.f
    P(X=a)=P(Xa)P(Xa1)=FX(a)FX(a1)
  • P(X<a)
    P(X<a)=P(Xa)P(X=a)=P(Xa1)=FX(a1)
  • P(Xa)P(X \ge a) = 1 - P(X \le a-1) = 1 - F_X (a-1)

Hypergeometric distribution

N개의 공이 들어 있는 주머니에 빨간공이 m개 들어있고 N-m개의 파란공이 들어있다고 가정하자. 이때 n개의 공을 다시 넣지 않고 뽑기만 할때 빨간공을 x개 뽑을 확률은 무엇인가 계산해보면

전체 경우의 수는 N개에서 n을 뽑는것이므로 \dbinom{N}{n}

빨간공을 x개 뽑는 경우의 수는
전체 빨간공 m에서 x를 뽑고 전체 파란공 N-m에서 n-x를 뽑아야하므로 \dbinom{m}{x} \dbinom{N-m}{n-x}

따라서 p.m.f는

P(X = x) = f(x) = \frac { \dbinom{m}{x}  \dbinom{N-m}{n-x}  } {\dbinom{N}{x}}

 

예제)

호수에 600마리의 물고기가 살고있을때 과학자들이 연구를 위하여 80마리의 물고기에 꼬리표를 달았다고 가정을 하자. 이때 호수로부터 15마리의 물고기를 건져낼때 과학자들이 꼬리표를 달은 물고기가 x마리일 확률은?

전체경우의 수는 600마리에서 15개를 건져내는것이므로 \dbinom{600}{15}

꼬리표를 단 물고기를 건져내는 경우의 수는 꼬리표를 달고있는 80마리에서 x를 건져내고 나머지 600-80마리에서 15-x를 건져내야하므로 \dbinom{80}{x} \dbinom{600-80}{15-x}

따라서 확률은

P(X=x) = \frac {\dbinom{80}{x} \dbinom{600-80}{15-x}} {\dbinom{600}{15}}

 

수학적기대(mathematical expectation)

p.m.f가 f(x)인 확률변수 X에 대해 함수 u(x)의 기대값 또는 수학적기대는?

E \left[ u(X) \right]=\sum\limits_{x\in S}u(x)f(x)

 

예제) 주사위를 던져 나오는 숫자의 기대값은?

f(x) = 1/6

u(x) = 1, 2, 3, 4, 5, 6

E(u(X)) = 1(1/6) + 2(1/6) + \cdots + 6(1/6) = 3.5

 

정리: 수학적기대(mathematical expectation)

  1. 상수 c에 대하여 E(c) = c
    \begin{align} E(c) &= \sum_{x \in S} c f(x) \\ &= c \sum_{x \in S} f(x) \\ &= c \cdot 1 = c \end{align}
  2. c가 상수이고 u가 함수일때 E\left[c \, u(X) \right] = cE\left[ u(X) \right]
    \begin{align} E[c \, u(X)] &= \sum_{x \in S} c u(x) f(x)  \\ &= c \sum_{x \in S} u(x) f(x) \\ &= c E[u(X)] \end{align}
  3. c_1c_2가 상수이고 u_1u_2가 함수일때  E[c_1 u_1 (X) + c_2 u_2 (X) ] = c_1 E(u_1 (X)) + c_2 E(u_2 (X))
    \begin{align} E[c_1 u_1 (X) + c_2 u_2 (X) ] &= \sum_{x \in S} (c_1 u_1 (x) + c_2 u_2 (x) ) f(x) \\ &= \sum_{x \in S} c_1 u_1 (x) f(x) + \sum_{x \in S} c_2 u_2 (x) f(x) \\ &= c_1 \sum_{x \in S} u_1 (x) f(x) + c_2 \sum_{x \in S} u_2 (x) f(x) \\ &= c_1 E[ u_1 (X)] + c_2 E[u_2 (X)] \end{align}

예제) p.m.f가 다음과 같을때

x     0    1    2    3
f(x)  0.2  0.1  0.4  0.3

\begin{align}E(X) &= \sum x f(x) \\ &= 0(0.2) + 1(0.1) + 2(0.4) + 3(0.3) \\ &= 1.8 \end{align}

\begin{align}E(X^2) &= \sum x^2 f(x) \\ &= 0(0.2) + 1(0.1) + 4(0.4) + 9(0.3) \\ &= 4.4 \end{align}

\begin{align}E(2X + 3X^2) &= 2 E(X) + 3 E(^2) \\ &= 2 \times 1.8 + 3 \times 4.4 \\ &= 16.8 \end{align}

 

First Moment about the Origin

u(X)=X일때 E(u(X)) = E(X) = \sum_{x in S} x f(x)가 되고 이를 X의 기대값 또는 평균이라고 한다. \mu로도 나타내며 기대값은 또한 first moment about the origin이라고도 한다.

 

X의 분산

u(X) = (X - \mu)^2일때 u(X)의 기대값을 X의 분산이라고 하고 \sigma^2 또는 Var(X)로 나타낸다.

\begin{align} E[u(X)] &= E[(X - \mu)^2] \\ &= \sum_{s \in S} (x - \mu)^2 f(x) \end{align}

이는 또한 second moment of X about the mean \mu라고도 부른다.

 

정리

\sigma^2 = Var(X) = E(X^2) - \mu^2

\begin{align} Var(X) &= E[(X-\mu)^2] \\ &= E[X^2 - 2X\mu + \mu^2] \\ &= E(X^2) - 2\mu E(X) + \mu^2 \\ &= E(X^2) - 2\mu^2 + \mu^2 \\ &= E(X^2) - \mu^2 \end{align}

 

정리

확률변수 X의 평균과 분산이 \mu_X\sigma_X ^2일때 확률변수 Y = aX + b의 평균과 분산은

\mu_Y = a \mu_X + b

\sigma_Y ^2 = a^2 \sigma_X ^2

\sigma_Y = |a| \sigma_X

 

Sample Mean

n개의 데이터 x_1 , x_2 , \cdots , x_n의 sample mean은

\bar{x} = \frac {x_1 + x_2 + \cdots + x_n} {n} = \frac {1}{n} \sum_{i=1}^n {x_i}

 

Sample Variance

s^2으로 나타내고

s^2 = \frac { 1 } {n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2

 

정리

s^2=\dfrac{1}{n-1}\left[\sum\limits_{i=1}^n x^2_i - n{\bar{x}}^2\right]

Comments