獨斷論

확률적분변환(probability integral transform) 본문

과학과 기술/통계이론설명

확률적분변환(probability integral transform)

부르칸 2021. 9. 16. 13:14

$X$가 연속인 확률변수이고 누적분포함수(cumulative distribution function, CDF)가 $F_X (x)$일때 $Y=F_X (X)$로 정의되는 확률변수 $Y$는 (0, 1) 사이의 균일분포를 따른다.

 

$X$가 정규분포를 따른다고 할때 정규분포를 갖는 난수 10 000개를 생성하고

이 난수 10 000개에 대한 누적정규분포함수값을 구하면

이 10 000개의 누적정규분포함수값들은 0과 1사이의 균일분포를 따른다는 말이다.

# 1만개의 정규분포를 따르는 난수 발생
x <- rnorm(10000)

# 위에서 구한 난수를 가지고 정규분포의 cdf값을 구한다. 
y <- pnorm(x)

# 위 x와 y를 히스토그램을 구하면
par(mfrow=c(1,2))
hist(x, col='skyblue', main = "Random Normal")
hist(y, col='orange', main = "CDF(X)")

 

역으로 균일분포를 따르는 난수를 가지고 inverse normal CDF의 값을 구하면 그 값들은 정규분포를 따른다.

u = runif(10000)
hist(qnorm(u), breaks=50)

 

왜 이렇게 되는지 직관적으로 알려면

Comments