獨斷論

인자분석(Factor analysis)과 주성분분석(Principal component analysis)의 차이와 비슷한 점 비교 (SPSS 사용설명서 25) 본문

과학과 기술/SPSS

인자분석(Factor analysis)과 주성분분석(Principal component analysis)의 차이와 비슷한 점 비교 (SPSS 사용설명서 25)

부르칸 2015. 4. 30. 11:30
Factory analysis는 우리말로 인자분석 또는 요인분석이라고 하고, principal component analysis(PCA)는 주성분분석이라고 한다.

이들 분석의 주요한 목적은 데이터의 차원 즉 서로 의존적인 변수의 갯수를 줄이는데 그 주요한 목적이 있다.

변수를 줄이는데 사용되는 방법은 주로 linear combination을 이용하는데 linear combination으로 나온 새로운 변수 즉 잠재변수(latent variable)들이 선형독립이면 PCA라 말하고 latent variable이 선형독립이 아니면 factory analysis라고 말한다. 따라서 factor analysis으로 나온 latent variable은 실재로 존재할수 있는 변수이지만 PCA로 나온 latent variable은 실재로 존재할수 없는 경우가 많다.


PCA를 좀 개괄적으로 설명하면 아래와 같다.

만약 데이터에 여기서 I1, I2, I3의 3개의 변수가 있다고 가정할때 여기에 L11, L12....L33등의 상수를 곱하여 선형조합을 만들어 새로운 변수 C1, C2, C3선형독립이 되도록 만든다. 개념적으로는 주어진 데이터의 변수로부터 component (C1, C2, C3)가 결과되어진다고 말한다. 즉 개념적으로 indicator(I1, I2, I3)가 component의 원인이 되는 것이다.


C1 = L11 * I1 + L12 * I2 + L13 * I3

C2 = L21 * I1 + L22 * I2 + L23 * I3

C3 = L31 * I1 + L32 * I2 + L33 * I3


그리고 C1, C2, C3 중에 원래 데이터를 잘설명해주는 것 몇개만을 고르면(예를 들어 C1C2만 선택) 데이터의 차원을 줄일수가 있다. C1, C2, C3 중에 몇개를 고르는지는 scree plot이나 eigen value를 이용한다.


그렇다면 factor analysis는 어떻게 다를까?

역시 똑같이 데이터에 I1, I2, I3등의 변수가 있다고 가정할때, factor analysis란 이들 3개의 변수가 우리가 아는 factor들로부터 어떻게 결과되어지는지를 나타내는 것이다. 즉 개념적으로 factor는 indicator의 원인이 된다.


I1 = L11 * F1 + L12 * F2 + e1

I2 = L21 * F1 + L22 * F2 + e2

I3 = L31 * F1 + L32 * F2 + e3


여기서 e1, e2, e3는 모델에러이다.


도식으로 표시하면 아래와 같다.




위와 같은 개념적 차이로 인하여 PCA는 data reduction에 사용한다고 하고 factor analysis는 structure detection에 사용한다고 말한다. 왜냐하면 PCA를 수행하면 I1, I2, I3, I4의 component들을 찾아내서 이중 몇개만 골라 principal componet로 삼으면 데이터의 차원을 줄일수 있고, factor analysis를 수행하여 찾아낸 factor가 F1과 F2 등 2개라고 가정하고 이때 F1에 가장 많은 영향을 받는 것은 I2와 I4이고 F2는 I1과 I3라고 가정할때 데이터의 구조를 쉽게 파악할수가 있기 때문이다. 하지만 뭐 솔직히 그게 그거다. 오직 차이는 PCA는 선형독립이고 factor analysis는 선형독립이 아니라는거...


SPSS에서는 PCA와 factor analysis를 구분하지 않고 둘다 factor analysis라고 하여 메뉴를 설정해 놓았다.


여기까지 대략 개념적인 것은 설명하였고 다음시간에 SPSS를 써서 이들 분석을 실행하여 보도록 하자.

Comments