獨斷論

GLM Multivariate를 이용한 프로파일 분석 (SPSS 사용설명서 29, Profile Analysis) 본문

과학과 기술/SPSS

GLM Multivariate를 이용한 프로파일 분석 (SPSS 사용설명서 29, Profile Analysis)

부르칸 2015. 7. 28. 23:00

프로파일 분석이란 대개 여러개의 종속변수들이 독립변수에 따라 어떻게 변하는지 그 양상을 보고 독립변수 각각의 그룹을 판정하는 것을 말한다. 요즘 뭐 범죄수사에 프로파일러들이 많이 나오는데 범죄자들이 나타내는 양상과 일반인이 나타내는 양상이 어떻게 다른지를 알아보기때문에 프로파일러라는 말이 붙었는지도 모르겠다.


프로파일 분석은 SPSS에서 GLM Multivariate를 이용하여 쉽게 실행할 수 있다.

통신회사의 고객을 예를 들어보자. 어떤 사람은 하나의 통신회사를 선택해서 꾸준히 사용하는 반면에, 어떤 사람은 싼 상품을 고르거나 통신서비스의 품질을 봐가면서 이곳 저곳 옮겨가는 사람이 있을 것이다. 통신회사는 당연히 이곳저곳 옮겨가는 사람을 반기지 아니하므로 이들을 꼭꼭 집어 내는 것이 중요하다. 통신회사를 꾸준히 사용하는 사람과 자꾸 옮기는 사람들에 대한 개개의 통신서비스(즉 장거리전화, 수신자부담전화, 전화카드, 무선서비스 등의 이용요금)와 통신서비스등급(즉 기본, 중급, 고급) 등으로 구분하여 이같은 요금들을 지난 달에 얼마나 지불하였는지 비교하면, 통신서비스회사를 옮기는 사람과  꾸준히 사용하는 사람에 대한 프로파일을 작성할 수가 있다.


아래파일을 받아서 SPSS에서 읽어 들인다.

파일:telecom.csv

그리고 telecom.sav라고 저장한다.

각 변수의 의미는 다음과 같다.

longmon = 지난달 사용한 장거리 전화 요금

tollmon = 지난달 사용한 toll free 요금

equipmon = 지난달 사용한 장치설치비

cardmon = 지난달 사용한 calling card(선불카드?)

wiremon = 지난달 무선통신 사용료

custcat = 통신사용등급 (1 = basic, 2 = E-service, 3 = plus service, 4 = total service)

churn = 이용자 성향 (0 = 자주 이곳 저곳으로 바꾸는 사람, 1 = 꾸준히 사용하는 사람)


분석방법

우선 Analyze > General Linear Model > Multivariate... 를 클릭

아래와 같은 창이 나타나면

Dependent variables에 longmon, tollmon, equipmon, cardmon, wiremon을 지정하고

Fixed factor에 custcat와 churn을 지정한다.

Plot을 클릭한다.

Horizontal Axis에 custcat를 지정하고

Separate Lines에 churn을 지정한 후에

Add를 클릭하고

Continue와 OK를 차례로 클릭한다.


프로파일 분석의 결과보기

아래표는 multivariate test의 결과를 나타낸 것인데


p-value가 모두 0.05보다 작다.

custcat의 p-value가 0.000이므로 custcat에 의해서 프로파일이 바뀐다는 것을 보여주고 있고

churn의 p-value가 0.000이므로 churn에 의해서도 프로파일이 바뀐다는 것을 보여주고 있다.

custcat*churn의 p-value가 0.004이므로 churn이 0인 그룹과 1인 그룹의 차이는 custcat에 의해 바뀌는 것을 보여준다.


Profile plots을 보면


위 그래프는 longmon(장거리전화)를 custcat(통신사용자등급)에 따라 churn(이용자성향)으로 나누어 그림으로 나타낸 것이다. churn이 0인 것이 이곳저곳 자주 바꾸는 사람이고 1은 꾸준히 사용하는 사람을 말한다. churn이 0인 그룹이 모든 custcat에서 전반적으로 이용요금이 많다는 것을 보여준다. churn이 0이던 1이던 가장 작은 요금을 사용하는 custcat(통신사용자등급)은 1인 그룹이다. churn이 0인 그룹과 1인 그룹의 사용형태는 custcat에 대해서도 비슷한 양상을 보인다.




위 그래프는 tollmon(toll free 사용)에 대한 profile plot이다. churn이 0인 그룹이 custcat이 4인 경우를 제외하면 모든 custcat에서 약간 많이 사용하였다. 이렇게 churn이 0인 그룹과 1인 그룹 사이의 차이가 점점 벌어지는 경우 intereaction effect가 나타나는 것이다.




위 그래프는 equipmon(장치설치비)를 보여주는 것인데 앞에 보여준 두 개와는 달리 churn이 1인 그룹이 더 많은 장치설치비를 보여주었다. churn이 1인 그룹과 0인 그룹에서 custcat에 따라 그 양상은 비슷하다.



위 그래프는 cardmon(선불카드)의 사용량을 보여주는 profile plot이다. churn이 0인 그룹이 좀더 많은 사용량을 나타내었지만, custcat에 따른 그 사용량 변화가 극심하다.  churn이 1일때와 0일때의 차이는 custcat이 1일때와 2일때 가장 크게 보여주었다.




위 그래프는 wiremon(무선통신이용료_에 대한 profile plot인데  churn이 1일때와 0일때의 차이는 크지 않지만 custcat가 변함에따라 크게 변하였다. 특히 custcat가 4일때는 무선사용량이 매우 많았다.


지금까지 프로파일링 한 것을 정리하면 아래와 같다.

  1. 장거리전화(longmon)와 장치설치비(equipmon) churn이 0이냐 1이냐에 따라 큰 차이를 보여줬다.
  2. custcat가 4인 그룹들은 tollfree사용량(tollmon)에서 크게 차이가 났다.
  3. custcat가 1과 2인 그룹들은 선불카드(cardmon) 사용량에서 크게 차이를 보여주었다.


Comments