獨斷論

SPSS 사용법 - Discriminant Function Analysis 본문

과학과 기술/SPSS

SPSS 사용법 - Discriminant Function Analysis

부르칸 2013. 4. 16. 11:34

SPSS 사용법 - Discriminant Function Analysis

판별함수분석

 

Discriminant function analysis(판별함수분석, DFA)는 독립변수를 이용하여 categorical dependent variable(범주형종속변수)를 예측하는 통계분석이다. 즉, 데이터 각각의 측정값들이 어떤 범주에 속하는지를 판별 또는 분류하는 방법인데 특히 독립변수중에 어떤 변수가 범주형종속변수를 결정하는데 가장 큰 영향을 미치는지 볼수 있는 분석방법이다.

예를들어 어떤연구자가 고등학생들이 졸업후에 다음 두 가지를 선택한다고 가정해보자.

1) 대학진학

2) 취직

그리고 고등학생들의 진로를 예측하기 위하여 졸업생들에 대한 여러가지 데이터를 모았다고 가정해보자. 이때 판별함수분석을 이용하면 데이터의 어떤 변수가 '1) 대학진학'과 '2) 취직'을 예측할 수 있는지 결정할 수 있다.

 

SPSS에서 DFA을 실행하기 위하여 아래 csv파일을 내려받아 SPSS에서 불러들이도록 하자.

첨부파일 dfa.csv

이 데이터에서 spouse는 배우자의 성별(1 = 남성, 2 = 여성)을 나타내고, 나머지 q1~q4는 각 배우자가 질문에 대답한 결과이다. SPSS에서 데이터를 불러들인 후에 spouse는 nominal로 설정하고 나머지 q1,q2,q3,q4는 scale로 설정한다.

 

이제 DFA를 실행하기 위하여 "Analyze >> Classify >> Discriminant"를 클릭한다.

 

 

우선 Grouping Variable 즉 종속변수로 spouse를 지정하고 그 밑에 Define range를 클릭하여 minimum에 1을 입력하고 maximum에 2를 입력한 후 Continue를 클릭한다. 만약 데이터의 spouse값이 1~5까지라면 maximun에 5를 입력하여야만 한다.

 

Discriminant Analysis창에서 Statistics를 클릭하면 아래와 같은 창이 나타나는데 

 

Mean을 클릭한 후에 Continue를 클릭한다. 그리고 Classify를 클릭하면 아래와 같은 창이 나타나는데

 

 

위와 같이 Summary table을 클릭한후 Continue를 클릭하고 OK를 클릭하면 DFA의 결과를 볼수있다.

 

 

Eigenvalue는 DFA의 각각의 함수에 대한 relative efficacy를 나타낸다. 그룹에 2개일때 canonical correlation은 가장 유효한 분석도구인데 이는 discriminant score와 groups간의 Pearson correlation과 같다.

Wilk's lambda의 p-value가 0.000이므로 모델이 주어진 데이터를 잘 나타내었음을 보여준다. 이는 regression에서 F-test의 goodness-of-fit statistic과 같은 것이다.

 

Standardized canonical discriminant function coefficients는 beta-weight regression과 같은 것인데 이는 discriminant function을 아래와 같이 쓸수 있다는 것을 나타낸다.

 

DF = -0.122*q1 + 0.476*q2 + 1.158*q3 - 0.394*q4

 

위 방정식을 이용하면 어떤 결혼한 사람의 q1~q4값을 가지고 이 사람의 성별이 남성인지 여성인지 분류할 수 있다.

 

Structure matrix는 discrimnant function과 각 독립변수 사이의 상관관계를 나타내는데 여기서 spouse를 가장 잘 구별하는 변수는 q3임을 보여준다. 만약 위 structure matrix의 순서가 standardized canonical discriminant function coefficients의 절대값 순서와 다르다면 독립변수사이에 collinearity가 존재하는 것을 보여주며 이때는 structure matrix를 사용하는 것이 안전하다.

 

Functions at Group Centroids에서는 discirminant function의 값에 따라 어떤 그룹에 속할지를 나타내는 것이다. 만약 어떤사람의 DF = -0.122*q1 + 0.476*q2 + 1.158*q3 - 0.394*q4 의 값이 -0.652에 가깝다면 이사람은 spouse 1에 속하며 0.652에 가깝다면 spouse 2에 속한다는 것을 보여준다.

Cut score는 아래와 같이 계산하는 것이 보통이다.

 

Cut score = (-0.652 + 0.652) / 2 = 0.000

 

즉, 0보다 크면 spouse2에 속하고 0보다 작으면 spouse 1에 속한다고 보면 된다. 보통 0.000이 나오지는 않지만 여기서는 공교롭게도 0이 나왔다.

 

위 표에서 전체 예측력은 68.3%임을 보여준다.

spouse 1로 예측했을때 맞을 확률은 66.7%이고 이는 20/30 * 100으로 계산된 것이다.

spouse 2로 예측했을때 맞을 확률은 70%이고 이는 21/30 * 100으로 계산된 것이다.

 

 

Comments