獨斷論

GLM을 이용하여 이원분산분석 Two-way ANOVA 수행하기 (SPSS 사용설명서 22) 본문

과학과 기술/SPSS

GLM을 이용하여 이원분산분석 Two-way ANOVA 수행하기 (SPSS 사용설명서 22)

부르칸 2015. 4. 9. 11:23

이원분산분석(Two-way ANOVA)는 fixed factor가 2개, 즉 범주형독립변수가 2개이고 연속형종속변수가 1개인 분산분석ANOVA를 의미한다.


예를 들어보면...

식료품체인점에서 제품구매형태에 대하여 조사하여, 성별에 따른 제품구매 주기와 구매액에 대한 관계를 알아보려고 한다고 가정해보자.


우선 아래 파일을 받아서 SPSS에서 읽은 후에 grocerysales.sav로 저장하자. 


grocerysales.csv


제대로 읽었다면 아래와 같은 형태가 된다.


custid는 고객을 숫자로 나타낸 것이고

gender는 성별을 나타내며

style은 얼마나 자주 물건을 사러가는지를 나타내는데 1은 2주일에 한번가는 것이고 2는 1주일에 1번 가는 것이며 3은 할인품목이 있을때마다 자주가는 것을 의미한다.

amtspent는 구매량을 돈으로 나타낸 것이다. 


Two-way ANOVA 실행하기


실행하는 방법은 아래와 같다.

Analyze > General Linear Model > Univariate... 을 클릭한다. 조심해야할 것은 Generalized Linear Model이 아니라 General Linear Model이다. 헛군데를 클릭하고 어~ Univariate가 왜 없지 고민하면 안된다.

Dependent Variables에 amtspent를 지정하고

Fixed Factors에 gender와 style을 지정하고

Plots를 클릭한다

Horizontal Axis에 style을 지정하고

Separate Lines에 gender를 지정하고

그 아래 Add를 클릭한 후에

Continue을 누른다. 그러면 Univariate라는 창으로 돌아가게 된다. 


Post Hoc를 클릭하면 아래와 같은 윈도우가 뜬다.


Post Hoc Tests for에 style 변수를 지정하고

그 아래 Equal Variances Assumed에 Tukey를 클릭한 후에

Continue를 클릭한다. 다시 Univariate 창으로 돌아가면 Options을 클릭한다.

아래와 같은 윈도우가 나타나게 되는데



Display Means for에 gender*style을 지정하고

그 아래 Display에서 Descriptive statistics와 Homogeneity tests와 Estimates of effect size를 클릭 한 후에

Continue를 클릭한후 OK를 클릭한다.


Two-way ANOVA 결과 분석

Descriptive Statistics


위 표에서 개략적은 two-way ANOVA의 결과를 짐작할수 있다.

구매형태 즉 style 변수의 구매량 대한 영향이 나타난다고 볼수 있는데 왜냐하면 Total 값 중에 style 1은 378.5이고 style 2는 404.6이며 style 3는 399.7이며 이는 style에따라서 구매량이 달라진다고 할수 있기때문이다.

성별에 대한 영향을 대략적으로 남성 gender 0일때 total이 430이고 여성 gender 1은 365.7이므로 이도 구매량에 대한 영향이 크다고 할수 있겠다.

또한 interaction의 영향 즉 gender * style의 영향도 크다고 볼수 있겠는데 왜냐하면 gender 0의 style 1의 값은 413이고 style 3의 값은 407로 작아졌다. 하지만 gender 1의 style 1의 값은 343이고 style 3의 값은 405로 값이 커졌기 때문이다.


Testing Homogeneity of the Variances

ANOVA의 가정중에 분산이 일정하다는 가정이 있는데 이것에 맞는 데이터인지 알아보는 것이다.


위 표는 homogeneity 즉 분산이 같은지 보는 Levene's test의 결과이다.

가설이 종속변수의 분산이 그룹에 따라 같다는 것인데 p-value가 0.330이므로 분산이 같다고 볼수 있겠다.


Tests of Between-Subjects Effects

분산이 같다는 가설에 위배되지 않았으므로 between-subjects의 영향을 아래 ANOVA table에서 보자.


우선 gender에 대한 영향은 크다고 볼수 있겠는데 p-value가 0.000이다.

이는 앞서 descriptive statistics에서 개략적으로 짐작해본 것과 같다.


style에 대한 여향은 크다고 볼수 없는데 p-value가 0.140이다. descriptive statistics에서 짐작으로 알아본 것과는 반대이다. 역시 눈대중으로 보는것 부정확하다. ㅋㅋ


interaction의 영향 즉 gender*style도 크다고 볼수 있는데 p-value가 0.017이다. 


p-value 오른쪽에 partial eta squared라는 값이 있다. 이는 각 독립변수가 얼마만큼 종속변수의 변이를 설명해주는가를 나타내는 숫자이다. Partial eta squared의 값이 클수록 해당하는 독립변수가 종속변수를 잘 설명해주는 것인데 여기서는 그 값이 크지 못핟. Partial eta squared의 최대값은 1이다.


Corrected Model의 partial eta squared가 R sqare에 해당되는데 여기서 0.138이다.


Estimated Marginal Means

아래표에는 amtspent의 평균값과 standard error가 표시되어 있다.

이 표는 interaction을 보는데 아주 유용하다.


남자고객 즉 gender 0인 사람들은 1주일마다 살때(style 2) 440.96을 소비했고 할인품목이 있을때마다 자주가는 사람들은(style 3)는 407.77을 소비하여 더 적은 양을 소비하였다. 반면에 여성고객 즉 gender 1은 1주일마다 살때 361.72를 소비하였고 자주가는 사람들은 405.72를 소비하여 남자들과는 다른 양상을 보였다.

즉, 이말은 데이터에 gender와 style 변수의 interaction effect가 있다는 말이다. interaction effect가 없다면 style의 차이가 성별이 다르더라도 똑같이 나타난다.

위 표를 그림으로 그려보면 아래와 같다.


위 그래프에서 style 변수는 가로축에 나타나고 gender는 각각의 그래프로 그렸으며 amtspent는 세로축이다.

남성 즉 파란색 그래프는 위로 볼록한 양상을 보였고

여성 즉 초록색 그래프는 점점 증가하는 양상을 보였다. 

Interaction effect가 없다면 위 그래패에서 gender 1과 gender 0의 그래프는 평행에 가까웠을 것이지만 본 데이터에서 interaction effect가 있었으므로 하나는 위로 볼록하고 하나는 단조증가하였다. 


Post Hoc Tests

Between-subject test에서 통계적으로 의미가 있다고 하였지만 style은 level이 3개이므로 어느 지점에서 차이를 크게 보여주어 통계적으로 의미가 있는지 알수가 없는데 Post hoc test에서는 이것을 보여준다. 

하지만 between-subject test에서 style은 p-value가 0.14이므로 아래 표에서 어느것도 significant로 나타나지 않았다.




혹 gender 0일때 style 1, 2, 3 그리고 gender 1일때 style 1, 2, 3도 해야되지 않나 생각할수도 있는데 맞는 말이다. ㅋㅋ

하지만 SPSS에서는 그 기능을 제공하지 않으므로 일일히 손으로 데이터를 나눠서 host poc test를 해봐야 한다.

비싼거 치고 중요한 기능이 없다.

Comments