獨斷論

Partial Correlations (SPSS 사용설명서 16) 본문

과학과 기술/SPSS

Partial Correlations (SPSS 사용설명서 16)

부르칸 2015. 3. 26. 22:36

Partial Correlations 우리말로는 부분상관 또는 편상관이라고 한단다.

Partial correlation이란 우리가 가진 데이터에 변수가 2개만 있는 것이 아니라 3개 이상의 변수가 있고 이때 이들 변수중 오직 2개만의 변수의 correlation을 보고자할때 다른 하나의 변수를 controlling하여 그 영향을 없앤 후의 correlation을 보는 방법이다.


공중보건에 대한 데이터가 보건예산이 증가할수록 발병률이 증가하는 상관관계를 보였다고 가정해보자. 데이터의 숫자들에 에러가 없다고 가정할때, 이 데이터에 따르면 정부가 보건예산을 감소시킬수록 국민들의 건강이 좋아진다고 생각하게 만든다. 이것이 정말 사실일까? 아니면 다른 요소들이 위 둘 변수, 즉 보건예산과 발병률의 관계를 반대로 만들었을 가능성은 없을까?

이에 대해서 알아보기 위하여 아래 데이터 파일을 받아서 SPSS에서 열어본 후 분석해보기로 하자.


healthfunding.csv


잘 열었다면 아래와 같은 형태가 된다(열고나서 healthfunding.sav로 저장하자). 


funding은 정부의 보건예산

diesease는 발병회수

visits는 병원방문횟수이다.

citycode는 도시를 숫자로 나타낸것이다.

Bivariate correlation 구해보기

뭐 일단 partial correlation을 구해보기 전에 bivariate correlation부터 구해보자



정부의 보건예산이 증가할수록 발병횟수이 높아지는 것으로 나왔다. Pearson correlation이 0.737이고 p-value는 0.000으로 통계적으로 의미가 있다. 하지만 무엇이 위 데이터에 숨겨져 있을까?


Partial Correlation 구해보기

위 데이터에 하나의 변수가 더 있는데 병원방문횟수를 나타내는 visit을 controlling하여, 즉 방문횟수의 영향을 제거하고 발병횟수와 정부의 보건예산에 대한 상관관계를 구하여보자.


Analyze > Correlate > Partial...을 클릭한다.



Variables에 funding과 disease를 설정하고

Controlling for에 visits를 설정하여 환자들의 병원방문횟수의 영향을 funding과 disease의 상관관계를 구할때 제거한다.

Options를 클릭하여 Partial correlation을 구할때 zero-order correlation을 구하도록 한다.

Continue를 클릭하고 OK를 클릭한다.


결과는 다음과 같다. 



맨 위에 none이라고 되어 있는 것은 controlling을 하지 않았을때 pearson correlation을 구한 것이다.

앞서 구한것과 마찬가지로 funding과 disease의 상관관계계수의 값은 0.737이며 p-value는 0.000

하지만 visits에 대해서도 funding의 상관관계는 0.964이고 disease는 0.762로 매우 높고 p-value는 0.000


이것이 의미하는 바는 무엇일까?

funding이 많아질수록 사람들이 병원방문을 많이 한다는 것이다. 왜냐하면 병원비가 싸지니깐.

그리고 이 병원방문횟수에 따라 국가에서 조사하는 발병률이 높아지는 것은 당연하다.

따라서 funding과 disease사이의 상관관계를 구할때 병원방문횟수에대한 영향을 제거해야만 한다는 것을 알수 있다.

아래 visits를 control variable로 설정한 상관관계의 결과가 바로 병원방문횟수의 영향을 제거하고 funding과 disease의 상관관계를 구한것이다. 상관관계계수가 0.013으로 매우작고 더군다나 p-value가 0.928로 통계적으로 의미가 없다는 것을 보여주고 있다.





Comments