獨斷論

Bivariate correlations 고급과정 1 - outlier 제거 (SPSS 사용설명서 14) 본문

과학과 기술/SPSS

Bivariate correlations 고급과정 1 - outlier 제거 (SPSS 사용설명서 14)

부르칸 2015. 3. 24. 00:12

Bivariate correlations은 우리말로 상관분석.


두 개의 scale 또는 ordinal 변수 사이에 pairwise associations을 보는 것이며 상관계수가 행렬 형태로 표시된다. 예를들어 자동차 판매원이 자동차를 판매할때 사는 사람의 선호도를 조사하면서 자동차 판매댓수와 자동차연료효율과의 관계를 알고자할때 사용될수 있다.


단순히 상관관계를 계산만 하는 것은 쉽지만 본 사용설명서에서는 아래와 같은 추가적인 작업을 수행하는 것을 알아보기로 한다.

  • outlier가 있을 경우 제거하여 correlation의 p-value가 어떻게 달라지는지를 알아보고
  • 정규분포가 아닐 경우 log-transform을 하여 데이터 가운데 어떤변수가 통계적으로 의미있는 상관관계가 있는지를 찾아보는 과정을 설명해보기로 하겠다.

우선 아래 데이터 파일을 받아서 SPSS에서 연다.

car_sales.csv


그리고 carsales.sav로 저장하면 아래와 같이 될 것이다.


변수설명

데이터 파일의 각 변수는 다음과 같다.

  • model: 자동차 모델의 이름을 나타낸다.
  • sales: 자동차 판매 댓수를 1천단위로 표시한 것이다. 16.919라면 실제 판매댓수는 16919대이다.
  • mpg: 연료 효율을 나타낸다. miles per gallon의 약자이다. 1 gallon 즉 3.79 liter 당 몇 마일을 갈수 있는지 나타낸 것이다. 1 mile은 약 1.6 km이다.
  • type: 자동차 형태를 나타낸 것인데 승용차냐 트럭이냐를 나타낸다. 0이 승용차이고 1이 트럭이다.

만약 0이 승용차인지 트럭인지 1이 승용차인지 트럭인지 분석하다가 헷갈리는 경우가 발생한다면 아래와 binary variable에 대한 설명을 values에 명시해주면 더 좋다. 


SPSS의 Data View 윈도우를 Variable View 윈도우로 바꾼다.

아래와 같이 Variable View라고 적혀있는 tab 메뉴를 클릭하면 된다.


이제 변수 type의 Values 항을 한번 클릭하면 아래와 같이 바뀌는데 ... 처럼 생긴 곳을 한번더 클릭한다.

이제 변수 type에 대해 0이 무엇을 나타내고 1이 무엇을 나타내는지 입력만 해주면 된다.


...처럼 생긴걸 클릭하면 위와같이 윈도우 하나가 뜨는데

1) Value란에 0을 입력하고, Label란에 auto를 입력한 후에

2) Add를 클릭하면 0 = "auto"가 설정된다.

3) 같은 방법으로 Value란에 1을 입력하고 Label란에 truck을 써 넣은 후에

4) Add를 클릭하면 1 = "truck"이 설정된다.

5) OK를 클릭한다.


Bivariate correlation 구하기

Analyze > Correlate > Bivariate...을 클릭하면 아래와 같은 윈도우가 뜬다.



sales와 mpg를 Variables로 이동시킨후에 OK를 클릭하면 bivariate correlation에 대한 결과를 볼수 있다.



위 결과에서 mpg가 높을수록 sales가 적다는 이상한 결과가 나왔지만 p-value가 0.837로 significant하다고 볼수 없다.

왜 이런 결과가 나왔는지 그래프를 그려서 알아보자. 


그래프 그리기

Graphs > Chart Builder...클릭한다. 

그러면 아래와 같이 Chart builder 윈도우가 뜨는데

여기서 그리고자 하는 그래프는 scatter plot이다.

왼쪽 아래 Gallery >> Choose from 에서 Scatter/dot를 선택하고

왼쪽에 여러가지 형태의 그래프에서 첫번째 것이 simple scatter이므로 이걸 선택한다.

그리고 이걸 위에 Chart preview로 끌어 올려야 하는데 방법은 "마우스 커서를 simple scatter에다 가져다 놓고 마우스 왼쪽 버튼을 누른 상태에서 마우스 커서를 Chart Preview에 올려다 놓은 후에 누르고 있던 마우스 버튼을 놓는다."

그러면 아래와 같이 될 것이다.



이제 X축과 Y축을 정해야 하는데 X축에 mpg를 끌어 놓고 Y축에 sale를 끌어 놓는다.

Groups/Point ID를 클릭한 후에 Point ID label를 선택한다. 

Point label variables에 model을 끌어 놓는다.



그리고 OK를 클릭하면 된다.

결과는 아래와 같다. 



그래프에서 볼수 있듯이 F-series라는 모델과 Metro라는 모델이 outlier임을 알수 있다. 

그런데 F-series는 아직 연구단계에 있는 모델이라서 데이터에 포함시켜야만 한다고 보고를 받았다면 분석하는 사람은 Metro만 분석모델에서 제거해야만 한다. 여기서는 Metro만 제거해보도록 하자.

Metro만 제거를 하려면 아래와 같이 한다.


Outlier 제거

우선 Data > Select Cases...를 클릭한다.

If condition is satisfied를 선택하고

그 밑에 If...이라는 아이콘을 클릭하면 Select Cases If라는 윈도우가 뜬다.

거기에 조건식을 입력하여 조건식을 만족하는것만 선택하여 분석하도록 하는데

우리는 여기서 model 변수의 값이 Metro인 것을 제외하고자 하므로 아래와 같이 입력해준다.

model ~= 'Metro'

여기서 ~=는 같지 않다는 뜻이다.

Continue를 클릭하고 OK를 클릭한다.

Metro라는 값을 가진 observation이 제거되었으므로 아래와 같이 표시된다.



이제 outlier를 제거했으니 bivariate corrrelation만 구하면 되는데 글이 너무 길어지고 지루해지므로 다음 글에 올리도록 한다. SPSS를 닫기전에 carsaels.sav로 저장해두었다가 다음 사용설명서15를 볼때 다시 열어보도록하자.

Comments