Nonparametric Correlation 계산하기 (SPSS 사용설명서 15)
비모수nonparametric 상관관계correlation를 계산해보자.
주로 Spearman's rho와 Kendall's tau를 이용한다.
언제나 그랬듯이 아래 csv 파일을 받아서 SPSS에서 읽은 후에 np_sales.sav로 저장한다.
아래처럼 보인다면 제대로 된 것이다.
model은 자동차 모델이고
sales는 자동차 판매량이며
mpg는 연비를 나타내고
type은 0일때 승용차 1일때 트럭이다.
log_sales는 sales 변수를 log-transform해놓은 것이다.
위 데이터는 연비에 따라서 자동차 판매량이 달라지는지 알아본 데이터인데
승용차냐 트럭이냐에 따라 판매 양상이 달라지므로 이 두 개를 달리 고려해야 한다.
그렇게 하기 위해서는 우선
Data > Split Files...를 클릭한다.
위와 같은 윈도우가 나타나면
Compare groups를 클릭하고
Group based on:에다가 type 변수를 지정한다.
OK를 클릭한다.
일단
Analyze > Correlate > Bivariate... 를 클릭한다.
Variables에 sales와 mpg와 log_sales를 모두 설정하고
Correlation Coefficients에 Kendall's tau-b와 Spearman을 클릭한다
OK를 누른다.
아래는 비모수 상관관계를 구한 결과이다.
앞선 parametric bivariate correlation에서는 sale vs. mpg의 상관관계와 log_sales vs. mpg의 상관관계가 매우 큰 차이를 보였지만 여기 non-parametric correlation에서는 sale vs. mpg의 상관관계와 log_sales vs. mpg의 상관관계가 큰 차이를 보이지 않는다.
우선 승용차 즉 type이 0인 경우 sales vs. mpg는 Kandall's tau와 Spearman rho가 각각 0.310과 0.425로 똑같다.
이 결과는 non-parametric correlation은 데이터가 정규분포이던 아니던 사용 가능하다는 말이 된다. 또한 outlier에도 영향을 받지 않는다.