獨斷論

Bivariate correlations 고급과정 2 - log transform과 데이터 구분 (SPSS 사용설명서 14) 본문

과학과 기술/SPSS

Bivariate correlations 고급과정 2 - log transform과 데이터 구분 (SPSS 사용설명서 14)

부르칸 2015. 3. 24. 00:47

http://dogmas.tistory.com/365에서 했던 파일을 다시 열고

이제 outlier가 제거된 carsales.sav를 가지고 bivariate correlation을 구해보도록 하자.

한가지 유의해야할 점은 F-series라는 모델이 outlier 상에 존재함에도 불구하고 아직 연구중이라는 이유로 데이터에 포함시켰으므로 skewness를 가진 데이터이다. 이때는 log transform을 해야만 한다.


Log transform 실행하기

Transform > Compute Variables...를 클릭한다. 



위와 같은 윈도우가 하나 뜨면

Target Variable에다가 log_sales라고 입력하고

Numeric Expression에다 Ln(sales)라고 입력한다. 

Ln()함수는 밑이 e인 자연로그 ln x을 나타내고

Lg10()함수는 밑이 10인 상용로그 log x를 나타낸다. 

그밖의 여러가지 함수를 제공하는데  Function group을 선택하면 그 아래 Functions and Special Variables에서 볼수 있다.

OK를 클릭한다.

이제 log_sales라는 변수가 하나 더 생성되고 그 변수값으로 ln(sales)가 저장되었다.

이제 log_sales와 mpg사이에 어떠한 관계가 있는지 bivariate correlations를 구해보도록 하자.


Bivariate Correlation 구하기

Analyze > Correlate > Bivariate...을 클릭하고 변수를 지정한 후에 OK를 클릭하면 된다.


지난번 outlier를 포함했을때 bivariate correlation 구하는 것과 똑같다. 

다른점이라면 변수가 sales 대신에 log_sales로 해야된다는거...

파란색 화살표를 가지고 이리저리 옮길수 있으니 여기서는 굳이 설명하지 않는다. 잘 모르겠다면 아래 Reset를 클릭하고 다시 지정해도 된다.

OK를 클릭하면 아래와 같은 결과를 얻는다.

결과로부터 p-value가 0.093이므로 어느정도 significant하다고 말할수 있다.
그런데 우리는 또한 아래와 같은 생각을 할수 있는데

자동차를 사는 경우 "승용차 운전자는 연비를 많이 생각하지만 트럭을 사는 사람들은 연비보다는 마력과 torque 등을 우선 고려할수있다."는 것이다. 그렇다면 승용차와 트럭을 구분하여 bivariate correlation을 구해보는것도 좋은 방법일 것이다.

Split Data

Data > Split File...를 클릭한다. 그러면 아래와 같은 윈도우가 뜨는데 



Compare groups를 우선 선택하고

그 groups를 나눌 기준으로 type을 지정한다. type이란 앞서 말했듯이 0이 승용차이고 1이 트럭이다.

OK를 클릭한다.


이제 앞서 했던것과 똑같이 bivariate correlation을 구하면 되는데 하는 방법은 아래와 같다.

Analyze > Correlate > Bivariate...을 클릭하여 변수를 지정하고



OK를 클릭하면 결과를 얻는다.



예상한것과 마찬가지고 승용차(auto)를 구입하는 사람들은 mpg vs. log_sales의 상관계수가 0.451이며  p-value = 0.000은 매우 작아서 통계적으로 의미있다고 할수 있지만 트럭을 구입하는 사람들은 p-value가 0.210으로 통계적으로 의미가 없다. 

이제까지 한 것도 역시 carsales.sav로 저장해 두었다가 다음번 non-parametric correlation을 구할때 사용하도록 하자.

Comments