일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 유주
- Histogram
- 낙랑군
- 단군
- 태그를 입력해 주세요.
- 우분투
- ANOVA
- 기자
- post hoc test
- 선형회귀분석
- 풍백
- R
- 지리지
- spss
- 고구려
- 기자조선
- linear regression
- 독사방여기요
- 패수
- 히스토그램
- 후한서
- 한서지리지
- 통계
- t test
- 한서
- 신라
- 창평
- 통계학
- repeated measures ANOVA
- categorical variable
- Today
- Total
獨斷論
Bivariate correlations 고급과정 2 - log transform과 데이터 구분 (SPSS 사용설명서 14) 본문
Bivariate correlations 고급과정 2 - log transform과 데이터 구분 (SPSS 사용설명서 14)
부르칸 2015. 3. 24. 00:47http://dogmas.tistory.com/365에서 했던 파일을 다시 열고
이제 outlier가 제거된 carsales.sav를 가지고 bivariate correlation을 구해보도록 하자.
한가지 유의해야할 점은 F-series라는 모델이 outlier 상에 존재함에도 불구하고 아직 연구중이라는 이유로 데이터에 포함시켰으므로 skewness를 가진 데이터이다. 이때는 log transform을 해야만 한다.
Log transform 실행하기
Transform > Compute Variables...를 클릭한다.
위와 같은 윈도우가 하나 뜨면
Target Variable에다가 log_sales라고 입력하고
Numeric Expression에다 Ln(sales)라고 입력한다.
Ln()함수는 밑이 e인 자연로그 ln x을 나타내고
Lg10()함수는 밑이 10인 상용로그 log x를 나타낸다.
그밖의 여러가지 함수를 제공하는데 Function group을 선택하면 그 아래 Functions and Special Variables에서 볼수 있다.
OK를 클릭한다.
이제 log_sales라는 변수가 하나 더 생성되고 그 변수값으로 ln(sales)가 저장되었다.
이제 log_sales와 mpg사이에 어떠한 관계가 있는지 bivariate correlations를 구해보도록 하자.
Bivariate Correlation 구하기
Analyze > Correlate > Bivariate...을 클릭하고 변수를 지정한 후에 OK를 클릭하면 된다.
지난번 outlier를 포함했을때 bivariate correlation 구하는 것과 똑같다.
다른점이라면 변수가 sales 대신에 log_sales로 해야된다는거...
파란색 화살표를 가지고 이리저리 옮길수 있으니 여기서는 굳이 설명하지 않는다. 잘 모르겠다면 아래 Reset를 클릭하고 다시 지정해도 된다.
OK를 클릭하면 아래와 같은 결과를 얻는다.
결과로부터 p-value가 0.093이므로 어느정도 significant하다고 말할수 있다.
그런데 우리는 또한 아래와 같은 생각을 할수 있는데
Split Data
Data > Split File...를 클릭한다. 그러면 아래와 같은 윈도우가 뜨는데
Compare groups를 우선 선택하고
그 groups를 나눌 기준으로 type을 지정한다. type이란 앞서 말했듯이 0이 승용차이고 1이 트럭이다.
OK를 클릭한다.
이제 앞서 했던것과 똑같이 bivariate correlation을 구하면 되는데 하는 방법은 아래와 같다.
Analyze > Correlate > Bivariate...을 클릭하여 변수를 지정하고
OK를 클릭하면 결과를 얻는다.
예상한것과 마찬가지고 승용차(auto)를 구입하는 사람들은 mpg vs. log_sales의 상관계수가 0.451이며 p-value = 0.000은 매우 작아서 통계적으로 의미있다고 할수 있지만 트럭을 구입하는 사람들은 p-value가 0.210으로 통계적으로 의미가 없다.
이제까지 한 것도 역시 carsales.sav로 저장해 두었다가 다음번 non-parametric correlation을 구할때 사용하도록 하자.