일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 선형회귀분석
- linear regression
- 낙랑군
- 태그를 입력해 주세요.
- 기자조선
- R
- post hoc test
- repeated measures ANOVA
- t test
- 유주
- 한서지리지
- 신라
- 통계
- 후한서
- 고구려
- ANOVA
- 패수
- 한서
- categorical variable
- 풍백
- 히스토그램
- 창평
- 기자
- Histogram
- 지리지
- 독사방여기요
- spss
- 우분투
- 통계학
- 단군
- Today
- Total
獨斷論
Bivariate correlations 고급과정 1 - outlier 제거 (SPSS 사용설명서 14) 본문
Bivariate correlations은 우리말로 상관분석.
두 개의 scale 또는 ordinal 변수 사이에 pairwise associations을 보는 것이며 상관계수가 행렬 형태로 표시된다. 예를들어 자동차 판매원이 자동차를 판매할때 사는 사람의 선호도를 조사하면서 자동차 판매댓수와 자동차연료효율과의 관계를 알고자할때 사용될수 있다.
단순히 상관관계를 계산만 하는 것은 쉽지만 본 사용설명서에서는 아래와 같은 추가적인 작업을 수행하는 것을 알아보기로 한다.
- outlier가 있을 경우 제거하여 correlation의 p-value가 어떻게 달라지는지를 알아보고
- 정규분포가 아닐 경우 log-transform을 하여 데이터 가운데 어떤변수가 통계적으로 의미있는 상관관계가 있는지를 찾아보는 과정을 설명해보기로 하겠다.
우선 아래 데이터 파일을 받아서 SPSS에서 연다.
그리고 carsales.sav로 저장하면 아래와 같이 될 것이다.
변수설명
데이터 파일의 각 변수는 다음과 같다.
- model: 자동차 모델의 이름을 나타낸다.
- sales: 자동차 판매 댓수를 1천단위로 표시한 것이다. 16.919라면 실제 판매댓수는 16919대이다.
- mpg: 연료 효율을 나타낸다. miles per gallon의 약자이다. 1 gallon 즉 3.79 liter 당 몇 마일을 갈수 있는지 나타낸 것이다. 1 mile은 약 1.6 km이다.
- type: 자동차 형태를 나타낸 것인데 승용차냐 트럭이냐를 나타낸다. 0이 승용차이고 1이 트럭이다.
만약 0이 승용차인지 트럭인지 1이 승용차인지 트럭인지 분석하다가 헷갈리는 경우가 발생한다면 아래와 binary variable에 대한 설명을 values에 명시해주면 더 좋다.
SPSS의 Data View 윈도우를 Variable View 윈도우로 바꾼다.
아래와 같이 Variable View라고 적혀있는 tab 메뉴를 클릭하면 된다.
이제 변수 type의 Values 항을 한번 클릭하면 아래와 같이 바뀌는데 ... 처럼 생긴 곳을 한번더 클릭한다.
이제 변수 type에 대해 0이 무엇을 나타내고 1이 무엇을 나타내는지 입력만 해주면 된다.
...처럼 생긴걸 클릭하면 위와같이 윈도우 하나가 뜨는데
1) Value란에 0을 입력하고, Label란에 auto를 입력한 후에
2) Add를 클릭하면 0 = "auto"가 설정된다.
3) 같은 방법으로 Value란에 1을 입력하고 Label란에 truck을 써 넣은 후에
4) Add를 클릭하면 1 = "truck"이 설정된다.
5) OK를 클릭한다.
Bivariate correlation 구하기
sales와 mpg를 Variables로 이동시킨후에 OK를 클릭하면 bivariate correlation에 대한 결과를 볼수 있다.
위 결과에서 mpg가 높을수록 sales가 적다는 이상한 결과가 나왔지만 p-value가 0.837로 significant하다고 볼수 없다.
왜 이런 결과가 나왔는지 그래프를 그려서 알아보자.
그래프 그리기
여기서 그리고자 하는 그래프는 scatter plot이다.
왼쪽 아래 Gallery >> Choose from 에서 Scatter/dot를 선택하고
왼쪽에 여러가지 형태의 그래프에서 첫번째 것이 simple scatter이므로 이걸 선택한다.
그리고 이걸 위에 Chart preview로 끌어 올려야 하는데 방법은 "마우스 커서를 simple scatter에다 가져다 놓고 마우스 왼쪽 버튼을 누른 상태에서 마우스 커서를 Chart Preview에 올려다 놓은 후에 누르고 있던 마우스 버튼을 놓는다."
그러면 아래와 같이 될 것이다.
이제 X축과 Y축을 정해야 하는데 X축에 mpg를 끌어 놓고 Y축에 sale를 끌어 놓는다.
Groups/Point ID를 클릭한 후에 Point ID label를 선택한다.
Point label variables에 model을 끌어 놓는다.
그리고 OK를 클릭하면 된다.
결과는 아래와 같다.
그래프에서 볼수 있듯이 F-series라는 모델과 Metro라는 모델이 outlier임을 알수 있다.
그런데 F-series는 아직 연구단계에 있는 모델이라서 데이터에 포함시켜야만 한다고 보고를 받았다면 분석하는 사람은 Metro만 분석모델에서 제거해야만 한다. 여기서는 Metro만 제거해보도록 하자.
Metro만 제거를 하려면 아래와 같이 한다.
Outlier 제거
우선