일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 태그를 입력해 주세요.
- 단군
- 통계
- 낙랑군
- 우분투
- categorical variable
- 유주
- 후한서
- 한서지리지
- 창평
- 히스토그램
- ANOVA
- R
- 고구려
- 선형회귀분석
- linear regression
- 한서
- 독사방여기요
- post hoc test
- repeated measures ANOVA
- 풍백
- spss
- 신라
- 패수
- 통계학
- t test
- 기자조선
- 지리지
- Histogram
- 기자
- Today
- Total
獨斷論
SPSS 사용법 - Stepwise Regression 본문
SPSS 사용법 - Stepwise Regression (단계적 회귀분석)
앞서 multiple linear regression에서 독립변수를 많이 사용하면 사용할수록 fitting의 결과는 좋아질수 밖에 없다. 하지만, 여러개의 독립변수를 선택하여 무작정 linear regression을 수행하다보면 모델이 유의미하더라도 overfitting이 될 가능성이 농후하다. 따라서 독립변수를 너 많이 선택하지 않고 linear regression의 결과가 유의미하도록 multiple linear regression을 수행하는 것이 중요하다.
이를 위하여 stepwise regression을 하는 경우가 있는데 stepwise regression은 데이터에 있는 여러개의 독립변수 중에 최소의 독립변수를 선택하여 regression 모델의 예측결과가 데이터에 가장 잘 fitting되도록 하는 방법이다. 그리고 아래 3가지 방법이 있다.
- Foward selection: 변수를 하나씩 더해가면서 regression결과가 얼마나 나아지는지를 보는 방법이다.
- Baward elimination: 모든 변수를 가지고 regression 한 후에 하나씩 제거하면서 regression 결과가 얼마나 영향을 많이 미치는지 보면서 변수를 선택하는 방법이다.
- Bidirectional procedure: 위 2가지 방법을 병행하여 변수를 선택하거나 제거해가면서 최종 모델을 구하는 방법이다.
모델을 선택하기 위해서 주로 사용되는 기준은 F-tests, adjusted R-square, Akaike information criterion, Bayesian information criterion, Mallows' Cp, false discovery rate 등이 사용된다.
이제 SPSS에서 stepwise regression을 수행해 보기로 하자.
데이터는 앞서 multiple regression에서 사용됐던 파일이므로 http://dogmas.tistory.com/137에 가서 다운을 받아 파일을 열면 된다. csv파일이므로 SPSS에서 제공하는 적절한 import 작업을 수행하여야 한다.
이제 "Analyze >> Regression >> Linear"를 클릭하면 아래와 같은 대화창이 나타난다.
위의 그림에 나타난대로 실행하면 아래와 같은 결과가 나타난다.
위 결과에서 알수 있듯이 변수 MH의 p=0.327 > 0.05이므로 통계적으로 의미가 없으며 이 변수를 제외하고 다시 regression을 수행해야 함을 알 수 있다. 그런데 이러한 과정을 stepwise regression을 수행하면 알아서 다 해준다.
다시 "Analyze >> Regression >> Linear"를 클릭하자.
Method를 Stepwise를 선택한 후에 OK를 클릭한다. 그러면 아래와 같은 결과를 얻는다.
위 결과로부터
- Model 1은 AP만을 독립변수로 사용했음을 알수 있다.
- Model 2는 AP. BPD를 독립변수르 사용했음을 알수 있다.
- Model 3은 AP, BPD, CP를 독립변수로 사용했음을 알수 있다.
- 그리고 독립변수 MH는 제외되었음을 알수 있다.
Model 1, 2, 3의 R-squared값을 보여준다.
Model 1, 2, 3의 전체적인 모델의 significant를 나타낸 것이다. 3개의 모델 모두 significant하고 F값은 점점 작아졌음을 알수있다.
위 결과는 각 coefficient의 significant를 나타낸다. 모델 1, 2는 모든 coefficient가 p=0.000이고
Model 3은 변수 CP를 제외한 모든 coefficient의 p = 0.000임음 알 수 있다.