獨斷論

SPSS 사용법 - Multiple Linear Regression 본문

과학과 기술/SPSS

SPSS 사용법 - Multiple Linear Regression

부르칸 2013. 3. 8. 00:08

SPSS 사용법 - Multiple Linear Regression (다중회귀분석)

 

Dependent variable(종속변수)가 하나이고 independent variable(독립변수)가 여러개인 linear regression(회귀분석)을 multiple linear regression(다중회귀분석)이라고 한다. 아래와 같은 식을 사용한다.

 

y = b0 + b1*x1 + b2*x2 + ... + bk * xk

 

이를 수행하기 위하여 아래 첨부된 파일을 다운받아 SPSS에서 연다. SPSS파일이 아니라 쉼표로 변수를 나눈 파일이므로 적절한 방법으로 열어아 한다. 

 

첩부파일:FoetalWeight.csv

 

이 파일을 제대로 연다면 아래와 같이 나타날 것이다.

 

 

모든 변수는 Numeric과 Scale로 지정해 주어야 한다.

 

위 데이터의 각 변수에 대해서 잠깐 알아보면 다음과 같다.

  • 한 병원에서 414명의 산모를 대상으로 초음파검사로 측정한 값이다.
  • MW: 엄마의 몸무게
  • MH: 엄마의 키
  • GA: 임신기간(측정단위 주週)
  • DBMB: 출산과 측정값과의 차이 (측정단위 일日)
  • BPD: 체강벽의 직경(biparietal diameter)
  • CP: 머리 둘레(cephalic perimeter)
  • AP: 복부둘레(abnominal perimeter)
  • FL: 넓적다리 길이(femur length)
  • FTW: 태어났을때 몸무게
  • FTL: 태어났을때 키
  • CPB: 태어났을때 머리둘레

본 예제에서는 신생아의 몸무게(FTW)를 임신기간중 초음파로 검사한 아기의 체강벽직경(BPD)와 머리둘레(CP)와 복부둘레(AP)와 엄마의 몸무게(MW)로 linear regression해보기로 한다. 즉,

 

FTW = b0 + b1*AP + b2*BPD + b3*CP + b4*MW

 

의 식을 사용한다.

 

SPSS에서 Multiple linear regression을 수행하기 위해서는 "Analyze >> Regression >> LInear"를 클릭한다.

 

위의 순서대로 실행하면 아래와 같은 결과를 얻을 수 있다.

Correlations
  FTW AP BPD CP MW
Pearson Correlation FTW 1.000 .847 .731 .743 .338
AP .847 1.000 .627 .693 .269
BPD .731 .627 1.000 .822 .217
CP .743 .693 .822 1.000 .225
MW .338 .269 .217 .225 1.000
Sig. (1-tailed) FTW . .000 .000 .000 .000
AP .000 . .000 .000 .000
BPD .000 .000 . .000 .000
CP .000 .000 .000 . .000
MW .000 .000 .000 .000 .
N FTW 414 414 414 414 414
AP 414 414 414 414 414
BPD 414 414 414 414 414
CP 414 414 414 414 414
MW 414 414 414 414 414

 

Descriptive를 선택하면 위와 같은 correlation을 보여준다. 표로부터 FTW과 correlation이 가장 큰것은 AP(초음파로 찍은 태아의 복부 둘레)이고 가장 correlation이 작은 것은 MW(엄마의 몸무게)임을 알 수 있다.


Model Summary
Model R R Square Adjusted R Square Std. Error of the Estimate
1 .892a .795 .793 285.681
a. Predictors: (Constant), MW, BPD, AP, CP

 

Model summary로부터 R-squared의 값은 0.795임을 알수있고 이는 종속변수가 데이터를 얼마나 많이 설명해주는 지를 알려주는 값이다.


ANOVAa
Model Sum of Squares df Mean Square F Sig.
1 Regression 129793168.930 4 32448292.232 397.583 .000b
Residual 33380088.278 409 81613.908    
Total 163173257.208 413      
a. Dependent Variable: FTW
b. Predictors: (Constant), MW, BPD, AP, CP

 

위 ANOVA table의  p = 0.000 < 0.05로부터 regression 모델이 데이터 값을 잘 예측할 수 있음을 보여준다.


Coefficientsa
Model Unstandardized Coefficients Standardized Coefficients t Sig.
B Std. Error Beta
1 (Constant) -4936.187 259.359   -19.032 .000
AP 120.362 6.490 .588 18.547 .000
BPD 285.339 44.149 .256 6.463 .000
CP 35.029 14.634 .103 2.394 .017
MW 5.497 1.265 .101 4.345 .000
a. Dependent Variable: FTW

 또한  Coefficient결과로부터 multiple regression model은 아래와 같음을 알수있다.

 

FTW = -4936.2 + 120.4AP + 285.3BPD + 35.0CP + 5.5MW

 

과제물

독립변수로 MW를 제거하고 MH를 넣어 multiple linear regression을 실행한 후에  coefficient 결과에서 significance값이 어떻게 달라지는가? 그리고 이는 무엇을 의미하는가?

 

Comments