獨斷論

SPSS 사용법 - Linear Regression 본문

과학과 기술/SPSS

SPSS 사용법 - Linear Regression

부르칸 2013. 3. 5. 20:43

SPSS 사용법 - Linear Regression 선형회귀

우선 첨부된 파일을 다운받아 SPSS에서 연다.

첨부파일 :World95.sav

 

데이터의 변수중에 babymort는 유아치사도를 나타내는 변수이고, fertility는 출생율을 나타내는 변수이며 observation은 전세계 국가이다.

이제 이 두 변수가 서로 연관이 있는지 linear regression을 사용하여 알아보도록 하자.

 

Linear regression은 간단하게 아래와 같은 식에서 x와 y의 데이터값을 지정해주고 b0(표준편차)와 b1(기울기)을 구하는 것이다.

 

우선 "Analyze >> Regression >> Linear"를 선택하면 아래와 같은 대화상자가 나타난다.

 

위 그림과 같이 depdendent와 independent를 지정한 후에 OK를 클릭하면 아래와 같은 결과를 얻는다.

 

 

Model Summary

위 Model Summary 결과에서 주목할 것은 R Square이다. 이 값은 표에서 R squared의 값은 0.694이다. R squared는 0에서 1사이의 값을 갖는데 1에 가까울수록 linear regression으로 만들어진 line이 데이터를 잘 설명해주는 것이며 0에 가까울수록 regression line이 데이터의 값을 잘 설명해주지 못하는 것이다.

어떤 값보다 커야 regression이 잘 되었다고 보는지는 분야에 따라 다르므로 각자 논문을 검색해봐야만 할 것이다.

 

ANOVA

ANOVA 테이블에서 p = 0.000이므로 이는 독립변수인 fertility(출생율)이 종속변수인 babymort(영아치사도)를 예측하는데 그냥 대충짐작하는것보다는 위 linear regression모델을 이용하는 것이 훨씬 낫다는 것을 보여준다.

 

Coefficients

위 표에서 b0는 -16.592이고 b1은 16.707임을 알수있다. 그리고 모두 p=0.000이므로 통계적으로 significant하다. 이것은 fertility가 babymort를 예측하는데 큰 영향을 미침을 보여주는 것이다.

만약 독립변수가 x1과 x2가 있고 각각의 coefficient가 b1과 b2이고 이들의 p가 각각 0.000과 0.45라면 종속변수의 변화에 가장 크게 영향을 미친 독립변수는 x1이라고 해석할수 있는 것이다.

Comments