獨斷論

SAS 초급10: LOGISTIC을 이용한 로지스틱회귀분석 본문

과학과 기술/SAS

SAS 초급10: LOGISTIC을 이용한 로지스틱회귀분석

부르칸 2021. 7. 15. 07:55

1. 데이터

자동차제조회사에서 사람들의 현재수입과 자동차연식에 따라 그해에 새차를 구입할지 말지 예측할수 있는 모델을 만들고자 한다고 가정하자. 과거에 새차를 구입한 사람들의 수입과 자동차연식을 조사하여 데이터로 만들수 있고 이를 예측모델에 사용할수 있다.

newcar.csv
0.00MB

첫번째열(buynew)의 값이 1이면 새차를 구입하였음을 나타내고 0이면 구입하지 않았음을 나타낸다.

두번째열(income)은 수입을 나타낸다.

세번째열(carage)은 지금가지고 있는 차가 얼마나 오래되었는지를 나타낸다.

이때 buynew의 값을 income과  carage로 회귀분석하는데 buynew의 값이 1과 0의 값만 가지므로 로지스틱회귀분석을 이용하여야만 한다.

data newcardat;
	infile "d:\tmp\newcar.csv" dlm="," firstobs=2;
	input BuyNew Income CarAge;
run;

2. 로지스틱 회귀분석

SAS LOGISTIC을 이용할때 주의하여야 할점은 descending 옵션을 추가하여야만 사건이 일어났을때를 1로 본다는 점이다. 만약  descending 옵션을 추가하지 않으면 정 반대의 결과를 가져올수 있다. 즉 아래 SAS 코드에서 descending옵션을 추가하였으므로 P(BuyNew=1)은 새차를 살 확률이고 P(BuyNew=0)은 새차를 사지 않을 확률이다.

proc logistic descending;
	model buynew = carage income;
run; quit;

Global Null Hypothesis로부터 p-value가 0.0158이므로 Income과 CarAge가 BuyNew에 통계적으로 유의미하게 영향을 미침을 알수있다. Maximum likelihood estimate에서 Income의 기울기에 대한 p-value는 0.0158이고 CarAge의 기울기에 대한 p-value는 0.1249이므로 새차를 사는데 차의 연식보다는 현재 수입이 더 큰 영향을 줌을 알수 있다. 

Income의 odd ratio가 1.07이므로 CarAge를 고정시켰을때 Income이 1 증가할때마다 BuyNew의 odd를 0.07증가시키고, CarAge의 odd ratio가 1.820이므로 Income을 고정시켰을때 CarAge가 1 증가할때마다 BuyNew의 odd가 0.82증가된다고 볼수 있다. 그러나 CarAge의 odd ratio의 confidence limit이 1을 포함하고 있으므로 통계적으로 유의미하지 못하다. 

 

-SAS 속성과정 끝-

Comments