獨斷論

SAS 초급6: REG을 이용한 다중선형회귀 본문

과학과 기술/SAS

SAS 초급6: REG을 이용한 다중선형회귀

부르칸 2021. 7. 9. 06:33

1. 데이터파일

houses.txt
0.00MB

첫째열: 세금

둘째열: 방 갯수

세째열: 목욕탕 갯수

네째열: 집 가격

다섯째열: 건물크기

여섯째열: 땅 크기

 

2. 데이터읽기

data houses;
	infile 'd:\tmp\houses.txt' firstobs = 2;
	input tax bedroom bath price size lot;
run;

 

3. 다중선형회귀

proc reg data = houses;
	model price = size lot;
	plot residual. * (predicted. size lot);
run;

종속변수를 price, 독립변수를 size와 lot로 놓고 선형회귀하였고 residual값을 predicted, size, lot에 대하여 각각 그래프로 그리도록 하엿다.

 

4. Partial F-test

다중회귀분석모델을 세웠을때 몇몇의 독립변수가 통계적으로 의미가 있는지 테스트하는 것이다.

예를들어 size, bedroom, bath를 독립변수로 price를 선형회귀분석할때 이중 bedroom과 bath의 기울기가 통계적으로 의미가 있는지 알아보려면 아래와 같이 수행한다.

proc reg data = houses;
	model price = size bedroom bath;
	test bedroom=0, bath=0;
run;

 

p-value가 0.31이고 bedroom의 기울기과 bathroom의 기울기가 0이 아니라고 보기 어렵다.

5.  모델 선택

독립변수가 여러개 있어서 그들 가운데 선택할때 사용한다. 여기서는 Mallow Cp를 사용하였다

proc reg data = houses;
	model price = size bedroom bath lot /selection = cp;
run;

독립변수를 size와 lot를 선택하였을때 Cp값이 가장 작다.

SAS 모델에서 cp 대신에 foward, backward, stepwise등을 선택할수도 있다.

 

6. 공선성

선택한 독립변수 사이에 공선성을 알아볼수도 있다.

proc reg data = houses;
	model price = size lot / vif;
run;
quit;

vif 옵션을 사용한다.

VIF값이 1.03으로 1에 가까으므로 공선성이 있다고 볼수 없다.

 

  • 1 = not correlated.
  • Between 1 and 5 = moderately correlated.
  • Greater than 5 = highly correlated.
Comments