獨斷論

일반선형모델 General Linear Model 일명 GLM (SPSS 사용설명서 21) 본문

과학과 기술/SPSS

일반선형모델 General Linear Model 일명 GLM (SPSS 사용설명서 21)

부르칸 2015. 4. 6. 16:38

General linear model을 우리말로는 일반선형모델..

이름이 비슷한 generalized linear model과 헷갈릴수가 있는데... 차이는 분명하다. 


 

 일반선형모델

 General linear model

 일반화선형모델

 Generalized linear model

 모델구하는 수학적 방법

 Least squares

 Best linear unbiased prediction

 Maximum likelihood

 Bayesian

 이 부류에 속하는 통계방법들

 ANOVA

 ANCOVA

 MANOVA

 MANCOVA

 Linear regression

 Mixed model

 Linear regression

 Logistic regression

 Poisson regression

 Gamma regression

 SPSS에서 사용하는 방법

 regression, glm

 genlin, logistic regression

 Matlab에서 사용하는 방법

 mvregress()

 glmfit()

 R에서 사용하는 방법

 lm()

 glm()

 SAS에서 사용하는 방법

 PROC GLM, PROC MIXED

 PROC GENMOD

(특히 PROC LOGISTIC를 logistic regression할때만 사용하기도 함)

 Stata에서 사용하는 방법

 regress

 glm


옛날 통계학자와 수학자들은 ANOVA나 ANCOVA나 linear regression이 다른건줄 알았던때가 있었다.

그런데 연구를 하다보니 이것들이 모두 같다는걸 깨닫고 나서 이들을 통합하여 일반선형모델로 세운것이 오늘 배울 general linear model이다.


이에 반해 일반화선형보델 즉 generalized linear model은 종속변수의 에러의 분포가 정규분포를 따르지 않을때 연결함수(link function)을 사용하여 선형모델을 세우는 것이다. 주로 logistic이나 posson을 사용한다.


일반선형모델(general linear model)은 ANOVA와 regression을 일반모델로 만들다보니 독립변수가 범주형변수(categorical variable)와 연속변수를 둘다 선택하여 사용할수 있게 하였다. SPSS의 일반선형모델에서는 범주형변수를 주로 factors라 부르고 연속변수는 covariates라고 부른다.


Factors

독립변수가 범주형변수일때 SPSS에서 general linear model을 사용할때에 factor로 지정해야만 한다.

Factor는 또한 아래 두 가지로 나뉜다.

  • Fixed-effects factors 이것은 데이터에 존재하는 대부분의 범주형 변수를 설정할때 사용된다.
  • Random-effects factors 데이터에 존재하는 어떤 독립변수의 값이 매우 큰 모집단(population)으로부터 무작위표본하여 만들어졌을때 사용된다. 주로 종속변수의 과도한 변화를 설명할때 유용하게 사용될 수 있다.

Random-effects factors에 대한 예를 들면 아래와 같다.
식료품 체인점에서 고객에 대한 쿠폰의 선호도를 조사한다고 가정해보자.
체인점은 전국에 50000개이고 쿠폰의 종류는 A, B, C, D 등 4가지이다.
문제는 이 체인점이 다양하게 분포되어 있고 사는 지역의 삶의 방법과 소득정도 등이 다르기 때문에 똑같은 쿠폰 A라 할지라도 체인전 50000개에서 고객들의 선호도는 매우 다른 양상을 띄게 될 것이며 식료품체인점 본사에서는 이런 지역적 분포에는 관심이 없고 오직 A, B, C, D 등의 4가지 쿠폰의 선호도만 조사하고 싶은 것이다.

그런데 데이터를 무작위로 가져왔기때문에 50000개의 체인점 모두에 대한 쿠폰의 선호도도 조사 데이터를 가지고 있는 것이 아니라 어느 지역은 데이터는 모델링 하기에 충분할수도 있지만 어느 지역의 데이터는 모델링하기에 매우 적을수도 있고 어느 지역의 체인점은 데이터가 아예 없을수도 있다. 더군다나 체인점 지역마다 쿠폰 선호도는 상당히 차이날수도 있고 있다.

이때...

쿠폰의 4가지 종류는 fixed-effect factors가 되며

체인점의 지역은 random-effects factors가 된다.


Covariates

독립변수가 연속변수일때 covariates로 지정하게 된다. 범주형변수일때 SPSS에서 general linear model을 사용할때에 factor로 지정해야만 한다. 이는 일반 선형회귀모델에서 사용되는 독립변수와 마찬가지이다.


Interactions

기본적으로 SPSS의 일반선형모델은 모든 factorial interaction을 만들어 사용한다. 또한 factor-covariate 간의 interaction 가운데 몇개만 골라서 사용하는 것도 가능하다. 


지금까지 개략적인 일반선형모델에 대해서 알아봤는데 다음에는 일반선형모델을 이용하여 two-way ANOVA를 수행해보도록 하겠다.


Comments