일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 통계
- 낙랑군
- 독사방여기요
- 후한서
- R
- 풍백
- spss
- 선형회귀분석
- repeated measures ANOVA
- Histogram
- 기자
- categorical variable
- 통계학
- 패수
- 지리지
- t test
- 신라
- 단군
- ANOVA
- 창평
- 히스토그램
- post hoc test
- 고구려
- 유주
- linear regression
- 기자조선
- 우분투
- 한서지리지
- 한서
- 태그를 입력해 주세요.
- Today
- Total
獨斷論
일반선형모델 General Linear Model 일명 GLM (SPSS 사용설명서 21) 본문
General linear model을 우리말로는 일반선형모델..
이름이 비슷한 generalized linear model과 헷갈릴수가 있는데... 차이는 분명하다.
|
일반선형모델 General linear model |
일반화선형모델 Generalized linear model |
모델구하는 수학적 방법 |
Least squares Best linear unbiased prediction |
Maximum likelihood Bayesian |
이 부류에 속하는 통계방법들 |
ANOVA ANCOVA MANOVA MANCOVA Linear regression Mixed model |
Linear regression Logistic regression Poisson regression Gamma regression |
SPSS에서 사용하는 방법 |
regression, glm |
genlin, logistic regression |
Matlab에서 사용하는 방법 |
mvregress() |
glmfit() |
R에서 사용하는 방법 |
lm() |
glm() |
SAS에서 사용하는 방법 |
PROC GLM, PROC MIXED |
PROC GENMOD (특히 PROC LOGISTIC를 logistic regression할때만 사용하기도 함) |
Stata에서 사용하는 방법 |
regress |
glm |
옛날 통계학자와 수학자들은 ANOVA나 ANCOVA나 linear regression이 다른건줄 알았던때가 있었다.
그런데 연구를 하다보니 이것들이 모두 같다는걸 깨닫고 나서 이들을 통합하여 일반선형모델로 세운것이 오늘 배울 general linear model이다.
이에 반해 일반화선형보델 즉 generalized linear model은 종속변수의 에러의 분포가 정규분포를 따르지 않을때 연결함수(link function)을 사용하여 선형모델을 세우는 것이다. 주로 logistic이나 posson을 사용한다.
일반선형모델(general linear model)은 ANOVA와 regression을 일반모델로 만들다보니 독립변수가 범주형변수(categorical variable)와 연속변수를 둘다 선택하여 사용할수 있게 하였다. SPSS의 일반선형모델에서는 범주형변수를 주로 factors라 부르고 연속변수는 covariates라고 부른다.
Factors
독립변수가 범주형변수일때 SPSS에서 general linear model을 사용할때에 factor로 지정해야만 한다.
Factor는 또한 아래 두 가지로 나뉜다.
- Fixed-effects factors 이것은 데이터에 존재하는 대부분의 범주형 변수를 설정할때 사용된다.
- Random-effects factors 데이터에 존재하는 어떤 독립변수의 값이 매우 큰 모집단(population)으로부터 무작위표본하여 만들어졌을때 사용된다. 주로 종속변수의 과도한 변화를 설명할때 유용하게 사용될 수 있다.
Random-effects factors에 대한 예를 들면 아래와 같다.
식료품 체인점에서 고객에 대한 쿠폰의 선호도를 조사한다고 가정해보자.
체인점은 전국에 50000개이고 쿠폰의 종류는 A, B, C, D 등 4가지이다.
문제는 이 체인점이 다양하게 분포되어 있고 사는 지역의 삶의 방법과 소득정도 등이 다르기 때문에 똑같은 쿠폰 A라 할지라도 체인전 50000개에서 고객들의 선호도는 매우 다른 양상을 띄게 될 것이며 식료품체인점 본사에서는 이런 지역적 분포에는 관심이 없고 오직 A, B, C, D 등의 4가지 쿠폰의 선호도만 조사하고 싶은 것이다.
그런데 데이터를 무작위로 가져왔기때문에 50000개의 체인점 모두에 대한 쿠폰의 선호도도 조사 데이터를 가지고 있는 것이 아니라 어느 지역은 데이터는 모델링 하기에 충분할수도 있지만 어느 지역의 데이터는 모델링하기에 매우 적을수도 있고 어느 지역의 체인점은 데이터가 아예 없을수도 있다. 더군다나 체인점 지역마다 쿠폰 선호도는 상당히 차이날수도 있고 있다.
쿠폰의 4가지 종류는 fixed-effect factors가 되며
체인점의 지역은 random-effects factors가 된다.
Covariates
독립변수가 연속변수일때 covariates로 지정하게 된다. 범주형변수일때 SPSS에서 general linear model을 사용할때에 factor로 지정해야만 한다. 이는 일반 선형회귀모델에서 사용되는 독립변수와 마찬가지이다.
Interactions
기본적으로 SPSS의 일반선형모델은 모든 factorial interaction을 만들어 사용한다. 또한 factor-covariate 간의 interaction 가운데 몇개만 골라서 사용하는 것도 가능하다.
지금까지 개략적인 일반선형모델에 대해서 알아봤는데 다음에는 일반선형모델을 이용하여 two-way ANOVA를 수행해보도록 하겠다.