獨斷論

Logistic Regression에 대한 간단한 설명 본문

과학과 기술/통계이론설명

Logistic Regression에 대한 간단한 설명

부르칸 2013. 3. 11. 16:32

Logistic Regression에 대한 간단한 설명

Linear regression은 종속변수가 일정한 양을 나타낼 경우가 대부분이지만 종속변수가 0과 1만을 갖는 변수일때에는 logistic regression을 사용하는 것이 좋다.

예를들면, 어떤 대학교 법과대학을 졸업한 학생을 대상으로 학점, 재산, 나이, 사법고시 합격 여부를 조사한다면 학점과 재산과 나이는 일정한 양을 나타내지만 사법고시 합격 여부는 합격은 1로 나타내고 불합격은 0으로 나타내는 binary variable이 된다.

 

다음과 같은 선형 모델을 생각해보자.

 

 

여기서 Y는 0과 1만을 갖는 종속변수이고, x는 독립변수이며, e는 에러를 나타낸다.

Y가 Bernoulli random variable이고 확률은 다음과 같다고 가정해보자

 

이렇게되면 위 선형모델식에서 에러는 normal distribution을 갖지 못하고 에러의 분산도 상수가 아니라 Y가 1일 확률에 따라 변하게 된다. 더군다나 Y의 범위가 0에서 1이므로 일반적인 linear regression을 사용할 수 없다.

 

경험적으로 Y가 binary variable이면 그 형태가 S자 임을 알 수 있으므로 다음과 같은 logit reponse function을 이용한다.

또는

 

이를 고쳐쓰면 아래와 같이 쓸수있다.

 

위 식에서 우변을 odds ratio라고 부른다.

만약 어떤 값  "x = x1"에 대하여 odds ratio가 2라면 x가 x1일때 Y가 1일 확률이 Y가 0일 확률의 2배가 된다는 것을 의미한다. 또한 x가 1만큼 증가함에 따라 odds ratio는 exp(b1)만큼 증가함을 알수 있다.

 

Logistic regression 예제

위와 같은 데이터에 대하여 logistic regression을 수행하였을때

  • Odds ratio = 0.84

라고 가정하여보자.

 

의 값은 standard normal distribution을 따르므로 H0: b1 = 0 을 테스트하면 p = 0.04이며 이는 통계적으로 significant한 값이다. 따라서 온도를 1 내릴때마다 O-ring failure의 확률값은 O-ring success 확률 대비 0.84만큼 증가함을 보여준다.

 


Comments