獨斷論

범주형변수의 Pearson Chi 제곱 검정법 본문

과학과 기술/통계이론설명

범주형변수의 Pearson Chi 제곱 검정법

부르칸 2013. 3. 5. 14:45

범주형변수의 Pearson Chi 제곱 검정법

Pearson's Chi-Squared Test for Categorical Variables

 

Categorical variables(범주형 변수)을 사용하여 수집된 데이터를 분석하는데에는 contingency table(분할표)이 아주 유용하다. 예를 들어 아래와 같이 각 성별에 따른 정치성향을 수집하였다고 하면 contingency table을 이용하여 그 결과를 표시할수 있다.

 

표 1. 각 성별에 따른 정치성향

 성별

 정치성향       총합 
 

 민주당

 지지정당없음 

 새누리당 

 
 여성  573  516   422   1511 
 남성  386

 475

 399   1260

 총합

 959  991   821   2771

 

한편 위 표1의 데이터를 백분율로 표시할 수도 있다.

 

표2. 각 성별에 따른 정치성향(백분율로 표시)

 성별  정치성향       총계   
   민주당

 지지정당없음

 새누리당  백분율

 인원 

 여성  38%  34%  28%  100%  1511
 남성  31%  38%  32%  100%  1260

 

Conditional distribution의 정의

- 위 표에서 남성과 여성의 백분율을 각각 남성과 여성의 정치성향에 대한 conditional distribution이라고 한다. 따라서 여성의 정치성향에 대한 conditional distribution은 0.38, 0.34, 0.28이고, 남성의 정치성향에 대한 conditional distribution은 0.31, 0.38, 0.32이다.

 

Categorical variables의 Independence와 dependence의 정의

  • 만약 모집단의 conditional distribution이 두 개의 categorical variables에 대하여 일치한다면 두 categorical variables는 통계적으로 독립이라고 말한다.
  • 물론 같지 않다면 통계적으로 의존적이다.

아래 표3을 보자. 민주당의 %는 모든 지방에서 모두 44%이다. 또한 지지정당이 없는 사람은 모든 지방에 대해서도 같은 %를 나타내고 새누리당의 지지성향도 각 지방에 따라 같은 %를 나타내었다. 따라서 각 지방별 정치성향은 모두 같으므로 아래 표3의 데이터에 대해서는 정치성향과 지방은 서로 독립임을 알수있다.

 

표3은 각 지방별 정치성향

지방별  정치성향      총합 
  민주당 지지정당없음  새누리당   
 경기도  440(44%)  140(14%) 

 420(42%)

 1000(100%)

 전라도  44(44%)  14(14%)

 42(42%)

 100(100%)
 경상도  110(44%)  35(14%)  105(42%)  250(100%)

 

Pearson Chi-Squared Test of Independence

Categorical variable의 independence 테스트를 하기 위해서 null hypothesis를 아래와 같이 정한다.

  • H0: 각 변수는 통계적으로 독립
  • Ha: 각 변수는 통계적으로 의존

각 변수가 독립임을 나타내기 위한 expected frequency(기대빈도)를 구하여보다.

f0가 observed frequency(관찰빈도)이고 fe가 expected frequency라고 하자. 여기서 fe는 각 변수가 독립이기 위한 빈도라고 보면 된다. 그러면 fe는 표1에 대하여 다음과 같이 구할수 있다.

 

여성민주당 = (959/2771) * 1511 = 522.9

남성민주당 = (959/2771) * 1260 = 436.1

여성지지정당없음 = (991/2771) * 1511 = 540.4

남성지지정당없음 = (991/2771) * 1260 = 450.6

여성새누리당 = (821/2771) * 1511 = 447.7

여성새누리당 = (821/2771) * 1260 = 373.3

 

이들을 표로 만들면 아래 표4와 같다.

 

표4. 성별 각 지지정당. 괄호안의 숫자는 expected frequency이다.

성별  정치성향      총합 
   민주당 지지정당없음   새누리당  
 여성

 573 (522.9)

 516 (540.4)   422 (447.7)  1511
 남성  386 (436.1)  475 (450.6)  399 (373.3)  1260
 총합  959  991  821  2771

 

Peason chi-squared test statistics는 아래와 같이 정의된다.

여기서 r은 row의 갯수이고 c는 column의 갯수이므로 위 표4에서 r은 2-1로 1이며 c는 3-1로 2이다.

따라서 자유도는 2이다.

 

표4로부터 계산하면 아래와 같다.

즉, 표4로부터 계산한 chi-squared test statistics의 값은 16.2이고

자유도가 2일때 신뢰구간 95%에서 구한 chi-square의 값은 5.99이며

test statistics의 값이 5.99보다 크므로 null hypothesis는 reject하여 정치성향과 성별은 서로 의존한다고 볼수 있다.

 

 

 

Comments