獨斷論

통계기초 정리 9. 단순선형회귀 본문

과학과 기술/통계이론설명

통계기초 정리 9. 단순선형회귀

부르칸 2021. 10. 6. 00:18

단순선형회귀모델

$$\hat{y} = b_0 + b_1 x$$

여기서

$\hat{y} : $ y의 예측값

$b_0 :$ y 절편

$b_1 :$ 기울기

 

주로 사용되는 용어설명하면

Explanatory variable

독립변수  $x$를 지칭한다. predictor variable이라고도 부른다.

 

Response variable

종속변수 $y$를 지칭한다. outcome variable이라고도 부른다.

 

잔차(Residual, $e_i$)

예측값과 측정값과의 차이를 말한다.

$$e_i = y_i - \hat{y}_i$$

 

Sum of squared residuals

위 잔차의 제곱의 합을 구하면

$$ SSE = \sum_i { \left( y_i - \hat{y}_i  \right)^2 } $$

 

 

단순선형회귀의 가정

  • Linearity: $x$와 $y$ 사이에는 선형의 관계가 존재한다.
  • Independence: 각각의 observation들은 서로 독립이어야만 한다.
  • Normality: 잔차값은 정규분포를 따라야만 한다.
  • Homoscedasticity: 잔차의 분산은 모든 x값에 대해 일정해야만 한다.

 

예제

데이터파일

exam.csv
0.00MB

위 데이터파일을 R에서 불러들여 단순선형회귀를 실행한다.

> exam.df = read.csv("d:/tmp/Exam.csv", header = TRUE)
> head(exam.df)
    Quiz Final
1 84.440    90
2 96.633   100
3 74.809    67
4 79.108    80
5 95.490    92
6 91.623    78
> results.lm = lm(Final ~ Quiz, data = exam.df)
> summary(results.lm)

Call:
lm(formula = Final ~ Quiz, data = exam.df)

Residuals:
     Min       1Q   Median       3Q      Max 
-22.5050  -6.4049   0.6885   6.0324  18.7842 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  12.1190    11.9416   1.015    0.315    
Quiz          0.7513     0.1414   5.314 2.74e-06 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 9.712 on 48 degrees of freedom
Multiple R-squared:  0.3704,	Adjusted R-squared:  0.3573 
F-statistic: 28.24 on 1 and 48 DF,  p-value: 2.742e-06

> 
> par(mfrow = c(2, 2))
> plot(results.lm)

단순선형회귀를 실행하기위해 lm( )를 사용하였고 그 결과를 results.lm에 저장한 후에 summary( )로 결과를 보았다.

plot(results.lm)을 이용하여 diagnostic plot을 그렸고 이때 총 4개의 그래프가 나오는데, par(mfrow = c(2, 2))를 이용하여 2x2 panel에 그래프를 넣으라는 명령하였다.

왼쪽위 Residuals vs. Fitted 는 선형성을 보기위한 그래프이다. 점들이 수평으로 균일하게 펼쳐져 있다면 선형에 근사하다. 여기서는 약간 2차로 보이긴 하지만 그렇게 심해보이지는 않는다.

오른쪽위 Normal Q-Q는 잔차값의 정규분포를 보기위한 그래프이다. 점들이 대각선상에 놓여져있을수록 정규분포에 가깝다.

왼쪽아래 Scale-Location은 Homoscedasticity를 보기위한 그래프이다. 점들이 수평으로 균일하게 펼쳐져있다면 Homoscedasticity 가정을 만족한다.

오른쪽아래 Residual vs Leverage는 influential case를 찾는 그래프이다. 47번이 Cook's D에 가깝게 위치해 있으나 밖에 위치하지는 않았다.

 

가설검증 기울기 b1

R script 결과에서 기울기에 대한 p-value는 2.74e-6이고 0.05보다 작으므로 선형회귀 기울기에 대한 H0: b1 = 0이라는 가설을 기각하고 기울기는 통계적으로 의미가 있다. 따라서 퀴즈점수는 기말고사 성적과 선형관계를 보이다고 결론내린다.

 

신뢰구간 기울기 b1

항상 신뢰구간을 구할때는 다음과 같이 구하는데

$$(\textrm{sample statistic}) \pm (\textrm{multiplier}) (\textrm{standard error})$$

 

기울기에 대한 신뢰구간은 다음과 같다.

$$b_1 \pm t^* (SE_{b1})$$

여기서

b1은 기울기

t*는 $df = n - 2$인 t-distributon quantile

SE_b1은 b1의 standard error

 

95%신뢰구간을 구하기 위한 t*를 R을 이용하여 구하면

> n = length(exam.df$Quiz)
> n
[1] 50
> qt(0.025, df=n-2, lower.tail=FALSE)
[1] 2.010635

$CI = 0.7513 \pm 2.01 \times 0.1414 = [0.467, 1.035]$

 

Coefficient of determination, R2

Explanatory variable로 설명될수 있는 response variable의 양을 주로 $R^2$로 나타낸다.

R script결과에서 R2이 0.37이었으므로 기말고사의 37%가 quiz점수의 평균값으로 설명될수 있다는 의미이다.

 

- 통계기초 정리 끝 -

Comments