다중공선성

1 개요[ | ]

multicollinearity, collinearity
多重公線性
다중공선성, 다중공선성문제
  • 독립 변수들끼리 밀접한 관련성이 있는 성질
  • 회귀분석에서 독립변수들 간에 강한 상관관계가 나타나는 문제
  • 다중회귀분석에서 독립변수들간에 상관계수가 매우 높기 때문에 발생하는 문제
  • 회귀분석의 전제 가정을 위배하는 것이므로, 적절한 회귀분석을 위해 해결해야 하는 문제이다.

2 진단방법[ | ]

  1. 결정계수 R2값은 높아 회귀식의 설명력은 높지만, 독립변수의 P-value값이 커서 개별 인자들이 유의하지 않는 경우가 있다. 이런 경우 독립변수들 간에 높은 상관관계가 있다고 의심된다.
  2. 독립변수들간의 상관계수를 구한다.
  3. 분산팽창요인(Variance Inflation Factor)를 구하여 이 값이 10을 넘는다면 보통 다중공선성의 문제가 있다.

3 해결방법[ | ]

  1. 상관관계가 높은 독립변수중 하나 혹은 일부를 제거한다.
  2. 변수를 변형시키거나 새로운 관측치를 이용한다.
  3. 자료를 수집하는 현장의 상황을 보아 상관관계의 이유를 파악하여 해결한다.
  4. PCA(Principle Component Analysis)를 이용한 diagnol matrix의 형태로 공선성을 없애준다.

4 같이 보기[ | ]

5 참고[ | ]

문서 댓글 ({{ doc_comments.length }})
{{ comment.name }} {{ comment.created | snstime }}