Math & Statistics/Forecasting: Principles and Practice

챕터 5 - 상관관계, 인과관계, 예측

corycory 2022. 3. 5. 14:37
728x90
반응형

상관관계는 인과관계가 아니다.

상관관계는 단순히 두 변수 사이의 관계를 나타내지만, 두 변수 사이에 원인과 결과와 같은 관계가 있다는 걸 이야기 하지는 않는다.

예: 물에 빠져서 죽는 사람에 대한 통계와, 아이스크림의 수를 함께 모델링 했을때 높은 상관관계가 나왔다. 하지만 아이스크림을 사먹는다고 해서 물에 빠져죽는 것이 아니고, 더운 날씨에는 사람들이 물에 자주 들어가거나 아이스크림을 사먹게 되기 때문에 상관관계가 나올 수 있는 것이다.

 

혼선자 (confounder)

위의 예시에서, 물에 빠져 죽는 사람수와 아이스크림의 수를 이어주는 날씨를 조사에서 생략된 제 3의 변수로 볼 수 있다. 이렇게 반응변수 response variable과 하나 이상의 예측변수 predictor variable 모두에 영향을 주어 혼선을 일으키는 변수를 혼선 변수 confounding variable 이라고 한다. 데이터에 혼선자가 있을 경우, 변수간의 관계를 파악하기가 어려워질 수 있다.

 

다중공선성 (multicollinearity)

다중회귀분석에서 2개 이상의 예측변수들의 상관관계가 아주 높을때 다중공선성이 있을 수 있다. 다중공선성을 가진 변수들끼리는 비슷한 정보를 준다. 따라서 다중공선성이 나타나면 각 회귀계수와 관련된 예측을 추정하기 어렵다. 결과적으로, 각 회귀 계수에 대한 통계 검정(t검정)을 신뢰할 수 없게 된다. 또한, 일반적으로 미래 예측변수(predictor variable)의 값이 과거의 값의 범위를 벗어나면 예측값을 신뢰할 수 없게 되지만, 다중공선성이 있을 경우 더 어럽게 된다. 하지만 각각의 예측변수의 기여도에 관심이 없고, 예측변수의 미래값이 과거 범위에 들어가면 다중공선성이 크게 문제가 되지는 않는다.

 

가변수 함정(dummy variable trap)

다중공선성의 특별한 경우가 가변수 함정이다. 가변수 함정처럼 완벽한 상관관계의 경우는 회귀모델을 추정할 수 없다.

예를들면, 분기별 데이터를 가지고 4개의 가변수 d1, d2, d3, d4가 있다 가정하자. d4 = 1-d1-d2-d3 이다. d1+d2+d3 = 1-d4로, d4와 d1+d2+d3간에는 완벽한 상관관계가 생긴다. 

 

 

반응형