Math & Statistics/Forecasting: Principles and Practice

챕터 5. 예측변수 선택

corycory 2022. 2. 26. 15:06
728x90
반응형
Forecasting: Principles and Practice 2nd Edition을 공부한 내용을 기록, 정리하고 있습니다. 

 

 

5.5 예측변수 선택

예측변수가 여러개 있을때, 변수를 전부 쓰는 것보다는 예측에 유의미한 변수들만 몇가지 추리는게 필요하다. 다음은 추천하지 않는 방식들이다. 

1. 목표 예상변수 y와 상관관계가 크지 않은 변수를 버리는 것.

2. 다중선형회귀분석을 해서, 0.05보다 p-value가 크면 무시해버리는 것. 통계적 유의미함이 꼭 예측값을 나타내는 것은 아니다. 

3. 2개 이상의 예측변수들이 서로 관련되어 있을 때, p값들의 해석이 난감해지므로 좋지 않다.

 

가장 좋은 것은 예측 정확도(predictive accuracy)를 측정하는 것이다. 이걸 측정하는데 사용할 수 있는 것은 CV, AIC, AICc, BIC 등의 값들이 있다. 조정된 결정계수(adjusted R^2) 역시 사용할 수 있다. 

 

조정된 R^2

기존의 R^2가 자유도를 고려하지 않는 단점을 감안해서 강화한 지표이다. 아래의 공식을 따르며, 기존의 결정계수와 마찬가지로 예측변수의 수가 많아질수록 값이 좋아지는 경향이 있다. 

 

조정된 결정계수

 

교차검증(Cross-Validation)

테스트 데이터의 값을 예측치와 비교하며 검증하는 것. 이 방법 중 하나는 단일 관측치 제거법 (leave-one-out) 검증도 있다. 방법은 다음과 같다.

1. 특정 관측값 t를 데이터에서 제거하고, 나머지의 데이터를 모델로 예측값을 구한다. 그 뒤 관측값에 대한 오차를 계산한다. 

2. t = 1, ..., T 에 대해 위 과정을 반복한다.

3. 총 T개의 관측값에 대한 오차를 얻었을 텐데, 이걸로 MSE를 계산한다. 작을수록 좋은 모델이다.

 

AIC (아카이케 정보기준)

아카이케 정보기준은 아래처럼 고하며, T는 관측값의 수, k는 예측변수의 수이다. k+2 인 이유는 예측변수에 더해 절편과 잔차에 대한 분산이 더해지기 때문이다. AIC가 작을수록 좋은 모델이 되며, T값이 큰 경우 CV값을 최소화 하는 것과 동일한 효과를 가진다.

 

AICc (수정된 아카이케 정보기준)

샘플 사이즈 T가 너무 작은 경우 AIC는 변수를 너무 많이 고르기도 한다. 따라서 이 부분을 보정한 것이 AICc이다. 

 

BIC (베이지언 정보기준)

AIC와 비슷하지만, 더 적은 수의 항을 고려하며, 변수가 많아질수록 페널티를 준다. 작을수록 좋은 모델이 된다. 

 

 

 

반응형