Forecasting: Principles and Practice 2nd Edition을 공부한 내용을 기록, 정리하고 있습니다.
5.1 선형회귀 모델
시계열 예측에서 선형회귀를 쓸때, 예측하고자 하는 y가 다른 시계열 데이터 x와 선형적인 관계를 갖는다고 가정한다. 예를 들어, 전체 광고 비용을 x로 삼아 월별 매출액 y를 예측할 수 있다. 혹은, 온도 x1와 요일x2 변수를 사용해 일별 전력 수요 y를 예측할 수도 있다.
예측하고자 하는 y는 예상변수 또는 종속변수 라고 불리며, 예측하는데 사용되는 x는 예측변수 또는 독립변수라고 부른다.
5.2 선형 모델
단순선형회귀
가장 간단한 선형 모델은 예상변수와 예측변수 간의 선형관계이며, 아래 공식으로 표현할 수 있다.

위 공식을 간단하게 그림으로 나타내면 아래처럼 나타낼 수 있다. 절편 beta0은 예측변수 x가 0일때 예상변수 y의 예측값이고, 기울기인 계수 beta1은 x가 1만큼 증가했을 때 예측되는 y의 변화이다. 선형회귀모델은 관측값과 예측값의 오차 e(t)를 최소화하는 방법으로 데이터 한 가운데를 가로지른다. 이렇게 그린 선형회귀모델의 직선을 적합선(fitted line)이라고 부른다.

다중선형회귀
예측변수 x가 두개 이상일 때 모델은 다중회귀모델(multiple linear regression)이 된다. 다중회귀모델의 형태는 다음 공식과 같다.

단순선형회귀와 거의 같다. 다만 예측변수의 숫자가 늘어났다는 것이 차이. 각각의 예측변수들은 숫자 형태여야 한다. 각각의 계수 beta1, ..., beta(k)는 다른 예측변수들이 고정되었다 가정한 상태의 각 예측변수의 효과를 나타낸다. 즉, 각각의 계수는 각 예측변수 x(i)의 한계 효과(marginal effects)를 나타낸다.
가정
선형회귀모델의 가정은 다음과 같다. 예측변수와 종속변수간에 선형적인 관계가 있으며, 실제의 관계를 반영한다고 가정한다.
다음은 오차에 관한 가정이다.
- 오차의 평균은 0이며, 0이 아닐 경우 예측값에 편향이 있다는 의미이다.
- 오차에는 자기상관관계가 없다. 이 조건을 만족시키지 못할 경우, 예측값이 비효율적이며 아직 해석되지 못한 정보가 있다.
- 오차들은 예측변수 x들과 상관관계가 없다. 이 가정이 충족되지 않을 경우 모델의 구조적인 면에서 개선이 필요할 수 있다.
마지막으로 오차가 정규분포를 가지며 일정한 분산값을 가지면 예측 구간(prediction interval)을 만드는데 유용하다. 마지막으로, 각각의 예측변수 x는 확률 변수(random variable)이 아니라는 점이다. 통제된 실험을 하고 있는 경우는 x값의 통제가 가능하지만, 통제되지 않은 관측데이터(예를 들면 경제나 사회 데이터)를 사용하는 경우는 그냥 관측되는 값을 사용한다.
5.2 최소제곱추정 (Least Squares Estimation)
선형회귀모델을 만들때, 절편 beta0와 계수들 beta1, ..., beta(k)의 값을 정할 때 최소제곱추정을 사용한다. 추정하는 데 사용하는 공식은 아래와 같은데, 제곱 오차의 합을 최소화 하는 계수를 선택한다. 오차를 제곱한 다음 합산한 양의 최소값을 구하기 때문에, 최소제곱추정이라고 부른다.

적합값
y의 예측값은, 선형회귀모델의 계수 beta를 구하고 오차를 0으로 세팅함으로써 구할 수 있다. 이렇게 구한 예측값은 아래처럼 표현할 수 있다. 이렇게 트레이닝 데이터를 써서 구한 y의 예측값들을 적합값이라고 부른다.

적합도 (Goodness of Fit)
선형회귀를 사용해서 만들어낸 모델이 데이터에 얼마나 잘 맞는지 알아보는 방법은 결정계수(coefficient of determination)를 사용하는 것이다. 결정계수는 R^2라고도 부르며, 아래 식으로 계산할 수 있다.

단순선형회귀에서 결정계수 R^2는 y, x의 상관관계의 제곱과 동일하다. 결정계수는 모델이 데이터를 얼마나 잘 설명하는지를 판단하는 척도가 되며, 0에서 1사이의 값을 가진다. 만약 예측값과 실제 관측값의 차이가 근소하다면, 결정계수는 1에 가까워진다.
적합도 사용시 주의점이라면, 예측변수가 하나 늘어날 때마다 결정계수는 항상 상승하며, 이는 과적합모델로 이어질 수 있다. 데이터의 타입에 따라 결정계수의 값도 달라지므로, 좋은 결정계수가 어느정도 값인지에 대해 결정하기가 어렵다는 단점도 있다. 단순히 결정계수를 측정하기 보다는 테스트 데이터에 예측값을 비교하는 것이 더 낫다.
회귀분석의 표준 오차 (Standard error of the regression)
모델의 적합도를 재는 또 다른 방법은 오차의 표준편차이며, 잔차표준오차(residual standard error)라고도 불린다. 이를 계산하는 방법은 아래와 같다.

우리는 k+1 매개변수(parameter)를 추정하기 때문에 T-k-1로 오차의 값을 나눈다. 1이 더해지는 이유는 절편이 있기 때문이다.
표준오차는 모델이 만들어내는 평균 오차의 크기와 관련이 있으며, 우리는 이를 실제 관측값 y의 평균과 표준편차와 비교함으로써 모델의 정확도를 평가한다.
'Math & Statistics > Forecasting: Principles and Practice' 카테고리의 다른 글
챕터 5. 예측변수 선택 (0) | 2022.02.26 |
---|---|
챕터 5. 회귀모델평가, 예측변수 (0) | 2022.02.26 |
챕터 4. 판단 예측 (0) | 2022.02.19 |
챕터 3 연습문제 (0) | 2022.02.12 |
챕터 3. 예측 구간 (prediction invervals) (0) | 2022.02.12 |