반응형

시계열 분석 7

7. 지수 평활 - part 1

Forecasting: Principles and Practice 2nd Edition을 공부한 내용을 기록, 정리하고 있습니다. 지수평활 (Exponential smoothing)으로 예측한 값은 과거 관측값들의 가중 평균이다. 이때 각 가중치는 오래된 관측값일수록 가중치가 기하급수적으로 (exponentially) 감소한다. 7.1 Simple Exponential Smoothing (SES) 지수평활 방법 중에 가장 단순한 방법이다. 트렌드나 계절성이 보이지 않는 데이터에 가장 잘 작동한다. 지수평활을 나타내는 방식에는 여러가지(가중평균 형식, 성분 형식 등)가 있는데, 나는 가중평균 형식이 이해하기 쉬웠다. 가중평균 형식 (weighted average form) 앞에서 보았던 나이브 방식은 가장..

챕터 5 - 회귀분석, 비선형 회귀

Forecasting: Principles and Practice 2nd Edition을 공부한 내용을 기록, 정리하고 있습니다. 5.6 회귀로 예측하기 회귀 모델을 이용해 y의 예측값을 얻을 수 있다. 일단 제일 끝에 붙던 오차항은 예측할 수 있는 범위의 바깥에 있으므로 제외한다. 위 예측변수(predictor variables) 값들을 회귀모델 식에 넣으면 y의 적합값(fitted value)를 얻을 수 있다. 사전 예측 과 사후 예측 사전예상값(ex-ante forecast) 현재 이용할 수 있는 데이터, 즉 과거~현재까지의 데이터만 사용해서 내는 예측값(사전예상값)을 만든다. 이를 계산하기 위해서는 회귀분석 모델의 예측변수 predictor variable 들의 예상값이 필요하다. 이런 예측변수들..

챕터 4. 판단 예측

Forecasting: Principles and Practice 2nd Edition을 공부한 내용을 기록, 정리하고 있습니다. 판단 예측은 통계적이거나 수학적인 분석이 아니라, 분석 자료 수집이나 결과 해석 등의 과정에서 주관적으로 해석하는 것이다. 이 때문에 개인적이거나 정치적인 관점에 영향을 받을 수 있다. 4.3 델파이 기법 여러 사람이 모여서 낸 예측값이 개인이 낸 예측값보다 더 정확하다. 델파이 기법은 여러 사람이 예상하는 예측값과 이유를 조합해, 최종 예측값을 구성하는 방식이다. 이 기법의 단점은 여러 사람이 합의를 하는데 시간이 오래 걸릴 수 있다는 것이다. 4.4 유사점으로 예측 유사점으로 예측하는 것의 예시 중 하나는 감정을 통해 주택 가격을 결정하는 것이다. 주택 가격을 감정할 때,..

챕터 3. 예측 구간 (prediction invervals)

Forecasting: Principles and Practice 2nd Edition을 공부한 내용을 기록, 정리하고 있습니다. 3.5 예측 구간 예측 구간은 특정 확률로 관측값이 있을것으로 추정되는 구간이다. 예를 들어, 예측오차가 표준분포를 따른다고 가정했을때, h스텝 예측의 95% 예측 구간은 아래와 같이 계산된다. 좀더 일반적으로, 예측 구간은 아래의 공식으로 나타낼 수 있다. 위 공식에서 c는 포함하고자 하는 확률값으로, 만약 95% 예측구간이라고 치면 1.96이 된다. 벤치마크 방식 잔차들이 서로 상관관계가 없다는 가정하에 예측의 표준 편차를 계산하는 벤치마크 방식은 네가지가 있다. 만약 시그마(h)가 h스텝 예측 분포의 표준 편차이고, 시그마가 잔차의 표준 편차라면, 아래의 공식을 사용할 ..

챕터 3 - 예측 정확도 평가

Forecasting: Principles and Practice 2nd Edition을 공부한 내용을 기록, 정리하고 있습니다. 3.4 예측 정확도 평가 트레이닝(학습), 테스트 데이터 모델을 선택할때, 데이터를 학습용 데이터와 테스트용 데이터로 나누는 일이 흔하다. 학습용 데이터는 모델을 만드는데 사용하고, 테스트 데이터를 사용해 해당 모델의 정확도를 측정한다. 테스트 데이터는 모델을 만드는데 사용되지 않으므로, 모델이 새로운 데이터에 어떻게 반응하는지 평가하기 좋다. 일반적으로 학습용 데이터와 테스트 데이터의 비율은 8:2로 잡는데, 어디까지 예측하고 싶은지와 샘플 사이즈에 따라 달라진다. 테스트 데이터는 최소한 예측하고자 하는 범위만큼은 커야 한다. 아래는 주의사항이다. 트레이닝 데이터에 잘 맞는..

챕터 2. 시계열 시각화 - 산점도 (scatterplot)

Forecasting: Principles and Practice 2nd Edition을 공부한 내용을 기록, 정리하고 있습니다. 2.6 산점도 (scatterplot) 산포도, 흩뿌림 그래프라고도 한다. 기존의 선으로 그려진 차트들은 각각의 시계열을 시각화 할 때 유용하며, 시계열 사이의 관계를 살필때도 유용하다. 예를 들어, 2014년의 월별 전력수요와 기온을 각각 선차트로 그려내면 아래와 같다. autoplot(elecdemand[,c("Demand","Temperature")], facets=TRUE) + xlab("Year: 2014") + ylab("") + ggtitle("Half-hourly electricity demand: Victoria, Australia") 위에 있는 선 차트가 전..

챕터 2. 시계열 시각화 - 계절성 그래프

Forecasting: Principles and Practice 2nd Edition을 공부한 내용을 기록, 정리하고 있습니다. 2.4 계절성 그래프 계절성 그래프는 각 계절(season)에 대한 관측 그래프이다. 당뇨병 약 매출 데이터로 계절성 그래프를 그려보자. 이전 포스팅을 보았다면, 당뇨병 약 매출 데이터가 1년을 주기로 보았을 때 연초에 매출이 감소하고 연말에 증가하는 계절성(seasonality)이 있다는 것을 기억할 것이다. 따라서 계절성그래프를 그릴 수 있는 함수인 ggseasonplot을 사용해 연도별로 잘라서 월별 매출의 계절성 그래프를 그려보면 아래와 같다. > ggseasonplot(a10, year.labels=TRUE, year.labels.left=TRUE) + + ylab(..

반응형