반응형

시계열 공부 12

챕터 6 시계열 분해 - 파트 2

Forecasting: Principles and Practice 2nd Edition을 공부한 내용을 기록, 정리하고 있습니다. 6.6 STL 분해 STL은 Seasonl and Trend decomposition using Loess (Loess를 사용한 계절성과 추세 분해) 를 줄인 것이다. Loess regression (국소 회귀)는 데이터의 일부에 회귀를 적용하는 방식이다. 예를 들어, 과거의 데이터보다 비교적 현재에 가까운 시간에 찍힌 데이터들이 중요하다면 가까운 데이터들에 가중치를 더 부여해서 모델링을 할 수 있다. STL의 장점 (앞에서 소개한 고전분해, SEATS, X11보다 좋은) - SEAT와 X11과는 달리, 월별이나 분기별 데이터 외에도 다양한 계절성을 다룰수 있다. - 계절성이..

챕터 6 시계열 분해 - 파트 1

Forecasting: Principles and Practice 2nd Edition을 공부한 내용을 기록, 정리하고 있습니다. 앞에서 추세, 계절성, 주기 등의 시계열 패턴의 정의를 파악했다. 종종 추세(trend)와 주기(cycle)를 결합해서 하나의 추세-주기 성분으로 다룬다. 따라서 시계열 데이터의 성분을 나눠서 볼때, 다음의 세 가지로 나눈다. 추세(trend)-주기(cycle), 계절성(seasonality), 그리고 나머지 성분(remainder). 이제 시계열 데이터에서 시계열 성분을 추출하는 방법을 알아보자. 6.1 시계열 성분 위에서 살펴본대로, 시계열 데이터를 세 가지로 나눠서 보는 걸 덧셈 방식으로 표현하면(덧셈분해) 아래처럼 나온다. 아래 공식에서 계절성S(t), 추세 T(t),..

챕터 5 - 회귀분석, 비선형 회귀

Forecasting: Principles and Practice 2nd Edition을 공부한 내용을 기록, 정리하고 있습니다. 5.6 회귀로 예측하기 회귀 모델을 이용해 y의 예측값을 얻을 수 있다. 일단 제일 끝에 붙던 오차항은 예측할 수 있는 범위의 바깥에 있으므로 제외한다. 위 예측변수(predictor variables) 값들을 회귀모델 식에 넣으면 y의 적합값(fitted value)를 얻을 수 있다. 사전 예측 과 사후 예측 사전예상값(ex-ante forecast) 현재 이용할 수 있는 데이터, 즉 과거~현재까지의 데이터만 사용해서 내는 예측값(사전예상값)을 만든다. 이를 계산하기 위해서는 회귀분석 모델의 예측변수 predictor variable 들의 예상값이 필요하다. 이런 예측변수들..

챕터 4. 판단 예측

Forecasting: Principles and Practice 2nd Edition을 공부한 내용을 기록, 정리하고 있습니다. 판단 예측은 통계적이거나 수학적인 분석이 아니라, 분석 자료 수집이나 결과 해석 등의 과정에서 주관적으로 해석하는 것이다. 이 때문에 개인적이거나 정치적인 관점에 영향을 받을 수 있다. 4.3 델파이 기법 여러 사람이 모여서 낸 예측값이 개인이 낸 예측값보다 더 정확하다. 델파이 기법은 여러 사람이 예상하는 예측값과 이유를 조합해, 최종 예측값을 구성하는 방식이다. 이 기법의 단점은 여러 사람이 합의를 하는데 시간이 오래 걸릴 수 있다는 것이다. 4.4 유사점으로 예측 유사점으로 예측하는 것의 예시 중 하나는 감정을 통해 주택 가격을 결정하는 것이다. 주택 가격을 감정할 때,..

챕터 3. 예측 구간 (prediction invervals)

Forecasting: Principles and Practice 2nd Edition을 공부한 내용을 기록, 정리하고 있습니다. 3.5 예측 구간 예측 구간은 특정 확률로 관측값이 있을것으로 추정되는 구간이다. 예를 들어, 예측오차가 표준분포를 따른다고 가정했을때, h스텝 예측의 95% 예측 구간은 아래와 같이 계산된다. 좀더 일반적으로, 예측 구간은 아래의 공식으로 나타낼 수 있다. 위 공식에서 c는 포함하고자 하는 확률값으로, 만약 95% 예측구간이라고 치면 1.96이 된다. 벤치마크 방식 잔차들이 서로 상관관계가 없다는 가정하에 예측의 표준 편차를 계산하는 벤치마크 방식은 네가지가 있다. 만약 시그마(h)가 h스텝 예측 분포의 표준 편차이고, 시그마가 잔차의 표준 편차라면, 아래의 공식을 사용할 ..

챕터 3 - 예측 정확도 평가

Forecasting: Principles and Practice 2nd Edition을 공부한 내용을 기록, 정리하고 있습니다. 3.4 예측 정확도 평가 트레이닝(학습), 테스트 데이터 모델을 선택할때, 데이터를 학습용 데이터와 테스트용 데이터로 나누는 일이 흔하다. 학습용 데이터는 모델을 만드는데 사용하고, 테스트 데이터를 사용해 해당 모델의 정확도를 측정한다. 테스트 데이터는 모델을 만드는데 사용되지 않으므로, 모델이 새로운 데이터에 어떻게 반응하는지 평가하기 좋다. 일반적으로 학습용 데이터와 테스트 데이터의 비율은 8:2로 잡는데, 어디까지 예측하고 싶은지와 샘플 사이즈에 따라 달라진다. 테스트 데이터는 최소한 예측하고자 하는 범위만큼은 커야 한다. 아래는 주의사항이다. 트레이닝 데이터에 잘 맞는..

챕터 3 - 적합값, 잔차

Forecasting: Principles and Practice 2nd Edition을 공부한 내용을 기록, 정리하고 있습니다. 3.3 잔차 진단 적합값 (fitted values) 이전의 관측값을 이용해서 예측값을 적합값(fitted values)이라고 부른다. 적합값은 항상 한 단계 예측치를 포함합니다. 잔차 (residuals) 시계열 모델에서 실제 관측값에서 모델로 맞춘 적합값을 뺀 오차값이라고 볼 수 있다. 좋은 예측 기법에서 잔차는 다음과 같은 특징을 갖는다. 1. 잔차 사이에 상관관계가 없다. 만약 있다면, 잔차에 예측값을 계산할 때 사용해야 하는 정보가 남아있는 것. 2. 잔차의 평균이 0이다. 0이 아니라면, 예측값에 편향(bias)가 있다. 필수는 아니지만 유용한 성질들: 3. 잔차의..

챕터 3. 예측 기법 - 단순한 예측 기법 & 변환

Forecasting: Principles and Practice 2nd Edition을 공부한 내용을 기록, 정리하고 있습니다. 3.1 단순한 예측 기법 평균 기법 과거 데이터의 평균을 가지고 미래의 값을 예측 하는 것. # y: ts data, h: prediction range meanf(y, h) 단순 기법 (naïve method) 마지막 과거 값을 예측값으로 사용하는 것. 경제 금융 시계열에서 많이 쓰이는 기법이다. 특히 데이터가 확률보행 (random walk)를 따를 때 단순기법이 잘 맞는다. 이 때문에 확률보행 예측값(random walk forecast)이라고 불리기도 한다. naive(y, h) rwf(y, h) 계절성 단순기법 (seasonal naïve method) 계절성이 뚜렷..

챕터2. 연습문제

Forecasting: Principles and Practice 2nd Edition을 공부한 내용을 기록, 정리하고 있습니다. 2.10 연습문제 1. gold, woolyrnq, gas 시계열 살펴보기 a. autoplot()으로 각각 그래프 그려보기 b. frequency()를 사용해 주기 확인해보기 > frequency(gold) [1] 1 > frequency(woolyrnq) [1] 4 > frequency(gas) [1] 12 c. which.max()로 gold()에서 튀는 시계열 값 찾기 위 시계열 에서 갑자기 위로 솟는 부분의 값. > which.max(gold) [1] 770 2. 책 웹사이트에서 tute1.csv 파일 내려받아 열어보기. a. 데이터를 R로 읽어오기 r에서 다운받은 ..

챕터2. 시계열 시각화 - 시차 그래프, ACF

Forecasting: Principles and Practice 2nd Edition을 공부한 내용을 기록, 정리하고 있습니다. 2.7 시차 그래프 (lag plots) 앞에서 그린 그래프와 달리, 시계열 데이터의 시차값을 나타내는 그래프가 시차 그래프(lag plo)이다. 각각의 칸 안에는 1분기에서 4분기까지의 맥주 생산량 그래프가 있다. lag4, lag8 (시차4, 8)에서 그래프는 뚜렷하게 양의 관계를 보이고 있다. 작은 생산량에서 큰 생산량 순서로 2, 3, 1, 4분기이다. lag4, lag8은 값이 가장 큰 4분기이므로 저점인 2분기인 lag2, lag6에서 4, 1, 3, 2 순으로 음의 관계가 나타난다. r(1) r(2) r(3) r(4) r(5) r(6) r(7) r(8) r(9) ..

반응형