반응형

Math & Statistics/Forecasting: Principles and Practice 22

챕터 3 연습문제

Forecasting: Principles and Practice 2nd Edition을 공부한 내용을 기록, 정리하고 있습니다. 3.7 연습문제 1. 시계열의 분산을 안정화하기 위해 박스-칵스 변환을 찾아보기. 계산값들은 아래와 같다. > (lambda (lambda (lambda (lambda ng1 (lambda ng2 (lambda ng3 (lambda ng4 ng1 + ng2 + ng3 + ng4 5. 1992년부터 호주 분기별 맥주 생산량 데이터에 계절성 단순 예측(seasonal naïve forecast)을 적용해서 얻은 잔차를 계산해보자. 잔차가 백색잡음이며 정규분포를 따르는지 확인해보자. beer train1 train2 train3 test1 test2 test3 fc1 fc2 fc3..

챕터 3. 예측 구간 (prediction invervals)

Forecasting: Principles and Practice 2nd Edition을 공부한 내용을 기록, 정리하고 있습니다. 3.5 예측 구간 예측 구간은 특정 확률로 관측값이 있을것으로 추정되는 구간이다. 예를 들어, 예측오차가 표준분포를 따른다고 가정했을때, h스텝 예측의 95% 예측 구간은 아래와 같이 계산된다. 좀더 일반적으로, 예측 구간은 아래의 공식으로 나타낼 수 있다. 위 공식에서 c는 포함하고자 하는 확률값으로, 만약 95% 예측구간이라고 치면 1.96이 된다. 벤치마크 방식 잔차들이 서로 상관관계가 없다는 가정하에 예측의 표준 편차를 계산하는 벤치마크 방식은 네가지가 있다. 만약 시그마(h)가 h스텝 예측 분포의 표준 편차이고, 시그마가 잔차의 표준 편차라면, 아래의 공식을 사용할 ..

챕터 3 - 예측 정확도 평가

Forecasting: Principles and Practice 2nd Edition을 공부한 내용을 기록, 정리하고 있습니다. 3.4 예측 정확도 평가 트레이닝(학습), 테스트 데이터 모델을 선택할때, 데이터를 학습용 데이터와 테스트용 데이터로 나누는 일이 흔하다. 학습용 데이터는 모델을 만드는데 사용하고, 테스트 데이터를 사용해 해당 모델의 정확도를 측정한다. 테스트 데이터는 모델을 만드는데 사용되지 않으므로, 모델이 새로운 데이터에 어떻게 반응하는지 평가하기 좋다. 일반적으로 학습용 데이터와 테스트 데이터의 비율은 8:2로 잡는데, 어디까지 예측하고 싶은지와 샘플 사이즈에 따라 달라진다. 테스트 데이터는 최소한 예측하고자 하는 범위만큼은 커야 한다. 아래는 주의사항이다. 트레이닝 데이터에 잘 맞는..

챕터 3 - 적합값, 잔차

Forecasting: Principles and Practice 2nd Edition을 공부한 내용을 기록, 정리하고 있습니다. 3.3 잔차 진단 적합값 (fitted values) 이전의 관측값을 이용해서 예측값을 적합값(fitted values)이라고 부른다. 적합값은 항상 한 단계 예측치를 포함합니다. 잔차 (residuals) 시계열 모델에서 실제 관측값에서 모델로 맞춘 적합값을 뺀 오차값이라고 볼 수 있다. 좋은 예측 기법에서 잔차는 다음과 같은 특징을 갖는다. 1. 잔차 사이에 상관관계가 없다. 만약 있다면, 잔차에 예측값을 계산할 때 사용해야 하는 정보가 남아있는 것. 2. 잔차의 평균이 0이다. 0이 아니라면, 예측값에 편향(bias)가 있다. 필수는 아니지만 유용한 성질들: 3. 잔차의..

챕터 3. 예측 기법 - 단순한 예측 기법 & 변환

Forecasting: Principles and Practice 2nd Edition을 공부한 내용을 기록, 정리하고 있습니다. 3.1 단순한 예측 기법 평균 기법 과거 데이터의 평균을 가지고 미래의 값을 예측 하는 것. # y: ts data, h: prediction range meanf(y, h) 단순 기법 (naïve method) 마지막 과거 값을 예측값으로 사용하는 것. 경제 금융 시계열에서 많이 쓰이는 기법이다. 특히 데이터가 확률보행 (random walk)를 따를 때 단순기법이 잘 맞는다. 이 때문에 확률보행 예측값(random walk forecast)이라고 불리기도 한다. naive(y, h) rwf(y, h) 계절성 단순기법 (seasonal naïve method) 계절성이 뚜렷..

챕터2. 연습문제

Forecasting: Principles and Practice 2nd Edition을 공부한 내용을 기록, 정리하고 있습니다. 2.10 연습문제 1. gold, woolyrnq, gas 시계열 살펴보기 a. autoplot()으로 각각 그래프 그려보기 b. frequency()를 사용해 주기 확인해보기 > frequency(gold) [1] 1 > frequency(woolyrnq) [1] 4 > frequency(gas) [1] 12 c. which.max()로 gold()에서 튀는 시계열 값 찾기 위 시계열 에서 갑자기 위로 솟는 부분의 값. > which.max(gold) [1] 770 2. 책 웹사이트에서 tute1.csv 파일 내려받아 열어보기. a. 데이터를 R로 읽어오기 r에서 다운받은 ..

챕터2. 시계열 시각화 - 시차 그래프, ACF

Forecasting: Principles and Practice 2nd Edition을 공부한 내용을 기록, 정리하고 있습니다. 2.7 시차 그래프 (lag plots) 앞에서 그린 그래프와 달리, 시계열 데이터의 시차값을 나타내는 그래프가 시차 그래프(lag plo)이다. 각각의 칸 안에는 1분기에서 4분기까지의 맥주 생산량 그래프가 있다. lag4, lag8 (시차4, 8)에서 그래프는 뚜렷하게 양의 관계를 보이고 있다. 작은 생산량에서 큰 생산량 순서로 2, 3, 1, 4분기이다. lag4, lag8은 값이 가장 큰 4분기이므로 저점인 2분기인 lag2, lag6에서 4, 1, 3, 2 순으로 음의 관계가 나타난다. r(1) r(2) r(3) r(4) r(5) r(6) r(7) r(8) r(9) ..

챕터 2. 시계열 시각화 - 산점도 (scatterplot)

Forecasting: Principles and Practice 2nd Edition을 공부한 내용을 기록, 정리하고 있습니다. 2.6 산점도 (scatterplot) 산포도, 흩뿌림 그래프라고도 한다. 기존의 선으로 그려진 차트들은 각각의 시계열을 시각화 할 때 유용하며, 시계열 사이의 관계를 살필때도 유용하다. 예를 들어, 2014년의 월별 전력수요와 기온을 각각 선차트로 그려내면 아래와 같다. autoplot(elecdemand[,c("Demand","Temperature")], facets=TRUE) + xlab("Year: 2014") + ylab("") + ggtitle("Half-hourly electricity demand: Victoria, Australia") 위에 있는 선 차트가 전..

챕터 2. 시계열 시각화 - 계절성 그래프

Forecasting: Principles and Practice 2nd Edition을 공부한 내용을 기록, 정리하고 있습니다. 2.4 계절성 그래프 계절성 그래프는 각 계절(season)에 대한 관측 그래프이다. 당뇨병 약 매출 데이터로 계절성 그래프를 그려보자. 이전 포스팅을 보았다면, 당뇨병 약 매출 데이터가 1년을 주기로 보았을 때 연초에 매출이 감소하고 연말에 증가하는 계절성(seasonality)이 있다는 것을 기억할 것이다. 따라서 계절성그래프를 그릴 수 있는 함수인 ggseasonplot을 사용해 연도별로 잘라서 월별 매출의 계절성 그래프를 그려보면 아래와 같다. > ggseasonplot(a10, year.labels=TRUE, year.labels.left=TRUE) + + ylab(..

챕터 2. 시계열 시각화 - 시계열 패턴

Forecasting: Principles and Practice 2nd Edition을 공부한 내용을 기록, 정리하고 있습니다. 2.3 시계열 패턴 시계열 분석에 사용하는 용어는 세분화되어 정의가 되어 있다. 추세 (trend) 추세는 데이터의 장기적인 상승/하락 방향을 나타낸다. 추세는 꼭 선형적이지많은 않으며, 오르는지 내리는지의 방향을 언급할 때 많이 쓴다. 계절성 (seasonality) 특정한 주기(1주일, 특정요일, 특정 계절 등)와 같은 계절성 요인이 데이터에 영향을 줄때 계절성 패턴이 나타난다. 계절성은 빈도로 알 수 있는데, 이 빈도는 일정하다. 주기성 (cycle) 위의 계절성과 달리, 특정한 패턴이 고정된 빈도가 아닌 형태로 나타날때 주기라고 한다. 일반적으로 주기들의 평균 지속시간..

반응형