반응형

Math & Statistics/Forecasting: Principles and Practice 22

7. 지수 평활 - part 1

Forecasting: Principles and Practice 2nd Edition을 공부한 내용을 기록, 정리하고 있습니다. 지수평활 (Exponential smoothing)으로 예측한 값은 과거 관측값들의 가중 평균이다. 이때 각 가중치는 오래된 관측값일수록 가중치가 기하급수적으로 (exponentially) 감소한다. 7.1 Simple Exponential Smoothing (SES) 지수평활 방법 중에 가장 단순한 방법이다. 트렌드나 계절성이 보이지 않는 데이터에 가장 잘 작동한다. 지수평활을 나타내는 방식에는 여러가지(가중평균 형식, 성분 형식 등)가 있는데, 나는 가중평균 형식이 이해하기 쉬웠다. 가중평균 형식 (weighted average form) 앞에서 보았던 나이브 방식은 가장..

챕터 6 시계열 분해 - 파트 2

Forecasting: Principles and Practice 2nd Edition을 공부한 내용을 기록, 정리하고 있습니다. 6.6 STL 분해 STL은 Seasonl and Trend decomposition using Loess (Loess를 사용한 계절성과 추세 분해) 를 줄인 것이다. Loess regression (국소 회귀)는 데이터의 일부에 회귀를 적용하는 방식이다. 예를 들어, 과거의 데이터보다 비교적 현재에 가까운 시간에 찍힌 데이터들이 중요하다면 가까운 데이터들에 가중치를 더 부여해서 모델링을 할 수 있다. STL의 장점 (앞에서 소개한 고전분해, SEATS, X11보다 좋은) - SEAT와 X11과는 달리, 월별이나 분기별 데이터 외에도 다양한 계절성을 다룰수 있다. - 계절성이..

챕터 6 시계열 분해 - 파트 1

Forecasting: Principles and Practice 2nd Edition을 공부한 내용을 기록, 정리하고 있습니다. 앞에서 추세, 계절성, 주기 등의 시계열 패턴의 정의를 파악했다. 종종 추세(trend)와 주기(cycle)를 결합해서 하나의 추세-주기 성분으로 다룬다. 따라서 시계열 데이터의 성분을 나눠서 볼때, 다음의 세 가지로 나눈다. 추세(trend)-주기(cycle), 계절성(seasonality), 그리고 나머지 성분(remainder). 이제 시계열 데이터에서 시계열 성분을 추출하는 방법을 알아보자. 6.1 시계열 성분 위에서 살펴본대로, 시계열 데이터를 세 가지로 나눠서 보는 걸 덧셈 방식으로 표현하면(덧셈분해) 아래처럼 나온다. 아래 공식에서 계절성S(t), 추세 T(t),..

챕터5 - 연습문제

Forecasting: Principles and Practice 2nd Edition을 공부한 내용을 기록, 정리하고 있습니다. 5.10 연습문제 1번 a. elecdaily 테이블을 그래프로 나타내고, 온도를 설명변수로 사용해서 수요값에 대한 회귀모델 찾기. 일반적으로 30도까지는 온도가 올라갈수록 추울때보다 난방에 에너지를 덜 사용하게 되어 음의 관계가 나온다. elecdaily 데이터의 모델의 계수, 절편값 구하기 > tslm(Demand ~ Temperature, data=daily20) Call: tslm(formula = Demand ~ Temperature, data = daily20) Coefficients: (Intercept) Temperature 39.212 6.757 autoplo..

챕터 5 - 상관관계, 인과관계, 예측

상관관계는 인과관계가 아니다. 상관관계는 단순히 두 변수 사이의 관계를 나타내지만, 두 변수 사이에 원인과 결과와 같은 관계가 있다는 걸 이야기 하지는 않는다. 예: 물에 빠져서 죽는 사람에 대한 통계와, 아이스크림의 수를 함께 모델링 했을때 높은 상관관계가 나왔다. 하지만 아이스크림을 사먹는다고 해서 물에 빠져죽는 것이 아니고, 더운 날씨에는 사람들이 물에 자주 들어가거나 아이스크림을 사먹게 되기 때문에 상관관계가 나올 수 있는 것이다. 혼선자 (confounder) 위의 예시에서, 물에 빠져 죽는 사람수와 아이스크림의 수를 이어주는 날씨를 조사에서 생략된 제 3의 변수로 볼 수 있다. 이렇게 반응변수 response variable과 하나 이상의 예측변수 predictor variable 모두에 영향..

챕터 5 - 회귀분석, 비선형 회귀

Forecasting: Principles and Practice 2nd Edition을 공부한 내용을 기록, 정리하고 있습니다. 5.6 회귀로 예측하기 회귀 모델을 이용해 y의 예측값을 얻을 수 있다. 일단 제일 끝에 붙던 오차항은 예측할 수 있는 범위의 바깥에 있으므로 제외한다. 위 예측변수(predictor variables) 값들을 회귀모델 식에 넣으면 y의 적합값(fitted value)를 얻을 수 있다. 사전 예측 과 사후 예측 사전예상값(ex-ante forecast) 현재 이용할 수 있는 데이터, 즉 과거~현재까지의 데이터만 사용해서 내는 예측값(사전예상값)을 만든다. 이를 계산하기 위해서는 회귀분석 모델의 예측변수 predictor variable 들의 예상값이 필요하다. 이런 예측변수들..

챕터 5. 예측변수 선택

Forecasting: Principles and Practice 2nd Edition을 공부한 내용을 기록, 정리하고 있습니다. 5.5 예측변수 선택 예측변수가 여러개 있을때, 변수를 전부 쓰는 것보다는 예측에 유의미한 변수들만 몇가지 추리는게 필요하다. 다음은 추천하지 않는 방식들이다. 1. 목표 예상변수 y와 상관관계가 크지 않은 변수를 버리는 것. 2. 다중선형회귀분석을 해서, 0.05보다 p-value가 크면 무시해버리는 것. 통계적 유의미함이 꼭 예측값을 나타내는 것은 아니다. 3. 2개 이상의 예측변수들이 서로 관련되어 있을 때, p값들의 해석이 난감해지므로 좋지 않다. 가장 좋은 것은 예측 정확도(predictive accuracy)를 측정하는 것이다. 이걸 측정하는데 사용할 수 있는 것은..

챕터 5. 회귀모델평가, 예측변수

Forecasting: Principles and Practice 2nd Edition을 공부한 내용을 기록, 정리하고 있습니다. 5.3 회귀모델평가 관측된 y값과 예측한 y^hat 값의 차이를 잔차(residual)로 정의한다. 이 잔차는 관측값에서 모델이 예측할수 없는 부분이며, 아래의 성질을 가진다. 회귀모델을 만든 뒤에, 모델의 가정이 만족되는지 확인하기 위해 잔차를 그려보는 것이 필요하다. 잔차의 ACF 그래프 보통 현재 시점에 관측한 변수의 값은 이전 기간의 값과 비슷하거나, 그보다 이전 기간의 값과 비슷할 수 있다. 이를 보기 위해 잔차의 자기상관(autocorrelation)을 확인한다. 만약 자기상관관계가 있다고 나오면, 아직 모델이 다 잡지 못한 정보가 더 있다는 것을 의미. 잔차의 히..

챕터 5. 회귀분석모델 -

Forecasting: Principles and Practice 2nd Edition을 공부한 내용을 기록, 정리하고 있습니다. 5.1 선형회귀 모델 시계열 예측에서 선형회귀를 쓸때, 예측하고자 하는 y가 다른 시계열 데이터 x와 선형적인 관계를 갖는다고 가정한다. 예를 들어, 전체 광고 비용을 x로 삼아 월별 매출액 y를 예측할 수 있다. 혹은, 온도 x1와 요일x2 변수를 사용해 일별 전력 수요 y를 예측할 수도 있다. 예측하고자 하는 y는 예상변수 또는 종속변수 라고 불리며, 예측하는데 사용되는 x는 예측변수 또는 독립변수라고 부른다. 5.2 선형 모델 단순선형회귀 가장 간단한 선형 모델은 예상변수와 예측변수 간의 선형관계이며, 아래 공식으로 표현할 수 있다. 위 공식을 간단하게 그림으로 나타내면..

챕터 4. 판단 예측

Forecasting: Principles and Practice 2nd Edition을 공부한 내용을 기록, 정리하고 있습니다. 판단 예측은 통계적이거나 수학적인 분석이 아니라, 분석 자료 수집이나 결과 해석 등의 과정에서 주관적으로 해석하는 것이다. 이 때문에 개인적이거나 정치적인 관점에 영향을 받을 수 있다. 4.3 델파이 기법 여러 사람이 모여서 낸 예측값이 개인이 낸 예측값보다 더 정확하다. 델파이 기법은 여러 사람이 예상하는 예측값과 이유를 조합해, 최종 예측값을 구성하는 방식이다. 이 기법의 단점은 여러 사람이 합의를 하는데 시간이 오래 걸릴 수 있다는 것이다. 4.4 유사점으로 예측 유사점으로 예측하는 것의 예시 중 하나는 감정을 통해 주택 가격을 결정하는 것이다. 주택 가격을 감정할 때,..

반응형