Math & Statistics/Forecasting: Principles and Practice

챕터 2. 시계열 시각화 - 산점도 (scatterplot)

corycory 2022. 2. 1. 19:07
728x90
반응형
Forecasting: Principles and Practice 2nd Edition을 공부한 내용을 기록, 정리하고 있습니다. 

 

 

2.6 산점도 (scatterplot)

산포도, 흩뿌림 그래프라고도 한다. 기존의 선으로 그려진 차트들은 각각의 시계열을 시각화 할 때 유용하며, 시계열 사이의 관계를 살필때도 유용하다. 예를 들어, 2014년의 월별 전력수요와 기온을 각각 선차트로 그려내면 아래와 같다. 

 

autoplot(elecdemand[,c("Demand","Temperature")], facets=TRUE) +
  xlab("Year: 2014") + ylab("") +
  ggtitle("Half-hourly electricity demand: Victoria, Australia")

 

위에 있는 선 차트가 전력 수요, 아래에 있는 차트가 기온이다. 호주의 경우는 북반구와 달리 여름이 겨울이기 때문에, 여름에 기온이 내려가면서 전력수요도 올라가는 모습을 볼 수 있다. 비슷하게, 호주의 여름인 겨울철 (1월)에도 전력수요가 올라가 있는 모습이다.

전력 수요와 기온

 

반면, 기온과 전력수요를 이렇게 따로따로 그리는게 아니라 한 그래프에 같이 그려넣으면, 두 변수 간의 관계를 시각화 할 수 있습니다. 

 

qplot(Temperature, Demand, data=as.data.frame(elecdemand)) +
  ylab("Demand (GW)") + xlab("Temperature (Celsius)")

 

전력수요와 기온을 한눈에 나타낸 산점도

 

두 개의 차트로 각 변수를 따로따로 보는 것보다, 이렇게 한 차트에 같이 그려넣으면 훨씬 알아보기가 간편합니다. 기온이 20도 전후일때 전력수요는 줄어드는 경향이 있고, 기온이 10도 아래로 내려갈때, 그리고 30도 이상 올라갈 때 전력 수요가 눈에 띄가 올라갑니다.

 

상관계수

두 변수 사이의 관계의 강도를 측정할 때 사용하는 것이 상관계수 (correlation coefficient) 입니다. 상관계수를 계산하는 식은 아래와 같습니다. 

 

상관계수 r은 -1과 1사이의 값을 가집니다. 상관계수가 음이면 음의 관계, 양이면 양의 관계입니다. 값이 0에 가까울수록 두 변수 사이의 관계가 약해집니다. 상관계수는 '선형적'인 관계의 강도만 나타낼 수 있어, 위의 전력 수요와 기온의 그래프처럼 곡선형의 데이터에서 두 변수 사이의 관계를 나타내기엔 적합하지 않습니다 (위의 기온과 전력수요 데이터의 상관계수는 0.28입니다). 

 

산점도행렬 (scatterplot matrix)

예측을 하는데 사용할 수 있는 예측변수들 (predictor variable)이 여러 개 있다면, 그 변수들 간의 관계를 살펴보는 것도 변수간의 관계 파악에 도움이 됩니다. 아래의 코드를 돌리면 호주의 뉴 사우스 웨일주(NSW)의 5개 지역의 분기별 방문자수가 그래프로 표시됩니다.

 

autoplot(visnights[,1:5], facets=TRUE) +
  ylab("Number of visitor nights each quarter (millions)")

 

5개 지역의 분기별 방문자수

 

이 5개의 차트를 각각 보기보다, 끼리끼리 한눈에 관계를 비교할 수 있는 것이 산점도 행렬 (scatterplot matrix) 입니다. 

library(GGally)
GGally::ggpairs(as.data.frame(visnights[,1:5]))

scatterplot matrix

 

위 산점도 그래프에서 오른쪽 위쪽은 변수간 상관관계의 값이 숫자로 표시되고, 왼쪽 아래에는 산점도 (scatterplot)가 나타나 있습니다. 대각선에는 히스토그램 또는 밀도 그래프 (density plot)이 그려집니다. 이렇게 예측변수간에 상관관계가 높고 낮은지, 어떤 모양으로 관계성이 있는지 (선형인지, 비선형인지) 한 눈에 알 수 있습니다.

반응형