본문 바로가기
Python/시계열 데이터 분석

[시계열 분석] 추세 , 계절성, 주기, 더미변수 활용, 지연값

by 춘춘주모 2021. 2. 16.
반응형

10. ch03.데이터분석 준비하기 시계열 데이터패턴 추출 - 02. 시계열 데이터패턴 - 추세, 계절성, 주기

11. ch03.데이터분석 준비하기 시계열 데이터패턴 추출 - 03. 시계열 데이터패턴 - 더미변수 활용

12. ch03.데이터분석 준비하기 시계열 데이터패턴 추출 - 04. 시계열 데이터패턴 - 지연값 및

 

인강 사서 듣고 있는데, 이거 성실히 작성하면 환급해준다고 한다. 귀찮지만 열심히 정리해보도록 한다.

 

오늘의 주제 : 시계열 분석 성분들

(1) 추세

확률은 추세와 추세가 제거된 정상확률 과정의 합으로 표현하고 있다.(둘로 분해가 된다.)

(2) 계절성과 주기

계절성(Seasonality)은 일정한 빈도로 반복되는 패턴(m)으로 특정한 달/요일에 따라 기댓값이 달라지는 것을 의미한다. 

  • 계절성 반영 방법은 크게 두가지로 수치 값을 그대로 하거나, 발생 시점으로 분리한다. 

  • 주기적 패턴이 12개월 마다 반복(m = 12)

주기(Cycle)는 일정하지 않은 빈도로 발생하는 패턴(계절성)이다.

  • 빈도가 1인 경우에도 발생이 가능하다.

(3) 시계열 분해(추세/계절성/잔차(Residual))

  • 관측값(1)에서 상승하고 하락하는 움직임을 추세(2)로 추출할 수 있다.

  • 관측값(1)에서 추세를 제거한, 주기적으로 반복되는 scale을 추출 가능 -> 계절성(3)

  • 관측값(1)에서 추세와 계절성을 제거한 것이 잔차(4)

  • 그러므로 최초 확률 과정은 추세, 계절성, 잔차로 분해 가능하다. (이후 python으로 실습)

(4) 더미변수(Dummy Variable) 

더미변수란 이진수(0 or 1)의 형태로 변수를 생성하는 것으로 휴일, 이벤트 등을 생성 가능.

 

확실한 패턴이 존재하는 경우에만 효과가 있으며, 외려 모델의 오류를 증가시킬 가능성이 있음.

그림은 투자 상품의 예시. 주식일 때는 1로 채권일 때는 0으로 더미 변수화. 

이를 이용해 하나의 변수를 추가함으로써 다른 두 가지 해석이 가능하게 한다.

 

(5) 지연값(Lagged value)

변수의 지연된 값을 독립변수로 반영하는 것으로 ARIMA, VAR, NNAR 등이 활용된다. 

 

지연된 변수를 분석했을 때 p-value를 통해 독립변수가 종속변수에 어떻게 영향을 끼치는지(몇일의 지연된 값이 유의한 지) 알 수 있도록 한다. 

 

(6) 시간변수

시간 변수를 미시/거시적으로 분리하거나 통합하여 생성된 변수이다.

예를 들면, 년 월 일 요일을 분리해서 하나씩 입력 변수로 활용. 

  • 세분화된 시간 해석.

  • Feature Engineering을 통해 생성된 변수의 입력 형태로 모형 선택을 하는데 필요.

  • 예측성능 향상뿐 아니라 결과를 해석하고 해당 속성을 분석하며 가능한 원인 식별에 도움을 준다.

  • 생성된 변수의 패턴이 기존 모델에서 반영하지 않던 패턴이라면 예측 성능을 높임.

 

강의 소개 링크 : https://bit.ly/3czfg42

반응형

댓글