19. ch05. 데이터분석 준비하기 레퍼런스 알고리즘 마련 - 01. 시계열 회귀분석 레퍼런스 모델 적용 실습하기
20. ch05. 데이터분석 준비하기 레퍼런스 알고리즘 마련 - 02. 시계열 회귀분석 레퍼런스 모델 적용 실습하기2
21. ch06. 데이터분석 준비하기 분석성능 확인 - 01. 검증지표 개념 이해하기 및 분석 활용 팁
강의자료 소스 :
일단 실습을 위해, 해당 강의 자료 Practice3_DataAnalysis_Cycle_KK.ipynb 의 Import Library, Data Loading, 그리고 3.1 Code Summary의 데이터 전처리, 5.1의 Data Split 부분까지 실행합니다.
1. Applying Base Model : Y예측을 위한 Base 분석
OLS(Ordinary Least Square) 방식의 기본 다중 회귀를 수행합니다.
# LinearRegression (using statsmodels)
fit_reg1 = sm.OLS(Y_train, X_train).fit()
display(fit_reg1.summary())
pred_tr_reg1 = fit_reg1.predict(X_train).values
pred_te_reg1 = fit_reg1.predict(X_test).values
-
중요한 정보는 R-squared, coef, P>|t| 값 정도입니다.
-
R-squared는 클 수록 좋다. 그러나 이 실습에서는 1인데 다소 비현실적인 수치입니다.
-
coef는 각 변수가 Y값에 미치는 기울기 값(영향력) 개념으로 이해하면 쉽습니다.
-
그리고 P-value는 해당 변수가 유의한 지에 대한 가설검증 결과로 0.05 보다 값이 적다면 유의한 영향이 있는 변수로 받아들일 수 있습니다
-
해당 결과의 아래쪽 출력은 위와 같습니다
-
Skew와 Kurtosis(왜도와 첨도)로 데이터의 분포를 짐작해 볼 수 있습니다. 실습의 결과에서는 데이터가 정규분포에서는 많이 벗어나 있음을 알 수 있습니다.
2. Data Understanding : Y예측에 대한 변수들의 시각화를 통한 확인
2.1 히스토그램
-
Y의 분포와 비슷할수록 분석에 도움이 될 가능성이 더 높습니다
-
count에서 파생된 변수이기 때문에 count_lag1, lag2가 비슷한 것은 당연하기도 합니다.
2.2 Box Plot
계절로 박스 패턴을 구분했을 때 계절별로 Y가 많이 달라야 계절이 의미 있게 Y에 영향이 있습니다.
holiday == 0 옵션을 통해 휴일 구분을 한 데이터를 시간별로 박스 플롯을 그려보았습니다.
휴일일 때와 그렇지 않은 때의 분포가 확연히 다르기 때문에 휴일 여부가 분석에 큰 도움이 될 거라 미루어 볼 수 있습니다.
2.3 Scatter Plot
temp 값을 추가해 컬러 맵을 활용해 3차원의 데이터를 표현할 수도 있습니다.
2.4 Crosstab
엑셀에 있는 크로스탭 기능처럼 축에 변수를 지정해 교집합이 되는 데이터의 숫자를 확인.
2.5 Scatter Matrix
조금 더 편하게 보기 위해 상관 히트맵 시각화
검증지표와 잔차진단(Evaluation Metrics & Residuals Diagnostics)
-
검증지표는 예측값과 실제값이 얼마나 비슷한지를 측정하는 것이며, 모형이 시간 특성을 잘 잡아내는지를 측정하지는 않음
-
시간특성 패턴이 잘 추출되었는지 확인하기 위해선 잔차(또는 에러) 진단을 통해 백색 잡음(White Noise)과 얼마나 유사한지 측정=> 잔차 진단
1. 검증지표
어떤 문제냐에 따라 다른 검증 지표를 활용합니다.
이외에도
-
Ranking Metrics:** Gain, Lift, MRR, DCG, NDCG, ...
-
Computer Vision Metrics:** PSNR, SSIM, IoU, ...
-
NLP Metrics:** Perplexity, BLEU score, ...
-
Deep Learning Related Metrics:** Inception score, Frechet Inception distance, ...
-
Real Problem:** ??? (현실의 문제는 더 복잡한 경우가 있습니다.)
대표적인 검증지표들
여기서 squared 방식의 검증지표는 이상치에 민감하게 반응합니다. 데이터를 파악하고 이에 맞는 검증지표를 선택해 사용해야 함이 바람직합니다.
요약
강의 소개 링크 : https://bit.ly/3czfg42
'Python > 시계열 데이터 분석' 카테고리의 다른 글
[시계열 분석] 과소적합/과적합/편향/분산 (0) | 2021.03.07 |
---|---|
[시계열 분석] 시계열 데이터 패턴의 추출 실습(2), 시계열과 비시계열 훈련, 검증, 실험 (0) | 2021.02.28 |
[시계열 분석] 시계열 데이터 패턴의 추출 실습(1) (1) | 2021.02.24 |
[시계열 분석] 시계열 딥러닝(1) : 비교, 필요한 이유, CNN, RNN (0) | 2021.02.20 |
[시계열 분석] 추세 , 계절성, 주기, 더미변수 활용, 지연값 (0) | 2021.02.16 |
댓글