본문 바로가기
Python/시계열 데이터 분석

[시계열 분석] 과소적합/과적합/편향/분산

by 춘춘주모 2021. 3. 7.
반응형

ch06. 데이터분석 준비하기 분석성능 확인 - 02. 검증지표 해석을 위한 과소적합, 과적합, 편향, 분산 이해하기

ch06. 데이터분석 준비하기 분석성능 확인 - 03. 검증지표 적용 실습하기

ch06. 데이터분석 준비하기 분석성능 확인 - 04. 시계열 데이터패턴 및 전처리 성능 확인 실습하기

 

강의자료 소스 : 

github.com/cheonbi/OnlineTSA

 

cheonbi/OnlineTSA

Online Course of Time Series Analysis. Contribute to cheonbi/OnlineTSA development by creating an account on GitHub.

github.com

 

검증 유의점(Underfitting vs Overfitting)

  • 과소적합(Underfitting): 단순모델 또는 높은편향(충분하지 않은 데이터 패턴 학습)

  • 과적합(Overfitting): 복잡한 모델 또는 높은 분산(주어진 데이터 패턴에만 효과)

    • 발생: 같은 조건에 대해 추정되는 답이 복수개 존재할 수 있는 상황

      • 독립변수 개수에 비해 추정해야 할 파라미터/모수의 수가 과도하게 큰 경우

      • 독립변수가 서로 독립이 아닌 경우

    • 문제 이유:

      • 학습에 사용되지 않는 새로운 독립변수 값을 입력하면 오차가 커짐 (Cross-validation 오차)

      • 샘플 데이터가 조금만 변화해도 추정되는 파라미터/모수의 값이 크게 달라짐 (추정의 불안정성/부정확성)

 

편향-분산 상충관계(Bias-variance Trade-off)

1) 편향과 분산의 정의 

1. 편향 : 점추 정 

- 예측값과 실제값의 차이

- 모델 학습 시 예측값의 범위가 정답과 얼마나 멀리 있는지 측정

 

-> 편향이 작다면 Training 데이터 패턴(복잡성)을 최대 반영 의미(Overfitting) 

-> 편향이 크다면 Training 데이터 패턴(복잡성)을 최소 반영 의미(Underfitting)

 

2. 분산(Variance) : 다른 데이터(Testing)를 사용할 때 발생할 변화

-> 분산이 작다면 다른 데이터로 예측 시 적은 변동 예상

-> 분산이 크다면 다른 데이터로 예측시 많은 변동 예상

2) 편향과 분산의 관계

  • 모델의 복잡도가 낮으면 Bias가 증가하고 Variance가 감소(Underfitting)

    • 구간 추정 범위는 좁으나 점추정 정확성 낮음

    • Training/Testing 모두 예측력이 낮음

  • 모델의 복잡도가 높으면 Bias가 감소하고 Variance가 증가(Overfitting)

    • 점추정 정확성은 높으나 구간추정 범위는 넓음

    • Training만 잘 예측력 높고 Testing은 예측력 낮음

  • Bias와 Variance가 최소화되는 수준에서 모델의 복잡도를 선택 

3) 편향과 분산 모두를 최소화하는 방법

강의 소개 링크 : https://bit.ly/3czfg42

 

반응형

댓글