ch06. 데이터분석 준비하기 분석성능 확인 - 02. 검증지표 해석을 위한 과소적합, 과적합, 편향, 분산 이해하기
ch06. 데이터분석 준비하기 분석성능 확인 - 03. 검증지표 적용 실습하기
ch06. 데이터분석 준비하기 분석성능 확인 - 04. 시계열 데이터패턴 및 전처리 성능 확인 실습하기
강의자료 소스 :
검증 유의점(Underfitting vs Overfitting)
-
과소적합(Underfitting): 단순모델 또는 높은편향(충분하지 않은 데이터 패턴 학습)
-
과적합(Overfitting): 복잡한 모델 또는 높은 분산(주어진 데이터 패턴에만 효과)
-
발생: 같은 조건에 대해 추정되는 답이 복수개 존재할 수 있는 상황
-
독립변수 개수에 비해 추정해야 할 파라미터/모수의 수가 과도하게 큰 경우
-
독립변수가 서로 독립이 아닌 경우
-
-
문제 이유:
-
학습에 사용되지 않는 새로운 독립변수 값을 입력하면 오차가 커짐 (Cross-validation 오차)
-
샘플 데이터가 조금만 변화해도 추정되는 파라미터/모수의 값이 크게 달라짐 (추정의 불안정성/부정확성)
-
-
편향-분산 상충관계(Bias-variance Trade-off)
1) 편향과 분산의 정의
1. 편향 : 점추 정
- 예측값과 실제값의 차이
- 모델 학습 시 예측값의 범위가 정답과 얼마나 멀리 있는지 측정
-> 편향이 작다면 Training 데이터 패턴(복잡성)을 최대 반영 의미(Overfitting)
-> 편향이 크다면 Training 데이터 패턴(복잡성)을 최소 반영 의미(Underfitting)
2. 분산(Variance) : 다른 데이터(Testing)를 사용할 때 발생할 변화
-> 분산이 작다면 다른 데이터로 예측 시 적은 변동 예상
-> 분산이 크다면 다른 데이터로 예측시 많은 변동 예상
2) 편향과 분산의 관계
-
모델의 복잡도가 낮으면 Bias가 증가하고 Variance가 감소(Underfitting)
-
구간 추정 범위는 좁으나 점추정 정확성 낮음
-
Training/Testing 모두 예측력이 낮음
-
-
모델의 복잡도가 높으면 Bias가 감소하고 Variance가 증가(Overfitting)
-
점추정 정확성은 높으나 구간추정 범위는 넓음
-
Training만 잘 예측력 높고 Testing은 예측력 낮음
-
-
Bias와 Variance가 최소화되는 수준에서 모델의 복잡도를 선택
3) 편향과 분산 모두를 최소화하는 방법
강의 소개 링크 : https://bit.ly/3czfg42
'Python > 시계열 데이터 분석' 카테고리의 다른 글
[시계열 분석] 시계열 회귀분석 레퍼런스 모델 적용, 검증지표 개념 및 이해 (0) | 2021.03.03 |
---|---|
[시계열 분석] 시계열 데이터 패턴의 추출 실습(2), 시계열과 비시계열 훈련, 검증, 실험 (0) | 2021.02.28 |
[시계열 분석] 시계열 데이터 패턴의 추출 실습(1) (1) | 2021.02.24 |
[시계열 분석] 시계열 딥러닝(1) : 비교, 필요한 이유, CNN, RNN (0) | 2021.02.20 |
[시계열 분석] 추세 , 계절성, 주기, 더미변수 활용, 지연값 (0) | 2021.02.16 |
댓글