Part2. Bias and Variance
기계학습의 일반화
- 기계학습 알고리즘의 능력
- 기계학습 알고리즘이 학습한 Data에 대해서 잘되는 것보다 학습 과정 동안에 보지 못한 새로운 Data에 대해서 잘하는 것이 중요
- 실제로 수행하는 것과 기대하는 것이 완전히 다름
True distribution
- Data x 와 Label y와의 모든 상관관계를 다 표현하고 있는 분포
- 모든 상관관계를 다 표현하고 있는 분포
- 관측 불가능
- Training set, Test Set 이라는 것은 결국 True distribution에서 Generate/ Sampling 된거임
- IID 가정
- IID(Independent and Identically Distribution)
- independent = Data 하나, 하나를 얻는 과정이 서로 독립
- 앞에 어떤 Data를 얻어서 그다음 Data Sampling에 영향을 주는 것이 아니라 모든 Data를 획득하는 과정이 독립
- Sampling하는 과정상에서 분포가 바뀌지 않음
- IID(Independent and Identically Distribution)
Generalization
- Exception
- 어떤 분포를 가지는 값을 하나의 숫자로 요약
- loss를 하나의 숫자로 요약
- Overfitting
- Training Error < Generalization Error
- 너무 과하게 학습 Data에 적합되었을 때
- Underfitting
- Training Error > Generalization Error
- Overfitting과 Underfitting을 비교했을 때 Underfitting이 더 안 좋은 상황
- 정답이 주어져있기 때문에 Training Error를 Generalization Error를 낮추는 것보다 훨씬 쉽다
- 만약 Underfitting이 났다면 Model을 잘못 선택했는지 학습을 제대로 못했는지 check
Occam's Razor ( A Principle of Parsimony)
확률적으로 더 간단한 설명이 맞은 확률이 높다
Typical Relation between Capacity and Error
- Training error를 계속 Capacity가 올라갈수록 줄어들지만 일반화 Error는 최적의 Capacity를 기점으로 해서 올라감
- Training Error는 바로 측정 가능하지만 Generalization Error는 측정이 불가 & Validation Error 같은걸로 예측할 수 밖에 없음
Regularization
- 어떤 특정 solution에 대한 Preference
- 목적함수
- 학습 Data에 대해서 Loss function을 정의하여 Loss가 Minimize되도록 정의
- Model의 Capacity가 증가하면 증가할수록 값이 커지는 Regularization Term에 Model의 Capacity가 증가하면 증가할수록 값이 커지는 Regularization Term을 씀
- → 결국 Loss만 Minimize하는 것이 아니라 Model의 Capacity도 Minimize 하도록 Regularization
- Regularization을 통해 일반화 Error를 낮추는거지 Training Error를 낮추겠다 것이 아님
Bias/Variance Decomposition
화살을 잘 쏘려면 Bias& Variance 모두 낮아야함
(Test Erro) = (Bias) + (Variance)
'LG Aimers' 카테고리의 다른 글
[LG Aimers] 4기 후기 (0) | 2024.02.29 |
---|---|
[Module8] B2B 마케팅 PART1 B2B 시장에 대한 이해 (0) | 2024.01.13 |
[Module3] ML개론 PART1 Introduction to ML (0) | 2024.01.11 |
[Module3] ML개론 PART3 최근 LLM (0) | 2024.01.09 |
[Module1] AI 윤리 PART3 세계적인 데이터 과학자가 되는 방법 (0) | 2024.01.06 |