LG Aimers

[Module3] ML개론 PART2 Bias and Variance

메델 2024. 1. 11. 17:45

Part2. Bias and Variance

 

기계학습의 일반화

 

  • 기계학습 알고리즘의 능력 
  • 기계학습 알고리즘이 학습한 Data에 대해서 잘되는 것보다 학습 과정 동안에 보지 못한 새로운 Data에 대해서 잘하는 것이 중요
  • 실제로 수행하는 것과 기대하는 것이 완전히 다름 

 

True distribution

 

  • Data x 와 Label y와의 모든 상관관계를 다 표현하고 있는 분포 
  • 모든 상관관계를 다 표현하고 있는 분포
  • 관측 불가능
  • Training set, Test Set 이라는 것은 결국 True distribution에서 Generate/ Sampling 된거임 
  • IID 가정
    • IID(Independent and Identically Distribution) 
      • independent = Data 하나, 하나를 얻는 과정이 서로 독립
      • 앞에 어떤 Data를 얻어서 그다음 Data Sampling에 영향을 주는 것이 아니라 모든 Data를 획득하는 과정이 독립 
      • Sampling하는 과정상에서 분포가 바뀌지 않음 

 

Generalization

 

  • Exception
    • 어떤 분포를 가지는 값을 하나의 숫자로 요약
    • loss를 하나의 숫자로 요약 
  • Overfitting
    • Training Error < Generalization Error
    • 너무 과하게 학습 Data에 적합되었을 때 
  • Underfitting
    • Training Error > Generalization Error
    • Overfitting과 Underfitting을 비교했을 때 Underfitting이 더 안 좋은 상황 
    • 정답이 주어져있기 때문에 Training Error를 Generalization Error를 낮추는 것보다 훨씬 쉽다 
    • 만약 Underfitting이 났다면 Model을 잘못 선택했는지 학습을 제대로 못했는지 check

 

Occam's Razor ( A Principle of Parsimony)

 

확률적으로 더 간단한 설명이 맞은 확률이 높다 

 

Typical Relation between Capacity and Error

 

 

 

  • Training error를 계속 Capacity가 올라갈수록 줄어들지만 일반화 Error는 최적의 Capacity를 기점으로 해서 올라감
  • Training Error는 바로 측정 가능하지만 Generalization Error는 측정이 불가 & Validation Error 같은걸로 예측할 수 밖에 없음 

 

Regularization

 

  • 어떤 특정 solution에 대한 Preference 
  • 목적함수
  • 학습 Data에 대해서 Loss function을 정의하여 Loss가 Minimize되도록 정의
  • Model의 Capacity가 증가하면 증가할수록 값이 커지는 Regularization Term에 Model의 Capacity가 증가하면 증가할수록 값이 커지는 Regularization Term을 씀
  • → 결국 Loss만 Minimize하는 것이 아니라 Model의 Capacity도 Minimize 하도록 Regularization 
  • Regularization을 통해 일반화 Error를 낮추는거지 Training Error를 낮추겠다 것이 아님 

 

Bias/Variance Decomposition 

 

화살을 잘 쏘려면 Bias& Variance 모두 낮아야함 

(Test Erro) = (Bias) + (Variance)