Training
보통의 학습은 위의 비율로 진행한다. 중요한 것은 Training 데이터셋으로는 훈련만을 시키고 validation 데이터셋에서 정확도를 검증한다. validation에서 정확도가 높게 나오는 모델을 최종 모델로 선택 후, test 데이터셋에서 검증을 통해 최종 정확도를 평가한다.
Overfitting
보통 validation에서는 loss가 내려가다가 올라가는 형상을 보인다. 이것을 overfitting이라 부른다.
validation 데이터셋의 loss가 올라가기 시작하는 순간부터 overfitting이 진행되는 것이고, 일반화 성능이 떨어지는 것이다.
Overfitting은 model의 capacity와 밀접한 관련이 있다. 따라서, 모델은 너무 단순해서도 안되고 너무 복잡해서도 안된다.
또한, 훈련 또한 적당한 시점에 끊어야 한다.
Eealy stopping
답: validation dataset의 loss가 나빠지기 시작하는 순간에 멈춘다.
Regularization
규제하다 라는 의미이며
수 많은 파라미터가 조금씩 학습이 된다면, noise까지 학습할 확률이 높아진다.
따라서, 큰 역할을 하지 않는 파라미터를 0이 되도록 유도하는 것이다.
$$
\operatorname{RSS}=\sum_{i=1}^n\left(\mathbf{y}_i-\left(\hat{\beta}_0+\hat{\beta}_1 \mathbf{x}_i\right)\right)^2
$$
우리가 원하는 파라미터가 정말 필요할 때만 큰 값을 가지고 그렇지 않을 때는 0이 되게 하고싶다.
$$
\operatorname{RSS}=\sum_{i=1}^n\left(\mathbf{y}_i-\left(\hat{\beta}_0+\hat{\beta}_1 \mathbf{x}_i\right)\right)^2+\lambda\|\beta\|_2^2
$$
$\beta$들의 제곱합과 실제 minimize해야 하는 값 사이의 trade-off를 생성한다.
$\lambda$가 0이면 파라미터 규제를 하나도 안한 것
$\lambda$가 무한대이면 파라미터는 0이 나올 것이다.
L1 Loss를 왜 사용할까? -> Sparse한 모델을 만들고 싶어서
L1 Loss는 꼭짓점으로 모이는 파라미터가 훨씬 많아진다.
0이 되는 파라미터가 증가하게 되는 것
Sparse한 모델이란 것은 실제로 0이되는 파라미터가 굉장히 많아진다.
Ridge or Lasso는 해봐야 안다.
'MachineLearning & DeepLearning > 서적 요약' 카테고리의 다른 글
[머신러닝 및 딥러닝] 베이즈 분류기 <Bayes Classifier> (0) | 2025.03.28 |
---|---|
[머신러닝 및 딥러닝] 분류 <Classification> (0) | 2025.03.28 |
[머신러닝 및 딥러닝] 선형 회귀 확장 <Linear Regression 확장> (0) | 2025.03.27 |
[머신러닝 및 딥러닝] 선형 회귀 <Linear Regression> (0) | 2025.03.18 |
[머신러닝 및 딥러닝] 머신 러닝 및 딥러닝 기초 <Machine Learning and Deep Learning Introduction> (0) | 2025.03.18 |