2024/08/28
SMOTE Sampling
- 낮은 비율로 존재하는 클래스의 데이터를 K-NN 알고리즘을 사용하여 생성하는 방식
- Under/Over Sampling 에 비해 과적합 문제 발생 확률이 낮아진다
- 대상 소수의 데이터 중 특정 샘플과 가장 가까운 이웃 사이의 차이값에 대해 0~1 사이의 곱 연산하여 Sampling 수행
K-Fold 교차 검증
데이터의 수가 부족한 경우 적은 수의 학습 데이터를 학습에 사용해야 하므로 과소적합 문제 발생 확률이 올라간다.
보통 충분한 데이터 셋을 보유하고 있다면 train data, test data 를 분할하여 머신러닝을 진행 할 것이다.
![]() |
| Train data, Test data를 5:1 로 분할한 경우 |


댓글
댓글 쓰기