인공지능 관련용어 정리

 2024/08/28

SMOTE Sampling

- 낮은 비율로 존재하는 클래스의 데이터를 K-NN 알고리즘을 사용하여 생성하는 방식

- Under/Over Sampling 에 비해 과적합 문제 발생 확률이 낮아진다

- 대상 소수의 데이터 중 특정 샘플과 가장 가까운 이웃 사이의 차이값에 대해 0~1 사이의 곱 연산하여 Sampling 수행



K-Fold 교차 검증

보통 충분한 데이터 셋을 보유하고 있다면 train data, test data 를 분할하여 머신러닝을 진행 할 것이다.

Train data, Test data를 5:1 로 분할한 경우
데이터의 수가 부족한 경우 적은 수의 학습 데이터를 학습에 사용해야 하므로 과소적합 문제 발생 확률이 올라간다.

동일 데이터의 분할을 K번 하여 교차 검증을 진행하므로써 학습, 테스트를 진행한다.

-K=6인 경우 6개의 데이터 셋으로 추가 발생한다


24/10/10

Cures of Dimensionality(차원의 저주)

- 원 핫 인코딩된 데이터의 수가 많은 경우에 의해 발생

- 학습데이터의 수가 증가할수록 원-핫 인코딩 데이터의 차원 수가 증가함

- 차원의 증가, 데이터의 분포가 균등하지 않은 경우 심하게 발생

→ 데이터의 희소성, 거리 측정의 불안정성, 복잡도 증가, 학습에 필요한 데이터 양의 대폭 증가 등 문제 발생


댓글