K-최근점 이웃 알고리즘
특정한 포인트(값, 객체)에 대해 주위의 다른 값들에 따라 예측하는 방법(동일한 여러 이웃의 거리 및 개수에 대해 영양이 있음)
- "거리"를 이용한 예측 알고리즘
- K 는 가까운 이웃의 수를 의미(특정 값에 대해 3개의 가까운 이웃으로 비교)
- 과반수로 예측
※이웃이 적을수록/K값이 작을수록 과대적합, 이웃이 많을수록/K값이 클수록 과소적합이므로 주의
특정 포인트에 대해 거리는 유클리디언 거리(Euclidean Distance)공식을 사용한다
(좌표 평면에서 사용하던 거리 공식과 같음)
K-최근접 알고리즘 장점
- 이해하기 쉽고, 여러 조정 없이 충분한 성능을 발휘함
K-최근접 알고리즘 단점
-훈련 데이터 세트가 클수록 예측이 느려짐
-수백 개 이상의 많은 특성을 가진 데이터 세트와 특성 값 대부분이 0인 희소한 데이터 세트에는 잘 동작하지 않음
-거리를 측정하기 때문에 별도의 정규화 과정이 요구됨
-전처리 과정이 필수적임



댓글
댓글 쓰기