[ML] Nearest Neighbor Method - Distance Metric(1)

🤔 KNN(K - Nearest Neighors Classifier)

KNN이란 말 그대로 K개의 가장 가까운 이웃(데이터)들을 이용하여 분류를 진행하는 것을 말합니다.

매우 단순한 알고리즘이지만 생각보다 좋은 성능을 내기 때문에 드래곤볼의 전투력 측정기와 같은 역할을 합니다.

즉, KNN알고리즘보다 좋지 못한 성능을 내는 모델들은 믿고 걸러주시면 됩니다.

이번 포스팅에서는 KNN에 대해 배워보도록 하겠습니다.

🔎 KNN

KNN은 가장 쉽고 직관적인 알고리즘 중 하나입니다.

분류해야할 데이터와 가장 가까운 데이터들이 해당 데이터를 설명합니다.

머신러닝에서 가장 기본적인 concept입니다.

가장 큰 특징은 "Instance based Learning", "Memory based Learning", "Lazy Learning"이라는 것입니다.

Instance based learning

각각의 관측치(Instance)만을 사용하여 새로운 데이터에 대해 예측을 진행합니다.

Memory based learning

모든 학습 데이터를 메모리에 저장한 뒤 예측을 시도합니다.

Lazy learning

모델을 별도로 학습하지 않고 테스팅 데이터가 들어오는 순간 작동을 시작합니다.

해당 특징에 대해서는 한 번 더 언급하도록 하겠습니다.

🔎 Distance Metrric

KNN을 통해 예측을 진행하기 위해서는 가까운 데이터들을 찾아야 합니다.

이번 포스팅에서 데이터 간의 거리를 찾는 방법은 두 가지가 있습니다.

두 가지 방법인 맨해튼 거리(Manhattan distance)와 유클리드 거리(Euclidean distance)에 대해 알아보겠습니다.

✍️민코스키 거리(Minkowski distance)

민코스키 거리는 아래의 수식과 같이 나타낼 수 있습니다.

우리는 k가 1 또는 2인 경우만 알아볼 것이기 때문에 민코스키 거리에 대해 알고 싶으신 분은 링크를 참조하시기 바랍니다.

✍️ 맨해튼 거리(Manhattan distance)

맨해튼 거리는 민코스키 거리에서 k가 1일때를 말합니다.

맨해튼 거리는 L1거리라고도 합니다.

각각의 변수값의 차이를 절댓값을 취한 합의 거리를 말합니다.

이를 수식과 그래프로 나타내면 아래와 같습니다.

✍️ 유클리드 거리(Euclidean distance)

유클리드 거리는 민코스키 거리에서 k가 2일때를 말합니다.

유클리드 거리는 L2거리라고도 합니다.

각각의 거리의 차의 제곱의 합을 루트 씌운 거리를 말합니다.

즉, 각 변수간의 직선 거리를 말합니다.

이를 수식과 그래프로 나타내면 아래와 같습니다.

✍️ 마할라노비스 거리(Mahalanobis distance)

마할라노비스 거리(Mahalanobis distance)는 유클리드 거리가 공분산 행렬에 의해 나누어 진 것을 말합니다.

높은 분산에는 짧은 거리를, 작은 분산에는 높은 거리를 부여합니다.

이를 수식과 그래프로 나타내면 아래와 같습니다.

더 자세하게 알고 싶으신 분은 아래의 링크를 참고해주시면 감사하겠습니다.

🔎 Reference

https://en.wikipedia.org/wiki/Minkowski_distance

Minkowski distance - Wikipedia

From Wikipedia, the free encyclopedia Jump to navigation Jump to search Not to be confused with the pseudo-Euclidean metric of the Minkowski space. The Minkowski distance or Minkowski metric is a metric in a normed vector space which can be considered as a

en.wikipedia.org

https://en.wikipedia.org/wiki/Mahalanobis_distance

Mahalanobis distance - Wikipedia

From Wikipedia, the free encyclopedia Jump to navigation Jump to search The Mahalanobis distance is a measure of the distance between a point P and a distribution D, introduced by P. C. Mahalanobis in 1936.[1] Mahalanobis's definition was prompted by the

en.wikipedia.org

'AI > Machine Learning' 카테고리의 다른 글

[ML] Nearest Neighbor Method - KNN(3) (0)	2022.11.11
[ML] Nearest Neighbor Method - 정규화(Normalization)(2) (0)	2022.11.11
[ML] Regression(회귀)(3) - Logistic Regression(로지스틱 회귀) (0)	2022.11.11
[ML] Regression(회귀)(2) - Model Evaluation(모델 평가) (0)	2022.11.11
[ML] Regression(회귀)(1) - Linear Regression(선형 회귀) (0)	2022.11.11

🤔 KNN(K - Nearest Neighors Classifier)

🔎 KNN

Instance based learning

Memory based learning

Lazy learning

🔎 Distance Metrric

✍️민코스키 거리(Minkowski distance)

✍️ 맨해튼 거리(Manhattan distance)

✍️ 유클리드 거리(Euclidean distance)

✍️ 마할라노비스 거리(Mahalanobis distance)

🔎 Reference

'AI > Machine Learning' 카테고리의 다른 글

티스토리툴바