๐ค KNN(K - Nearest Neighors Classifier)
KNN์ด๋ ๋ง ๊ทธ๋๋ก K๊ฐ์ ๊ฐ์ฅ ๊ฐ๊น์ด ์ด์(๋ฐ์ดํฐ)๋ค์ ์ด์ฉํ์ฌ ๋ถ๋ฅ๋ฅผ ์งํํ๋ ๊ฒ์ ๋งํฉ๋๋ค.
๋งค์ฐ ๋จ์ํ ์๊ณ ๋ฆฌ์ฆ์ด์ง๋ง ์๊ฐ๋ณด๋ค ์ข์ ์ฑ๋ฅ์ ๋ด๊ธฐ ๋๋ฌธ์ ๋๋๊ณค๋ณผ์ ์ ํฌ๋ ฅ ์ธก์ ๊ธฐ์ ๊ฐ์ ์ญํ ์ ํฉ๋๋ค.
์ฆ, KNN์๊ณ ๋ฆฌ์ฆ๋ณด๋ค ์ข์ง ๋ชปํ ์ฑ๋ฅ์ ๋ด๋ ๋ชจ๋ธ๋ค์ ๋ฏฟ๊ณ ๊ฑธ๋ฌ์ฃผ์๋ฉด ๋ฉ๋๋ค.
์ด๋ฒ ํฌ์คํ ์์๋ KNN์ ๋ํด ๋ฐฐ์๋ณด๋๋ก ํ๊ฒ ์ต๋๋ค.
๐ KNN
KNN์ ๊ฐ์ฅ ์ฝ๊ณ ์ง๊ด์ ์ธ ์๊ณ ๋ฆฌ์ฆ ์ค ํ๋์ ๋๋ค.
๋ถ๋ฅํด์ผํ ๋ฐ์ดํฐ์ ๊ฐ์ฅ ๊ฐ๊น์ด ๋ฐ์ดํฐ๋ค์ด ํด๋น ๋ฐ์ดํฐ๋ฅผ ์ค๋ช ํฉ๋๋ค.
๋จธ์ ๋ฌ๋์์ ๊ฐ์ฅ ๊ธฐ๋ณธ์ ์ธ concept์ ๋๋ค.
๊ฐ์ฅ ํฐ ํน์ง์ "Instance based Learning", "Memory based Learning", "Lazy Learning"์ด๋ผ๋ ๊ฒ์ ๋๋ค.
Instance based learning
๊ฐ๊ฐ์ ๊ด์ธก์น(Instance)๋ง์ ์ฌ์ฉํ์ฌ ์๋ก์ด ๋ฐ์ดํฐ์ ๋ํด ์์ธก์ ์งํํฉ๋๋ค.
Memory based learning
๋ชจ๋ ํ์ต ๋ฐ์ดํฐ๋ฅผ ๋ฉ๋ชจ๋ฆฌ์ ์ ์ฅํ ๋ค ์์ธก์ ์๋ํฉ๋๋ค.
Lazy learning
๋ชจ๋ธ์ ๋ณ๋๋ก ํ์ตํ์ง ์๊ณ ํ ์คํ ๋ฐ์ดํฐ๊ฐ ๋ค์ด์ค๋ ์๊ฐ ์๋์ ์์ํฉ๋๋ค.
ํด๋น ํน์ง์ ๋ํด์๋ ํ ๋ฒ ๋ ์ธ๊ธํ๋๋ก ํ๊ฒ ์ต๋๋ค.
๐ Distance Metrric
KNN์ ํตํด ์์ธก์ ์งํํ๊ธฐ ์ํด์๋ ๊ฐ๊น์ด ๋ฐ์ดํฐ๋ค์ ์ฐพ์์ผ ํฉ๋๋ค.
์ด๋ฒ ํฌ์คํ ์์ ๋ฐ์ดํฐ ๊ฐ์ ๊ฑฐ๋ฆฌ๋ฅผ ์ฐพ๋ ๋ฐฉ๋ฒ์ ๋ ๊ฐ์ง๊ฐ ์์ต๋๋ค.
๋ ๊ฐ์ง ๋ฐฉ๋ฒ์ธ ๋งจํดํผ ๊ฑฐ๋ฆฌ(Manhattan distance)์ ์ ํด๋ฆฌ๋ ๊ฑฐ๋ฆฌ(Euclidean distance)์ ๋ํด ์์๋ณด๊ฒ ์ต๋๋ค.
โ๏ธ๋ฏผ์ฝ์คํค ๊ฑฐ๋ฆฌ(Minkowski distance)
๋ฏผ์ฝ์คํค ๊ฑฐ๋ฆฌ๋ ์๋์ ์์๊ณผ ๊ฐ์ด ๋ํ๋ผ ์ ์์ต๋๋ค.
์ฐ๋ฆฌ๋ k๊ฐ 1 ๋๋ 2์ธ ๊ฒฝ์ฐ๋ง ์์๋ณผ ๊ฒ์ด๊ธฐ ๋๋ฌธ์ ๋ฏผ์ฝ์คํค ๊ฑฐ๋ฆฌ์ ๋ํด ์๊ณ ์ถ์ผ์ ๋ถ์ ๋งํฌ๋ฅผ ์ฐธ์กฐํ์๊ธฐ ๋ฐ๋๋๋ค.
โ๏ธ ๋งจํดํผ ๊ฑฐ๋ฆฌ(Manhattan distance)
๋งจํดํผ ๊ฑฐ๋ฆฌ๋ ๋ฏผ์ฝ์คํค ๊ฑฐ๋ฆฌ์์ k๊ฐ 1์ผ๋๋ฅผ ๋งํฉ๋๋ค.
๋งจํดํผ ๊ฑฐ๋ฆฌ๋ L1๊ฑฐ๋ฆฌ๋ผ๊ณ ๋ ํฉ๋๋ค.
๊ฐ๊ฐ์ ๋ณ์๊ฐ์ ์ฐจ์ด๋ฅผ ์ ๋๊ฐ์ ์ทจํ ํฉ์ ๊ฑฐ๋ฆฌ๋ฅผ ๋งํฉ๋๋ค.
์ด๋ฅผ ์์๊ณผ ๊ทธ๋ํ๋ก ๋ํ๋ด๋ฉด ์๋์ ๊ฐ์ต๋๋ค.
โ๏ธ ์ ํด๋ฆฌ๋ ๊ฑฐ๋ฆฌ(Euclidean distance)
์ ํด๋ฆฌ๋ ๊ฑฐ๋ฆฌ๋ ๋ฏผ์ฝ์คํค ๊ฑฐ๋ฆฌ์์ k๊ฐ 2์ผ๋๋ฅผ ๋งํฉ๋๋ค.
์ ํด๋ฆฌ๋ ๊ฑฐ๋ฆฌ๋ L2๊ฑฐ๋ฆฌ๋ผ๊ณ ๋ ํฉ๋๋ค.
๊ฐ๊ฐ์ ๊ฑฐ๋ฆฌ์ ์ฐจ์ ์ ๊ณฑ์ ํฉ์ ๋ฃจํธ ์์ด ๊ฑฐ๋ฆฌ๋ฅผ ๋งํฉ๋๋ค.
์ฆ, ๊ฐ ๋ณ์๊ฐ์ ์ง์ ๊ฑฐ๋ฆฌ๋ฅผ ๋งํฉ๋๋ค.
์ด๋ฅผ ์์๊ณผ ๊ทธ๋ํ๋ก ๋ํ๋ด๋ฉด ์๋์ ๊ฐ์ต๋๋ค.
โ๏ธ ๋งํ ๋ผ๋ ธ๋น์ค ๊ฑฐ๋ฆฌ(Mahalanobis distance)
๋งํ ๋ผ๋ ธ๋น์ค ๊ฑฐ๋ฆฌ(Mahalanobis distance)๋ ์ ํด๋ฆฌ๋ ๊ฑฐ๋ฆฌ๊ฐ ๊ณต๋ถ์ฐ ํ๋ ฌ์ ์ํด ๋๋์ด ์ง ๊ฒ์ ๋งํฉ๋๋ค.
๋์ ๋ถ์ฐ์๋ ์งง์ ๊ฑฐ๋ฆฌ๋ฅผ, ์์ ๋ถ์ฐ์๋ ๋์ ๊ฑฐ๋ฆฌ๋ฅผ ๋ถ์ฌํฉ๋๋ค.
์ด๋ฅผ ์์๊ณผ ๊ทธ๋ํ๋ก ๋ํ๋ด๋ฉด ์๋์ ๊ฐ์ต๋๋ค.
๋ ์์ธํ๊ฒ ์๊ณ ์ถ์ผ์ ๋ถ์ ์๋์ ๋งํฌ๋ฅผ ์ฐธ๊ณ ํด์ฃผ์๋ฉด ๊ฐ์ฌํ๊ฒ ์ต๋๋ค.
๐ Reference
https://en.wikipedia.org/wiki/Minkowski_distance
Minkowski distance - Wikipedia
From Wikipedia, the free encyclopedia Jump to navigation Jump to search Not to be confused with the pseudo-Euclidean metric of the Minkowski space. The Minkowski distance or Minkowski metric is a metric in a normed vector space which can be considered as a
en.wikipedia.org
https://en.wikipedia.org/wiki/Mahalanobis_distance
Mahalanobis distance - Wikipedia
From Wikipedia, the free encyclopedia Jump to navigation Jump to search The Mahalanobis distance is a measure of the distance between a point P and a distribution D, introduced by P. C. Mahalanobis in 1936.[1] Mahalanobis's definition was prompted by the
en.wikipedia.org
'AI > Machine Learning' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[ML] Nearest Neighbor Method - KNN(3) (0) | 2022.11.11 |
---|---|
[ML] Nearest Neighbor Method - ์ ๊ทํ(Normalization)(2) (0) | 2022.11.11 |
[ML] Regression(ํ๊ท)(3) - Logistic Regression(๋ก์ง์คํฑ ํ๊ท) (0) | 2022.11.11 |
[ML] Regression(ํ๊ท)(2) - Model Evaluation(๋ชจ๋ธ ํ๊ฐ) (0) | 2022.11.11 |
[ML] Regression(ํ๊ท)(1) - Linear Regression(์ ํ ํ๊ท) (0) | 2022.11.11 |