๐ค KNN(K - Nearest Neighors Classifier)
KNN์ด๋ ๋ง ๊ทธ๋๋ก K๊ฐ์ ๊ฐ์ฅ ๊ฐ๊น์ด ์ด์(๋ฐ์ดํฐ)๋ค์ ์ด์ฉํ์ฌ ๋ถ๋ฅ๋ฅผ ์งํํ๋ ๊ฒ์ ๋งํฉ๋๋ค.
๋งค์ฐ ๋จ์ํ ์๊ณ ๋ฆฌ์ฆ์ด์ง๋ง ์๊ฐ๋ณด๋ค ์ข์ ์ฑ๋ฅ์ ๋ด๊ธฐ ๋๋ฌธ์ ๋๋๊ณค๋ณผ์ ์ ํฌ๋ ฅ ์ธก์ ๊ธฐ์ ๊ฐ์ ์ญํ ์ ํฉ๋๋ค.
์ฆ, KNN์๊ณ ๋ฆฌ์ฆ๋ณด๋ค ์ข์ง ๋ชปํ ์ฑ๋ฅ์ ๋ด๋ ๋ชจ๋ธ๋ค์ ๋ฏฟ๊ณ ๊ฑธ๋ฌ์ฃผ์๋ฉด ๋ฉ๋๋ค.
์ด๋ฒ ํฌ์คํ ์์๋ KNN์ ๋ํด ๋ฐฐ์๋ณด๋๋ก ํ๊ฒ ์ต๋๋ค.
๐ KNN
KNN์ ๊ฐ์ฅ ์ฝ๊ณ ์ง๊ด์ ์ธ ์๊ณ ๋ฆฌ์ฆ ์ค ํ๋์ ๋๋ค.
๋ถ๋ฅํด์ผํ ๋ฐ์ดํฐ์ ๊ฐ์ฅ ๊ฐ๊น์ด ๋ฐ์ดํฐ๋ค์ด ํด๋น ๋ฐ์ดํฐ๋ฅผ ์ค๋ช ํฉ๋๋ค.
๋จธ์ ๋ฌ๋์์ ๊ฐ์ฅ ๊ธฐ๋ณธ์ ์ธ concept์ ๋๋ค.
๊ฐ์ฅ ํฐ ํน์ง์ "Instance based Learning", "Memory based Learning", "Lazy Learning"์ด๋ผ๋ ๊ฒ์ ๋๋ค.
Instance based learning
๊ฐ๊ฐ์ ๊ด์ธก์น(Instance)๋ง์ ์ฌ์ฉํ์ฌ ์๋ก์ด ๋ฐ์ดํฐ์ ๋ํด ์์ธก์ ์งํํฉ๋๋ค.
Memory based learning
๋ชจ๋ ํ์ต ๋ฐ์ดํฐ๋ฅผ ๋ฉ๋ชจ๋ฆฌ์ ์ ์ฅํ ๋ค ์์ธก์ ์๋ํฉ๋๋ค.
Lazy learning
๋ชจ๋ธ์ ๋ณ๋๋ก ํ์ตํ์ง ์๊ณ ํ ์คํ ๋ฐ์ดํฐ๊ฐ ๋ค์ด์ค๋ ์๊ฐ ์๋์ ์์ํฉ๋๋ค.
ํด๋น ํน์ง์ ๋ํด์๋ ํ ๋ฒ ๋ ์ธ๊ธํ๋๋ก ํ๊ฒ ์ต๋๋ค.
๐ Distance Metrric
KNN์ ํตํด ์์ธก์ ์งํํ๊ธฐ ์ํด์๋ ๊ฐ๊น์ด ๋ฐ์ดํฐ๋ค์ ์ฐพ์์ผ ํฉ๋๋ค.
์ด๋ฒ ํฌ์คํ ์์ ๋ฐ์ดํฐ ๊ฐ์ ๊ฑฐ๋ฆฌ๋ฅผ ์ฐพ๋ ๋ฐฉ๋ฒ์ ๋ ๊ฐ์ง๊ฐ ์์ต๋๋ค.
๋ ๊ฐ์ง ๋ฐฉ๋ฒ์ธ ๋งจํดํผ ๊ฑฐ๋ฆฌ(Manhattan distance)์ ์ ํด๋ฆฌ๋ ๊ฑฐ๋ฆฌ(Euclidean distance)์ ๋ํด ์์๋ณด๊ฒ ์ต๋๋ค.
โ๏ธ๋ฏผ์ฝ์คํค ๊ฑฐ๋ฆฌ(Minkowski distance)
๋ฏผ์ฝ์คํค ๊ฑฐ๋ฆฌ๋ ์๋์ ์์๊ณผ ๊ฐ์ด ๋ํ๋ผ ์ ์์ต๋๋ค.
์ฐ๋ฆฌ๋ k๊ฐ 1 ๋๋ 2์ธ ๊ฒฝ์ฐ๋ง ์์๋ณผ ๊ฒ์ด๊ธฐ ๋๋ฌธ์ ๋ฏผ์ฝ์คํค ๊ฑฐ๋ฆฌ์ ๋ํด ์๊ณ ์ถ์ผ์ ๋ถ์ ๋งํฌ๋ฅผ ์ฐธ์กฐํ์๊ธฐ ๋ฐ๋๋๋ค.
โ๏ธ ๋งจํดํผ ๊ฑฐ๋ฆฌ(Manhattan distance)
๋งจํดํผ ๊ฑฐ๋ฆฌ๋ ๋ฏผ์ฝ์คํค ๊ฑฐ๋ฆฌ์์ k๊ฐ 1์ผ๋๋ฅผ ๋งํฉ๋๋ค.
๋งจํดํผ ๊ฑฐ๋ฆฌ๋ L1๊ฑฐ๋ฆฌ๋ผ๊ณ ๋ ํฉ๋๋ค.
๊ฐ๊ฐ์ ๋ณ์๊ฐ์ ์ฐจ์ด๋ฅผ ์ ๋๊ฐ์ ์ทจํ ํฉ์ ๊ฑฐ๋ฆฌ๋ฅผ ๋งํฉ๋๋ค.
์ด๋ฅผ ์์๊ณผ ๊ทธ๋ํ๋ก ๋ํ๋ด๋ฉด ์๋์ ๊ฐ์ต๋๋ค.
โ๏ธ ์ ํด๋ฆฌ๋ ๊ฑฐ๋ฆฌ(Euclidean distance)
์ ํด๋ฆฌ๋ ๊ฑฐ๋ฆฌ๋ ๋ฏผ์ฝ์คํค ๊ฑฐ๋ฆฌ์์ k๊ฐ 2์ผ๋๋ฅผ ๋งํฉ๋๋ค.
์ ํด๋ฆฌ๋ ๊ฑฐ๋ฆฌ๋ L2๊ฑฐ๋ฆฌ๋ผ๊ณ ๋ ํฉ๋๋ค.
๊ฐ๊ฐ์ ๊ฑฐ๋ฆฌ์ ์ฐจ์ ์ ๊ณฑ์ ํฉ์ ๋ฃจํธ ์์ด ๊ฑฐ๋ฆฌ๋ฅผ ๋งํฉ๋๋ค.
์ฆ, ๊ฐ ๋ณ์๊ฐ์ ์ง์ ๊ฑฐ๋ฆฌ๋ฅผ ๋งํฉ๋๋ค.
์ด๋ฅผ ์์๊ณผ ๊ทธ๋ํ๋ก ๋ํ๋ด๋ฉด ์๋์ ๊ฐ์ต๋๋ค.
โ๏ธ ๋งํ ๋ผ๋ ธ๋น์ค ๊ฑฐ๋ฆฌ(Mahalanobis distance)
๋งํ ๋ผ๋ ธ๋น์ค ๊ฑฐ๋ฆฌ(Mahalanobis distance)๋ ์ ํด๋ฆฌ๋ ๊ฑฐ๋ฆฌ๊ฐ ๊ณต๋ถ์ฐ ํ๋ ฌ์ ์ํด ๋๋์ด ์ง ๊ฒ์ ๋งํฉ๋๋ค.
๋์ ๋ถ์ฐ์๋ ์งง์ ๊ฑฐ๋ฆฌ๋ฅผ, ์์ ๋ถ์ฐ์๋ ๋์ ๊ฑฐ๋ฆฌ๋ฅผ ๋ถ์ฌํฉ๋๋ค.
์ด๋ฅผ ์์๊ณผ ๊ทธ๋ํ๋ก ๋ํ๋ด๋ฉด ์๋์ ๊ฐ์ต๋๋ค.
๋ ์์ธํ๊ฒ ์๊ณ ์ถ์ผ์ ๋ถ์ ์๋์ ๋งํฌ๋ฅผ ์ฐธ๊ณ ํด์ฃผ์๋ฉด ๊ฐ์ฌํ๊ฒ ์ต๋๋ค.
๐ Reference
https://en.wikipedia.org/wiki/Minkowski_distance
https://en.wikipedia.org/wiki/Mahalanobis_distance
'AI > Machine Learning' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[ML] Nearest Neighbor Method - KNN(3) (0) | 2022.11.11 |
---|---|
[ML] Nearest Neighbor Method - ์ ๊ทํ(Normalization)(2) (0) | 2022.11.11 |
[ML] Regression(ํ๊ท)(3) - Logistic Regression(๋ก์ง์คํฑ ํ๊ท) (0) | 2022.11.11 |
[ML] Regression(ํ๊ท)(2) - Model Evaluation(๋ชจ๋ธ ํ๊ฐ) (0) | 2022.11.11 |
[ML] Regression(ํ๊ท)(1) - Linear Regression(์ ํ ํ๊ท) (0) | 2022.11.11 |