๐ค๋ฒ ์ด์ฆ ์ ๋ฆฌ
์ ๋ฒ ์๊ฐ์ ๊ฐ๋จํ ์์๋ฅผ ํตํด ๋ฒ ์ด์ง์ ๋ถ๋ฅ๊ธฐ๋ฅผ ๋ฐฐ์ ์ต๋๋ค.
๊ทธ๋ฆฌ๊ณ ๊ฒฐ๋ก ์ ์ผ๋ก ์๋์ ์์ ์ ๋ํ์ฌ ๋์๊ด๊ณ์ ๋น๊ต๋ฅผ ํตํด ํฐ ํ๋ฅ ์ ๊ฐ์ง๋ ๊ฐ์ ๊ฒ์ ์ ์ ์์์ต๋๋ค.
$$P(w_j|x) (x : data, w_j : j^{th}class)$$
์ด๋ฒ ํฌ์คํ ์์๋ ๋ฒ ์ด์ฆ ์ ๋ฆฌ์ ๋ํ์ฌ ์ํ์ ์ ๋๋ฅผ ํตํด ์ด๋ค ์๋ฆฌ๊ฐ ์จ์ด์๋์ง ์ดํดํ๋ ์๊ฐ์ ๊ฐ์ ธ๋ณด๋๋ก ํ๊ฒ ์ต๋๋ค.
๐ ์ด์ ํฌ์คํ
๐ ์กฐ๊ฑด๋ถ ํ๋ฅ
์กฐ๊ฑด๋ถ ํ๋ฅ ์ ์ฃผ์ด์ง ์ฌ๊ฑด์ด ์ผ์ด๋ฌ๋ค๋ ๊ฐ์ ํ์ ๋ค๋ฅธ ํ ์ฌ๊ฑด์ด ์ผ์ด๋ ํ๋ฅ ์ ๋ปํฉ๋๋ค.
์๋์ ํ๋ฅ ํจ์๋ฅผ $P$๋ผ๊ณ ํ ๋, ์ฌ๊ฑด $B$๊ฐ ์ผ์ด๋ฌ๋ค๋ ๊ฐ์ ํ์ ์ฌ๊ฑด $B$๊ฐ ์ผ์ด๋ ์กฐ๊ฑด๋ถ ํ๋ฅ ์ $P(A|B)$๋ก ํ๊ธฐํฉ๋๋ค.
๋ฒ ์ด์ฆ ์ ๋ฆฌ๋ฅผ ๊ณต๋ถํ๋ฉด์ ์ฌ์ฉํด์ผํ ์กฐ๊ฑด๋ถ ํ๋ฅ ์ ํํ๋ ์๋์ ๊ฐ์ต๋๋ค.
$$P(A|B) = \frac{P(B|A)P(A)}{P(B)}$$
์ด ํํ๋ฅผ ๊ผญ ๊ธฐ์ตํด๋์๊ธธ ๋ฐ๋๋๋ค.
๐ Bayesian Classifier
์ฐ๋ฆฌ๋ ์ด์ ํฌ์คํ ์์ ๋์ถํ๋ ๋ฒ ์ด์ฆ ํจ์๋ฅผ ๋ํ ์กฐ๊ฑด๋ถ ํ๋ฅ ๋ก ๋ํ๋ผ ์ ์์ต๋๋ค.
$$P(w_j|x) = \frac{P(x|w_j)P(w_j)}{P(x)}$$
์ด๋ ์ข๋ณ์ $P(w_j|x)$์ ์ฌํํ๋ฅ (posterior) ์ฐ๋ณ์ $P(x|w_j)$์ ์ฐ๋(likelihood) $P(w_j)$์ ์ฌ์ ํ๋ฅ (prior) $P(x)$๋ฅผ ์ฆ๊ฑฐ(evidence)๋ผ๊ณ ํฉ๋๋ค.
โ๏ธ ์ฌ์ ํ๋ฅ (prior) - $w_j$
์ฌ์ ํ๋ฅ ์ ๋ ๋ฆฝ๋ณ์(์์ธก์ ๋ณ์) ๊ฐ์ ๋ํ ์ ๋ณด๋ฅผ ์ป๊ธฐ ์ ์ ๊ฐ ์ข ์๋ณ์ ๋ฒ์ฃผ์ ๋ํ ์ ์ฒด์ ์ธ ์๋ ๋น๋๋ฅผ ์ถ์ ํ ๊ฐ์ ๋๋ค.
์์ ์ ์๊ฐ ๋๋ฌด ์ด๋ ค์์ ์ดํด๊ฐ ๋๊ธฐ ์ฝ๊ฒ ์ ๋ฆฌํ์๋ฉด ์ ์ฒด์ ๋ฐ์ดํฐ ์ค์์ ํน์ ์ข ๋ฅ์ ๋ฐ์ดํฐ๊ฐ ์ฐจ์งํ๋ ๋น์จ์ ๋งํฉ๋๋ค.
๋ํ ์ฌ์ ํ๋ฅ ์ ์ฐ๋ฆฌ๊ฐ ๊ด์ฐฐํ ํ๋ จ ๋ฐ์ดํฐ์ ๋ ๋ฆฝ์ ์ด๋ผ๋ ํน์ง์ ๊ฐ์ง๊ณ ์์ต๋๋ค.
๋จธ์ ๋ฌ๋์ ๊ด์ ์์ ํน์ง$x$๊ฐ ๊ด์ธก๋๊ธฐ ์ ๋ถํฐ ์ด๋ฏธ ์ ํด์ ธ์๋ ํด๋์ค $w_j$์ ๋ถํฌ๋ฅผ ์๋ฏธํฉ๋๋ค.
์ ์ฒด์ ๋ฐ์ดํฐ ์ค $w_1, w_2$๋ง์ด ์กด์ฌํ๋ค๋ฉด $P(w_1)$๊ณผ $P(w_2)$๋ $P(w_1) = 1 - P(w_2)$๋ผ๊ณ ๋ํ๋ผ ์ ์์ต๋๋ค.
์ด์ ํฌ์คํ ์ ์์์ ์ด์ด ๋ ธ๋ฅด์จ์ด ๋ฐ๋ค์ ์์ํ๋ ๋ฌผ๊ณ ๊ธฐ๊ฐ ์ฐ์ด์ ๋์ด๋ง์ด ์กด์ฌํ ๋ $P(์ฐ์ด) = 2/3$์ด๋ผ๋ฉด $P(๋์ด) = 1/3$์ด๋ผ๊ณ ํ ์ ์์ต๋๋ค.
โ๏ธ ์ฆ๊ฑฐ(evidence) - $x$
๋จธ์ ๋ฌ๋์ ๊ด์ ์์ ํน์ง$w_j$๊ฐ ๊ด์ธก๋๊ธฐ ์ ๋ถํฐ ์ด๋ฏธ ์ ํด์ ธ์๋ ์ ์ฒด ํด๋์ค์์ ํน์ ํด๋์ค $x$์ ๋ถํฌ๋ฅผ ์๋ฏธํฉ๋๋ค.
โ๏ธ ์ฐ๋(likelihood) - $P(x|w_j)$
์ฐ๋๋ ๋งค์ฐ ์์ํ ๋จ์ด์ธ๋ฐ ๊ฐ์ฅ ์ ์ฌํ ์๋ฏธ๋ก "๊ฐ๋ฅ์ฑ"์ ์๋ฏธํ๋ค๊ณ ์๊ฐํ์๋ฉด ๋ฉ๋๋ค.
ํ๋ฅ ์ด ๋ชจ๋ธ ํ๋ผ๋ฏธํฐ๊ฐ์ด ๊ด์ธก ๋ฐ์ดํฐ ์์ด ์ฃผ์ด์ง ์ํ์์ ๋๋คํ ์ถ๋ ฅ์ด ์ผ์ด๋ ๊ฐ๋ฅ์ฑ์ด๋ผ๋ฉด, Likelihood๋ ํน์ ๊ด์ธก ๊ฒฐ๊ณผ๊ฐ ์ฃผ์ด์ง ์ํ์์ ๋ชจ๋ธ ํ๋ผ๋ฏธํฐ ๊ฐ๋ค์ด ๋ํ๋ ๊ฐ๋ฅ์ฑ์ ๋๋ค.
likelihood์ ๋ํ ์ดํด๋ฅผ ์ํด์๋ ๊ณต๋ถ๊ฐ ํ์ํ๋ฐ ํ๋ฅ ๊ณผ ํต๊ณ๋ฅผ ๋งค์ฐ ์ด์ฌํ ๊ณต๋ถํ๋ ์ ์น๊ตฌ์ ๋ธ๋ก๊ทธ๋ฅผ ์ฐพ์๋ณด์๋ฉด ๋์์ด ๋ ๊ฒ ๊ฐ์ต๋๋ค.
์กฐ๊ฑด๋ถํ๋ฅ ์ ์ ๋ฆฌํ ์์์ ์ฐ๋ณ์ $P(x|w_j)$๊ฐ likelihood๋ฅผ ์๋ฏธํ๋๋ฐ $w_j$๊ฐ ์ ํ๋์์ ๋ $x$์ผ ํ๋ฅ ์ ๋๋ค.
๋จธ์ ๋ฌ๋์ ๊ด์ ์์ ํน์ ํ๋ฅ ๋ถํฌ$w_j$์์ ํน์ง$x$๊ฐ ๋ฐ์ํ ํ๋ฅ ์ ๋ปํฉ๋๋ค.
์ฆ ๊ธฐ์กด์ ์๋ ๋ฐ์ดํฐ์ ๊ฐ ํด๋์ค ๋ณ๋ก ํน์ ํน์ง์ ๋ํ ๋ถํฌ๋ฅผ ์๋ฏธํฉ๋๋ค.
๐ ์ฐ๋์ ๋ํ์ฌ
โ๏ธ ์ฌํํ๋ฅ (posterior) - $P(w_j|x)$
์ฌํํ๋ฅ ์ด๋ ์ฌ๊ฑด ๋ฐ์ ํ์ ํ๋ฅ ์ ์๋ฏธํ๋๋ฐ ๋ฐ์ํ ์ฌ๊ฑด($x$)์ด ํน์ ํ๋ฅ ๋ถํฌ$w_j$์์ ๋์์ ํ๋ฅ ์ ๋๋ค.
๋จธ์ ๋ฌ๋์ ๊ด์ ์์ ๊ด์ธก๋ ํน์ง($x$)์ด ํน์ ํด๋์ค($w_j$)์์ ๋์์ ํ๋ฅ ์ด๋ผ๊ณ ํ ์ ์์ต๋๋ค.
์ฌํํ๋ฅ ์ ์ฌ์ ํ๋ฅ ๊ณผ likelihood์ ์ํด ๋ฒ์๊ฐ ์ ํด์ง๋๋ค.
Decision = Likelihood x Prior (Decision = Observed data x Prior knowledge)
์ฌํํ๋ฅ ์ ์ํด ๊ฒฐ์ ๋ decision์ ์ฌ๋์ ๋ด๋ฆฐ ๊ฒฐ์ ๊ณผ ๋น์ทํ ๋ชจ์ต์ด ์์ต๋๋ค.
์ฌ๋์ ํ์ฌ์ ์ ๋ณด๋ง์ผ๋ก ๊ฒฐ์ ์ ๋ด๋ฆฌ์ง ์๋๋ฐ ์ฌํํ๋ฅ ๋ ๋ง์ฐฌ๊ฐ์ง ์ ๋๋ค.
โ๏ธ ์ฌํํ๋ฅ ์ ๋ฐ๋ฅธ ๊ฒฐ์
์ฐ๋ฆฌ๊ฐ ๋ง์ฝ ์ฌ์ ํ๋ฅ ๊ณผ ๊ด์ฐฐ ๋ฐ์ดํฐ X ๋ํด ์๊ณ ์๋ค๊ณ ํ๊ฒ ์ต๋๋ค.
$$if \; P(w_1|x) > P(w_2|x) \quad Decision = w_1$$
$$if \; P(w_1|x) < P(w_2|x) \quad Decision = w_2$$
์ด๋ ์๋ฌ๋ ์๋์ ๊ฐ์ด ๋ํ๋ผ ์ ์์ต๋๋ค.
$$if \; P(w_1|x) > P(w_2|x) \quad Error = P(w_2|x)$$
$$if \; P(w_1|x) > P(w_2|x) \quad Error = P(w_1|x)$$
$$P(error|x) = min[P(w_1|x), P(w_2|x)] \quad (Bayes decision)$$
์ฆ, ์๋ฌ๊ฐ ๋ฎ์ ๋ฐฉํฅ์ผ๋ก decisionํ๋ค๋ ๋ป์ ๋๋ค.
๋ค์ ํฌ์คํ ์์๋ parameter ์ถ์ ์ ๋ํด ์์๋ณด๋๋ก ํ๊ฒ ์ต๋๋ค.
๐ reference
https://mole-starseeker.tistory.com/78
'AI > Machine Learning' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[ML] Regression(ํ๊ท)(1) - Linear Regression(์ ํ ํ๊ท) (0) | 2022.11.11 |
---|---|
[ML] ๋ฒ ์ด์ง์ ๋ถ๋ฅ๊ธฐ(Bayesian Classifier)(4) - Bayesian Classifier (0) | 2022.10.14 |
[ML] ๋ฒ ์ด์ง์ ๋ถ๋ฅ๊ธฐ(Bayesian Classifier)(3) - Parameter Estimation (0) | 2022.10.14 |
[ML] ๋ฒ ์ด์ง์ ๋ถ๋ฅ๊ธฐ(Bayesian Classifier)(1) - ์์๋ณด๊ธฐ (0) | 2022.10.03 |
[ML] NumPy & Pandas (0) | 2022.09.19 |