AI/Machine Learning

[ML] ๋ฒ ์ด์ง€์•ˆ ๋ถ„๋ฅ˜๊ธฐ(Bayesian Classifier)(2) - ๋ฒ ์ด์ฆˆ ์ •๋ฆฌ(Bayes' Theorem)

์ดํƒœํ™ 2022. 10. 14. 01:08

๐Ÿค”๋ฒ ์ด์ฆˆ ์ •๋ฆฌ

์ €๋ฒˆ ์‹œ๊ฐ„์— ๊ฐ„๋‹จํ•œ ์˜ˆ์‹œ๋ฅผ ํ†ตํ•ด ๋ฒ ์ด์ง€์•ˆ ๋ถ„๋ฅ˜๊ธฐ๋ฅผ ๋ฐฐ์› ์Šต๋‹ˆ๋‹ค.

 

๊ทธ๋ฆฌ๊ณ  ๊ฒฐ๋ก ์ ์œผ๋กœ ์•„๋ž˜์˜ ์‹์„ ์œ ๋„ํ•˜์—ฌ ๋Œ€์†Œ๊ด€๊ณ„์˜ ๋น„๊ต๋ฅผ ํ†ตํ•ด ํฐ ํ™•๋ฅ ์„ ๊ฐ€์ง€๋Š” ๊ฐ’์„ ๊ฒƒ์„ ์•Œ ์ˆ˜ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค.

 

$$P(w_j|x)  (x : data, w_j : j^{th}class)$$

 

์ด๋ฒˆ ํฌ์ŠคํŒ…์—์„œ๋Š” ๋ฒ ์ด์ฆˆ ์ •๋ฆฌ์— ๋Œ€ํ•˜์—ฌ ์ˆ˜ํ•™์  ์œ ๋„๋ฅผ ํ†ตํ•ด ์–ด๋–ค ์›๋ฆฌ๊ฐ€ ์ˆจ์–ด์žˆ๋Š”์ง€ ์ดํ•ดํ•˜๋Š” ์‹œ๊ฐ„์„ ๊ฐ€์ ธ๋ณด๋„๋ก ํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค.

 

 

 

 

 

 

๐Ÿ‘‰ ์ด์ „ ํฌ์ŠคํŒ…

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

๐Ÿ”Ž ์กฐ๊ฑด๋ถ€ ํ™•๋ฅ 

์กฐ๊ฑด๋ถ€ ํ™•๋ฅ ์€ ์ฃผ์–ด์ง„ ์‚ฌ๊ฑด์ด ์ผ์–ด๋‚ฌ๋‹ค๋Š” ๊ฐ€์ • ํ•˜์— ๋‹ค๋ฅธ ํ•œ ์‚ฌ๊ฑด์ด ์ผ์–ด๋‚ ํ™•๋ฅ ์„ ๋œปํ•ฉ๋‹ˆ๋‹ค.

 

์›๋ž˜์˜ ํ™•๋ฅ  ํ•จ์ˆ˜๋ฅผ $P$๋ผ๊ณ  ํ•  ๋•Œ, ์‚ฌ๊ฑด $B$๊ฐ€ ์ผ์–ด๋‚ฌ๋‹ค๋Š” ๊ฐ€์ • ํ•˜์— ์‚ฌ๊ฑด $B$๊ฐ€ ์ผ์–ด๋‚  ์กฐ๊ฑด๋ถ€ ํ™•๋ฅ ์€ $P(A|B)$๋กœ ํ‘œ๊ธฐํ•ฉ๋‹ˆ๋‹ค.

 

๋ฒ ์ด์ฆˆ ์ •๋ฆฌ๋ฅผ ๊ณต๋ถ€ํ•˜๋ฉด์„œ ์‚ฌ์šฉํ•ด์•ผํ•  ์กฐ๊ฑด๋ถ€ ํ™•๋ฅ ์„ ํ˜•ํƒœ๋Š” ์•„๋ž˜์™€ ๊ฐ™์Šต๋‹ˆ๋‹ค.

 

$$P(A|B) = \frac{P(B|A)P(A)}{P(B)}$$

 

์ด ํ˜•ํƒœ๋ฅผ ๊ผญ ๊ธฐ์–ตํ•ด๋‘์‹œ๊ธธ ๋ฐ”๋ž๋‹ˆ๋‹ค.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

๐Ÿ”Ž Bayesian Classifier

์šฐ๋ฆฌ๋Š” ์ด์ „ ํฌ์ŠคํŒ…์—์„œ ๋„์ถœํ–ˆ๋˜ ๋ฒ ์ด์ฆˆ ํ•จ์ˆ˜๋ฅผ ๋˜ํ•œ ์กฐ๊ฑด๋ถ€ ํ™•๋ฅ ๋กœ ๋‚˜ํƒ€๋‚ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

 

$$P(w_j|x) = \frac{P(x|w_j)P(w_j)}{P(x)}$$

 

์ด๋•Œ ์ขŒ๋ณ€์˜ $P(w_j|x)$์„ ์‚ฌํ›„ํ™•๋ฅ (posterior) ์šฐ๋ณ€์˜ $P(x|w_j)$์„ ์šฐ๋„(likelihood) $P(w_j)$์„ ์‚ฌ์ „ํ™•๋ฅ (prior) $P(x)$๋ฅผ ์ฆ๊ฑฐ(evidence)๋ผ๊ณ  ํ•ฉ๋‹ˆ๋‹ค.

 

 

 

 

 

 

โœ๏ธ ์‚ฌ์ „ํ™•๋ฅ (prior) - $w_j$

์‚ฌ์ „ํ™•๋ฅ ์€ ๋…๋ฆฝ๋ณ€์ˆ˜(์˜ˆ์ธก์ž ๋ณ€์ˆ˜) ๊ฐ’์— ๋Œ€ํ•œ ์ •๋ณด๋ฅผ ์–ป๊ธฐ ์ „์— ๊ฐ ์ข…์†๋ณ€์ˆ˜ ๋ฒ”์ฃผ์— ๋Œ€ํ•œ ์ „์ฒด์ ์ธ ์ƒ๋Œ€ ๋นˆ๋„๋ฅผ ์ถ”์ •ํ•œ ๊ฐ’์ž…๋‹ˆ๋‹ค.

 

์œ„์˜ ์ •์˜๊ฐ€ ๋„ˆ๋ฌด ์–ด๋ ค์›Œ์„œ ์ดํ•ด๊ฐ€ ๋˜๊ธฐ ์‰ฝ๊ฒŒ ์ •๋ฆฌํ•˜์ž๋ฉด ์ „์ฒด์˜ ๋ฐ์ดํ„ฐ ์ค‘์—์„œ ํŠน์ • ์ข…๋ฅ˜์˜ ๋ฐ์ดํ„ฐ๊ฐ€ ์ฐจ์ง€ํ•˜๋Š” ๋น„์œจ์„ ๋งํ•ฉ๋‹ˆ๋‹ค.

 

๋˜ํ•œ ์‚ฌ์ „ํ™•๋ฅ ์€ ์šฐ๋ฆฌ๊ฐ€ ๊ด€์ฐฐํ•œ ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์™€ ๋…๋ฆฝ์ ์ด๋ผ๋Š” ํŠน์ง•์„ ๊ฐ€์ง€๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

 

๋จธ์‹ ๋Ÿฌ๋‹์˜ ๊ด€์ ์—์„œ ํŠน์ง•$x$๊ฐ€ ๊ด€์ธก๋˜๊ธฐ ์ „๋ถ€ํ„ฐ ์ด๋ฏธ ์ •ํ•ด์ ธ์žˆ๋˜ ํด๋ž˜์Šค $w_j$์˜ ๋ถ„ํฌ๋ฅผ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.

 

์ „์ฒด์˜ ๋ฐ์ดํ„ฐ ์ค‘ $w_1, w_2$๋งŒ์ด ์กด์žฌํ•œ๋‹ค๋ฉด $P(w_1)$๊ณผ $P(w_2)$๋Š” $P(w_1) = 1 - P(w_2)$๋ผ๊ณ  ๋‚˜ํƒ€๋‚ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. 

 

์ด์ „ ํฌ์ŠคํŒ…์˜ ์˜ˆ์‹œ์— ์ด์–ด ๋…ธ๋ฅด์›จ์ด ๋ฐ”๋‹ค์— ์„œ์‹ํ•˜๋Š” ๋ฌผ๊ณ ๊ธฐ๊ฐ€ ์—ฐ์–ด์™€ ๋†์–ด๋งŒ์ด ์กด์žฌํ•  ๋•Œ $P(์—ฐ์–ด) = 2/3$์ด๋ผ๋ฉด $P(๋†์–ด) = 1/3$์ด๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

 

 

 

 

 

 

โœ๏ธ ์ฆ๊ฑฐ(evidence) - $x$

๋จธ์‹ ๋Ÿฌ๋‹์˜ ๊ด€์ ์—์„œ ํŠน์ง•$w_j$๊ฐ€ ๊ด€์ธก๋˜๊ธฐ ์ „๋ถ€ํ„ฐ ์ด๋ฏธ ์ •ํ•ด์ ธ์žˆ๋˜ ์ „์ฒด ํด๋ž˜์Šค์—์„œ ํŠน์ • ํด๋ž˜์Šค $x$์˜ ๋ถ„ํฌ๋ฅผ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.

 

 

 

 

 

 

โœ๏ธ ์šฐ๋„(likelihood) - $P(x|w_j)$

์šฐ๋„๋Š” ๋งค์šฐ ์ƒ์†Œํ•œ ๋‹จ์–ด์ธ๋ฐ ๊ฐ€์žฅ ์œ ์‚ฌํ•œ ์˜๋ฏธ๋กœ "๊ฐ€๋Šฅ์„ฑ"์„ ์˜๋ฏธํ•œ๋‹ค๊ณ  ์ƒ๊ฐํ•˜์‹œ๋ฉด ๋ฉ๋‹ˆ๋‹ค.

 

ํ™•๋ฅ ์ด ๋ชจ๋ธ ํŒŒ๋ผ๋ฏธํ„ฐ๊ฐ’์ด ๊ด€์ธก ๋ฐ์ดํ„ฐ ์—†์ด ์ฃผ์–ด์ง„ ์ƒํƒœ์—์„œ ๋žœ๋คํ•œ  ์ถœ๋ ฅ์ด ์ผ์–ด๋‚  ๊ฐ€๋Šฅ์„ฑ์ด๋ผ๋ฉด, Likelihood๋Š” ํŠน์ • ๊ด€์ธก ๊ฒฐ๊ณผ๊ฐ€ ์ฃผ์–ด์ง„ ์ƒํƒœ์—์„œ ๋ชจ๋ธ ํŒŒ๋ผ๋ฏธํ„ฐ ๊ฐ’๋“ค์ด ๋‚˜ํƒ€๋‚  ๊ฐ€๋Šฅ์„ฑ์ž…๋‹ˆ๋‹ค.

 

likelihood์— ๋Œ€ํ•œ ์ดํ•ด๋ฅผ ์œ„ํ•ด์„œ๋Š” ๊ณต๋ถ€๊ฐ€ ํ•„์š”ํ•œ๋ฐ ํ™•๋ฅ ๊ณผ ํ†ต๊ณ„๋ฅผ ๋งค์šฐ ์—ด์‹ฌํžˆ ๊ณต๋ถ€ํ–ˆ๋˜ ์ œ ์นœ๊ตฌ์˜ ๋ธ”๋กœ๊ทธ๋ฅผ  ์ฐพ์•„๋ณด์‹œ๋ฉด ๋„์›€์ด ๋  ๊ฒƒ ๊ฐ™์Šต๋‹ˆ๋‹ค.

 

์กฐ๊ฑด๋ถ€ํ™•๋ฅ ์„ ์ •๋ฆฌํ•œ ์‹์—์„œ ์šฐ๋ณ€์˜ $P(x|w_j)$๊ฐ€ likelihood๋ฅผ ์˜๋ฏธํ•˜๋Š”๋ฐ $w_j$๊ฐ€ ์„ ํƒ๋˜์—ˆ์„ ๋•Œ $x$์ผ ํ™•๋ฅ ์ž…๋‹ˆ๋‹ค.

 

๋จธ์‹ ๋Ÿฌ๋‹์˜ ๊ด€์ ์—์„œ ํŠน์ • ํ™•๋ฅ  ๋ถ„ํฌ$w_j$์—์„œ ํŠน์ง•$x$๊ฐ€ ๋ฐœ์ƒํ•  ํ™•๋ฅ ์„ ๋œปํ•ฉ๋‹ˆ๋‹ค.

 

์ฆ‰ ๊ธฐ์กด์— ์žˆ๋Š” ๋ฐ์ดํ„ฐ์˜ ๊ฐ ํด๋ž˜์Šค ๋ณ„๋กœ ํŠน์ • ํŠน์ง•์— ๋Œ€ํ•œ ๋ถ„ํฌ๋ฅผ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.

 

 

 

 

 

 

 

๐Ÿ‘‰ ์šฐ๋„์— ๋Œ€ํ•˜์—ฌ

๋”๋ณด๊ธฐ

 

 

 

 

 

 

 

 

 

โœ๏ธ ์‚ฌํ›„ํ™•๋ฅ (posterior) - $P(w_j|x)$

์‚ฌํ›„ํ™•๋ฅ ์ด๋ž€ ์‚ฌ๊ฑด ๋ฐœ์ƒ ํ›„์˜ ํ™•๋ฅ ์„ ์˜๋ฏธํ•˜๋Š”๋ฐ ๋ฐœ์ƒํ•œ ์‚ฌ๊ฑด($x$)์ด ํŠน์ • ํ™•๋ฅ ๋ถ„ํฌ$w_j$์—์„œ ๋‚˜์™”์„ ํ™•๋ฅ ์ž…๋‹ˆ๋‹ค.

 

๋จธ์‹ ๋Ÿฌ๋‹์˜ ๊ด€์ ์—์„œ ๊ด€์ธก๋œ ํŠน์ง•($x$)์ด ํŠน์ • ํด๋ž˜์Šค($w_j$)์—์„œ ๋‚˜์™”์„ ํ™•๋ฅ ์ด๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

 

์‚ฌํ›„ํ™•๋ฅ ์€ ์‚ฌ์ „ํ™•๋ฅ ๊ณผ likelihood์— ์˜ํ•ด ๋ฒ”์œ„๊ฐ€ ์ •ํ•ด์ง‘๋‹ˆ๋‹ค.

 

Decision = Likelihood x Prior (Decision = Observed data x Prior knowledge)

 

์‚ฌํ›„ํ™•๋ฅ ์— ์˜ํ•ด ๊ฒฐ์ •๋œ decision์€ ์‚ฌ๋žŒ์˜ ๋‚ด๋ฆฐ ๊ฒฐ์ •๊ณผ ๋น„์Šทํ•œ ๋ชจ์Šต์ด ์žˆ์Šต๋‹ˆ๋‹ค.

 

์‚ฌ๋žŒ์€ ํ˜„์žฌ์˜ ์ •๋ณด๋งŒ์œผ๋กœ ๊ฒฐ์ •์„ ๋‚ด๋ฆฌ์ง€ ์•Š๋Š”๋ฐ ์‚ฌํ›„ํ™•๋ฅ ๋„ ๋งˆ์ฐฌ๊ฐ€์ง€ ์ž…๋‹ˆ๋‹ค.

 

 

 

 

 

 

 

 

 

 

 

 

โœ๏ธ ์‚ฌํ›„ํ™•๋ฅ ์— ๋”ฐ๋ฅธ ๊ฒฐ์ •

์šฐ๋ฆฌ๊ฐ€ ๋งŒ์•ฝ ์‚ฌ์ „ํ™•๋ฅ ๊ณผ ๊ด€์ฐฐ ๋ฐ์ดํ„ฐ X ๋Œ€ํ•ด ์•Œ๊ณ  ์žˆ๋‹ค๊ณ  ํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค.

 

$$if  \; P(w_1|x) > P(w_2|x) \quad Decision = w_1$$

 

$$if \; P(w_1|x) < P(w_2|x) \quad Decision = w_2$$

 

 

 

์ด๋•Œ ์—๋Ÿฌ๋Š” ์•„๋ž˜์™€ ๊ฐ™์ด ๋‚˜ํƒ€๋‚ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

 

$$if \; P(w_1|x) > P(w_2|x) \quad Error = P(w_2|x)$$

 

$$if \; P(w_1|x) > P(w_2|x) \quad Error = P(w_1|x)$$

 

 

 

$$P(error|x) = min[P(w_1|x), P(w_2|x)] \quad (Bayes decision)$$

 

์ฆ‰, ์—๋Ÿฌ๊ฐ€ ๋‚ฎ์€ ๋ฐฉํ–ฅ์œผ๋กœ decisionํ•œ๋‹ค๋Š” ๋œป์ž…๋‹ˆ๋‹ค.

 

 

 

 

 

 

 

 

 

 

๋‹ค์Œ ํฌ์ŠคํŒ…์—์„œ๋Š” parameter ์ถ”์ •์— ๋Œ€ํ•ด ์•Œ์•„๋ณด๋„๋ก ํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค.

 

 

 

 

 

 

 

 

 

 

 

 

 

๐Ÿ”Ž reference

https://mole-starseeker.tistory.com/78

 

๋‚˜์ด๋ธŒ ๋ฒ ์ด์ฆˆ ๋ถ„๋ฅ˜๊ธฐ (Naive Bayes Classifier)

์ด๋ฒˆ ๊ธ€์—์„œ๋Š” ๋‚˜์ด๋ธŒ ๋ฒ ์ด์ฆˆ ๋ถ„๋ฅ˜๊ธฐ(Naive Bayes Classifier)์— ๋Œ€ํ•œ ์ด๋ก ์  ์ง€์‹์„ ์•Œ์•„๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค. ๋ฒ ์ด์ฆˆ ์ •๋ฆฌ, ์ตœ๋Œ€ ์šฐ๋„ ์ถ”์ •, ์ตœ๋Œ€ ์‚ฌํ›„ํ™•๋ฅ  ์ถ”์ •, ๋‘˜ ๊ฐ„์˜ ๋น„๊ต, '๋‚˜์ด๋ธŒ'์˜ ๋œป, ๋ผํ”Œ๋ผ์Šค ์Šค๋ฌด๋”ฉ

mole-starseeker.tistory.com