์ดํƒœํ™
ํ™'story
์ดํƒœํ™
์ „์ฒด ๋ฐฉ๋ฌธ์ž
์˜ค๋Š˜
์–ด์ œ
  • ๋ถ„๋ฅ˜ ์ „์ฒด๋ณด๊ธฐ (171)
    • TW (39)
    • AI (47)
      • ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ (10)
      • Kaggle (2)
      • Machine Learning (26)
      • Computer Vision (0)
      • Deep Learning (0)
      • ROS2 (7)
    • Computer Science (29)
      • Data Structure (0)
      • Algorithm (18)
      • Computer Architecture (5)
      • SOLID (0)
      • System Programing (6)
    • LOLPAGO (10)
      • ํ”„๋ก ํŠธ์—”๋“œ (10)
      • ๋ฐฑ์—”๋“œ (0)
    • BAEKJOON (2)
    • React (5)
    • ์–ธ์–ด (8)
      • C++ (8)
    • GIT (0)
    • MOGAKCO (19)
    • ๋ฏธ๊ตญ ์—ฌํ–‰๊ธฐ (3)
    • etc. (7)
      • Blog (2)
      • ์ฝœ๋ผํ†ค (2)

๋ธ”๋กœ๊ทธ ๋ฉ”๋‰ด

  • ํ™ˆ
  • ํƒœ๊ทธ
  • ๋ฐฉ๋ช…๋ก

๊ณต์ง€์‚ฌํ•ญ

์ธ๊ธฐ ๊ธ€

ํƒœ๊ทธ

  • ์•Œ๊ณ ๋ฆฌ์ฆ˜
  • kaggle
  • algorithm
  • computer architecture
  • tw
  • Ai
  • LOLPAGO
  • ๋ฐฑ์ค€
  • react
  • ROS2
  • ML
  • pytorch
  • ๋”ฅ๋Ÿฌ๋‹
  • C++
  • ๊ธฐ๊ณ„ํ•™์Šต
  • NLP
  • ๊ฒฝ์‚ฌํ•˜๊ฐ•๋ฒ•
  • computerscience
  • baekjoon
  • ๋จธ์‹ ๋Ÿฌ๋‹

์ตœ๊ทผ ๋Œ“๊ธ€

์ตœ๊ทผ ๊ธ€

ํ‹ฐ์Šคํ† ๋ฆฌ

hELLO ยท Designed By ์ •์ƒ์šฐ.
์ดํƒœํ™

ํ™'story

[ML] ๋ฒ ์ด์ง€์•ˆ ๋ถ„๋ฅ˜๊ธฐ(Bayesian Classifier)(3) - Parameter Estimation
AI/Machine Learning

[ML] ๋ฒ ์ด์ง€์•ˆ ๋ถ„๋ฅ˜๊ธฐ(Bayesian Classifier)(3) - Parameter Estimation

2022. 10. 14. 04:33

๐Ÿค”Parameter Estimation

๋ชจ์ˆ˜(parameter)์€ ๋ชจ์ง‘๋‹จ์˜ ํŠน์„ฑ์„ ๋‚˜ํƒ€๋‚ด๋Š” ์ˆ˜์น˜๋กœ ๋ชจํ‰๊ท , ๋ชจ๋ถ„์‚ฐ, ๋ชจํ‘œ์ค€ํŽธ์ฐจ, ๋ชจ๋น„์œจ, ๋ชจ์ƒ๊ด€๊ด€๊ณ„ ๋“ฑ์ด ์žˆ์Šต๋‹ˆ๋‹ค.

 

ํ‘œ๋ณธ ํ†ต๊ณ„๋Ÿ‰(sample statistics)์€ ํ‘œ๋ณธ(sample)์˜ ํŠน์„ฑ์„ ๋‚˜ํƒ€๋‚ด๋Š” ์ˆ˜์น˜๋กœ ํ‘œ๋ณธํ‰๊ท , ํ‘œ๋ณธ๋ถ„์‚ฐ, ํ‘œ๋ณธํ‘œ์ค€ํŽธ์ฐจ, ํ‘œ๋ณธ๋น„์œจ, ํ‘œ๋ณธ์ƒ๊ด€๊ด€๊ณ„ ๋“ฑ์ด ์žˆ์Šต๋‹ˆ๋‹ค.

 

ํ‘œ๋ณธ ํ†ต๊ณ„๋Ÿ‰์€ ํ‘œ๋ณธ์—์„œ ์–ป์€ ๋ชจ์ˆ˜์— ๋Œ€ํ•œ ์ •๋ณด์˜ ์š”์•ฝ์ด๋ฏ€๋กœ ํ†ต๊ณ„๋Ÿ‰์€ ๋ชจ์ง‘๋‹จ์—์„œ ์ถ”์ถœํ•œ ํŠน์ • ํ‘œ๋ณธ์— ๋”ฐ๋ผ ๋‹ฌ๋ผ์ง€๋Š” ํ™•๋ฅ ๋ณ€์ˆ˜์ž…๋‹ˆ๋‹ค.

 

 

 

์ด ํ†ต๊ณ„๋Ÿ‰์˜ ํ™•๋ฅ  ๋ถ„ํฌ๋ฅผ ํ‘œ๋ณธ ๋ถ„ํฌ(sampling distribution)๋ผ๊ณ  ๋ถ€๋ฆ…๋‹ˆ๋‹ค. 

 

ํ˜„์‹ค์ ์œผ๋กœ ๋ชจ์ง‘๋‹จ์˜ ํŠน์„ฑ, ์ฆ‰ ๋ชจ์ˆ˜๋ฅผ ์•„๋Š” ๊ฒƒ์€ ๊ฑฐ์˜ ๋ถˆ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.

 

๋”ฐ๋ผ์„œ ํ‘œ๋ณธ์˜ ํŠน์„ฑ์ธ ํ†ต๊ณ„๋Ÿ‰์„ ํ†ตํ•ด ๋ชจ์ˆ˜๋ฅผ ์ถ”์ •(estimation)ํ•ฉ๋‹ˆ๋‹ค.

 

 

 

์ด๋ฒˆ ํฌ์ŠคํŒ…์—์„œ๋Š” ๋ฒ ์ด์ง€์•ˆ ๋ถ„๋ฅ˜๊ธฐ์—์„œ ๋ชจ์ˆ˜ ์ถ”์ •์„ ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ๋ฐฐ์›Œ๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค.

 

 

 

 

 

 

 

 

 

๐Ÿ”Ž ์ƒ์„ฑ๋ชจ๋ธ(Generative Model) vs ๋ถ„๋ณ„๋ชจ๋ธ(Discriminative Model)

 

โœ๏ธ Generative Model

generative model์ด๋ž€ ๋ฐ์ดํ„ฐ $X$๊ฐ€ ์ƒ์„ฑ๋˜๋Š” ๊ณผ์ •์„ ๋‘ ๊ฐœ์˜ ํ™•๋ฅ ๋ชจํ˜•, ์ฆ‰ $P(Y)$, $P(X|Y)$์œผ๋กœ ์ •์˜ํ•˜๊ณ , ๋ฒ ์ด์ฆˆ๋ฃฐ์„ ์‚ฌ์šฉํ•ด $P(Y|X)$๋ฅผ ๊ฐ„์ ‘์ ์œผ๋กœ ๋„์ถœํ•˜๋Š” ๋ชจ๋ธ์„ ๊ฐ€๋ฆฌํ‚ต๋‹ˆ๋‹ค. 

 

generative model์€ ๋ ˆ์ด๋ธ” ์ •๋ณด๊ฐ€ ์žˆ์–ด๋„ ๋˜๊ณ , ์—†์–ด๋„ ๊ตฌ์ถ•ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

 

์ „์ž๋ฅผ ์ง€๋„ํ•™์Šต๊ธฐ๋ฐ˜์˜ generative model์ด๋ผ๊ณ  ํ•˜๋ฉฐ ์„ ํ˜•ํŒ๋ณ„๋ถ„์„์ด ๋Œ€ํ‘œ์ ์ธ ์‚ฌ๋ก€์ž…๋‹ˆ๋‹ค.

 

ํ›„์ž๋Š” ๋น„์ง€๋„ํ•™์Šต ๊ธฐ๋ฐ˜์˜ generative model์ด๋ผ๊ณ  ํ•˜๋ฉฐ ๊ฐ€์šฐ์‹œ์•ˆ๋ฏน์Šค์ฒ˜๋ชจ๋ธ, ํ† ํ”ฝ๋ชจ๋ธ๋ง์ด ๋Œ€ํ‘œ์ ์ธ ์‚ฌ๋ก€์ž…๋‹ˆ๋‹ค.

 

 

 

generative model์€ discriminative model์— ๋น„ํ•ด ๊ฐ€์ •์ด ๋งŽ์Šต๋‹ˆ๋‹ค.

 

๊ทธ ๊ฐ€์ •์ด ์‹ค์ œ ํ˜„์ƒ๊ณผ ๋งž์ง€ ์•Š๋Š”๋‹ค๋ฉด generative model์˜ ์„ฑ๋Šฅ์€ discriminative model๋ณด๋‹ค ์„ฑ๋Šฅ์ด ์ข‹์ง€ ์•Š์„ ์ˆ˜ ์žˆ์ง€๋งŒ, ๊ฐ€์ •์ด ์ž˜ ๊ตฌ์ถ•๋˜์–ด ์žˆ๋‹ค๋ฉด ์ด์ƒ์น˜์—๋„ ๊ฐ•๊ฑดํ•˜๊ณ  ํ•™์Šต๋ฐ์ดํ„ฐ๊ฐ€ ์ ์€ ์ƒํ™ฉ์—์„œ๋„ ์ข‹์€ ์˜ˆ์ธก ์„ฑ๋Šฅ์„ ๋ณด์ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. 

 

generative model์€ ๋ฒ”์ฃผ์˜ ๋ถ„ํฌ(distribution)์„ ํ•™์Šตํ•˜๋Š” ๊ฒƒ์ด ๋ชฉํ‘œ๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.

 

๋˜ํ•œ generative model์€ ์ผ๋ฐ˜์ ์ธ ๋ฒ ์ด์ง€์•ˆ ์ถ”๋ก ๊ณผ ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ ํ•™์Šต๋ฐ์ดํ„ฐ๊ฐ€ ๋งŽ์„ ์ˆ˜๋ก discriminative model๊ณผ ๋น„์Šทํ•œ ์„ฑ๋Šฅ์œผ๋กœ ์ˆ˜๋ ดํ•˜๋Š” ๊ฒฝํ–ฅ์ด ์žˆ๋‹ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค.

 

์•„์šธ๋Ÿฌ generative model์€ $P(X|Y)$์„ ๊ตฌ์ถ•ํ•˜๊ธฐ ๋•Œ๋ฌธ์— ์ด ๋ชจ๋ธ์„ ํ™œ์šฉํ•ด $X$๋ฅผ ์ƒ˜ํ”Œ๋งํ•  ์ˆ˜๋„ ์žˆ์Šต๋‹ˆ๋‹ค.

 

 

 

 

 

โœ๏ธ Discriminative Model

Discriminative model์ด๋ž€ ๋ฐ์ดํ„ฐ $X$๊ฐ€ ์ฃผ์–ด์กŒ์„ ๋•Œ ๋ ˆ์ด๋ธ” $Y$๊ฐ€ ๋‚˜ํƒ€๋‚  ์กฐ๊ฑด๋ถ€ํ™•๋ฅ  $P(Y|X)$๋ฅผ ์ง์ ‘์ ์œผ๋กœ ๋ฐ˜ํ™˜ํ•˜๋Š” ๋ชจ๋ธ์„ ๊ฐ€๋ฆฌํ‚ต๋‹ˆ๋‹ค.

 

๋ ˆ์ด๋ธ” ์ •๋ณด๊ฐ€ ์žˆ์–ด์•ผ ํ•˜๊ธฐ ๋•Œ๋ฌธ์— ์ง€๋„ํ•™์Šต(supervised learning) ๋ฒ”์ฃผ์— ์†ํ•˜๋ฉฐ $X$์˜ ๋ ˆ์ด๋ธ”์„ ์ž˜ ๊ตฌ๋ถ„ํ•˜๋Š” ๊ฒฐ์ •๊ฒฝ๊ณ„(decision boundary)๋ฅผ ํ•™์Šตํ•˜๋Š” ๊ฒƒ์ด ๋ชฉํ‘œ๊ฐ€ ๋ฉ๋‹ˆ๋‹ค. 

 

discriminative model์€ generative model์— ๋น„ํ•ด ๊ฐ€์ •์ด ๋‹จ์ˆœํ•˜๊ณ , ํ•™์Šต๋ฐ์ดํ„ฐ ์–‘์ด ์ถฉ๋ถ„ํ•˜๋‹ค๋ฉด ์ข‹์€ ์„ฑ๋Šฅ์„ ๋‚ด๋Š” ๊ฒƒ์œผ๋กœ ์•Œ๋ ค์ ธ ์žˆ์Šต๋‹ˆ๋‹ค.

 

์„ ํ˜•ํšŒ๊ท€์™€ ๋กœ์ง€์Šคํ‹ฑํšŒ๊ท€๋Š” disciminative model์˜ ๋Œ€ํ‘œ์ ์ธ ์˜ˆ์‹œ์ž…๋‹ˆ๋‹ค.

 

 

 

 

โœ๏ธ ์ฐจ์ด

๋‹ค์Œ ๊ทธ๋ฆผ์€ generative model๊ณผ discriminative model๊ฐ„์˜ ์ฐจ์ด๋ฅผ ๋‚˜ํƒ€๋‚ธ ๊ทธ๋ฆผ์ž…๋‹ˆ๋‹ค.

 

๊ทธ๋ฆผ์—์„œ ์•Œ ์ˆ˜ ์žˆ๋“ฏ generative model์€ ์‚ฌํ›„ํ™•๋ฅ ์„ ๊ฐ„์ ‘์ ์œผ๋กœ ๋‚˜ํƒ€๋‚ด๊ณ  discriminative model์€ ์ง์ ‘์ ์œผ๋กœ ๋„์ถœํ•ฉ๋‹ˆ๋‹ค.

 

์‚ฌํ›„ํ™•๋ฅ ์— ๋Œ€ํ•œ ์ •๋ณด๋Š” ์ด์ „ ํฌ์ŠคํŠธ๋ฅผ ํ™•์ธํ•˜์‹œ๋ฉด ๋ฉ๋‹ˆ๋‹ค.

 

 

 

 

 

๋˜ํ•œ ์•„๋ž˜์˜ ๊ทธ๋ฆผ๊ณผ ๊ฐ™์ด generative model์€ ๋ฐ์ดํ„ฐ ๋ฒ”์ฃผ์˜ ๋ถ„ํฌ๋ฅผ, discriminative model์€ ๊ฒฐ์ •๊ฒฝ๊ณ„(Decision Boundary)๋ฅผ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

๐Ÿ”Ž Parametric vs Non-parametric

parametric๊ณผ Non-parametric์€ ๋ชจ์ˆ˜(parameter)๋ฅผ ํ•„์š”๋กœ ํ•˜๋Š”๊ฐ€, ํ•„์š”๋กœ ํ•˜์ง€ ์•Š๋Š” ๊ฐ€์— ๋”ฐ๋ผ ๊ตฌ๋ถ„ํ•ฉ๋‹ˆ๋‹ค.

 

๊ฐ๊ฐ์„ ์ž์„ธํžˆ ์‚ดํŽด๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค.

 

 

โœ๏ธ Parametric Model

ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜๊ฐ€ ์ •ํ•ด์ ธ ์žˆ๋Š” ๋ชจ๋ธ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.

 

์ฆ‰, ๋ฐ์ดํ„ฐ๊ฐ€ ํŠน์ • ๋ถ„ํฌ๋ฅผ ๋”ฐ๋ฅธ๋‹ค๊ณ  ๊ฐ€์ •ํ•˜๊ณ  ํ•™์Šต์„ ํ•˜๋ฉด์„œ ๊ฒฐ์ •ํ•ด์•ผ ํ•˜๋Š” ๋ถ„ํฌ์˜ parameter ์ข…๋ฅ˜์˜ ์ˆ˜๊ฐ€ ๋ช…ํ™•ํ•˜๊ฒŒ ์ •ํ•ด์ ธ ์žˆ์Šต๋‹ˆ๋‹ค.

 

๋ฐ์ดํ„ฐ์˜ ์ˆ˜์— ๋”ฐ๋ผ parameter์˜ ์ˆ˜๊ฐ€ ๋ณ€ํ•˜์ง€ ์•Š์Œ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.

 

๋”ฐ๋ผ์„œ parametric modell์€ model์˜ ํ˜•ํƒœ๋ฅผ ์ •ํ•˜๊ณ , ์ด model์˜ parameter๋ฅผ ํ•™์Šต์„ ํ†ตํ•ด ๋ฐœ์ „์‹œํ‚ค๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜์ž…๋‹ˆ๋‹ค.

 

๋ฐ์ดํ„ฐ๊ฐ€ ๋งŽ์„ ์ˆ˜๋ก ์ •ํ™•๋„๊ฐ€ ์˜ฌ๋ผ๊ฐ„๋‹ค๋Š” ํŠน์ง•์ด ์žˆ์Šต๋‹ˆ๋‹ค.

 

์˜ˆ์‹œ๋กœ ์ง€๊ธˆ ๊ณต๋ถ€ํ•˜๊ณ ์žˆ๋Š” Bayesian ๋ชจ๋ธ์ด ์žˆ์Šต๋‹ˆ๋‹ค.

 

์ด์™ธ์—๋Š” linear regression, logistic regression, neural network ๋“ฑ์ด ์žˆ์Šต๋‹ˆ๋‹ค.

 

 

 

 

โœ๏ธ Non-parametric Model

ํŒŒ๋ผ๋ฏธํ„ฐ์˜ ์ˆ˜๊ฐ€ ํ•™์Šต ๋ฐ์ดํ„ฐ์˜ ํฌ๊ธฐ์— ๋”ฐ๋ผ ๋‹ฌ๋ผ์ง€๋Š” ๋ชจ๋ธ์„ ๋งํ•ฉ๋‹ˆ๋‹ค.

 

์ฆ‰, ๋ฐ์ดํ„ฐ๊ฐ€ ํŠน์ • ๋ถ„ํฌ๋ฅผ ๋”ฐ๋ฅธ๋‹ค๋Š” ๊ฐ€์ •์ด ์—†๊ธฐ ๋•Œ๋ฌธ์— ํ•™์Šต์— ๋”ฐ๋ผ tuningํ•ด์•ผ ํ•  parameter๊ฐ€ ๋ช…ํ™•ํžˆ ์ •ํ•ด์ ธ ์žˆ์ง€ ์•Š์Šต๋‹ˆ๋‹ค.

 

๋”ฐ๋ผ์„œ non-parametric model์€ ๋” flexibleํ•˜๋ฉฐ, ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ์‚ฌ์ „ ์ง€์‹์ด ์ „ํ˜€ ์—†์„ ๋•Œ ์œ ์šฉํ•˜๊ฒŒ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.

 

์†๋„๊ฐ€ ๋А๋ฆฌ๊ณ  ๋งŽ์€ ๋ฐ์ดํ„ฐ๋ฅผ ํ•„์š”๋กœ ํ•˜์ง€ ์•Š์œผ๋ฉฐ, ๋ชจ๋ธ์˜ ํ˜•ํƒœ์— ๋Œ€ํ•œ ๋ช…ํ™•ํ•œ ์„ค๋ช…์ด ์–ด๋ ต์Šต๋‹ˆ๋‹ค.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

๐Ÿ”Ž Discriminant Function for Decision Boundary

 

 

โœ๏ธ๊ฒฐ์ •๊ฒฝ๊ณ„(Decision Boundary)

๊ฒฐ์ •๊ฒฐ๊ณ„์„ ๋งŒ๋“ค๊ธฐ ์œ„ํ•ด $g_i(x)$๋ฅผ ์„ ์–ธํ•ฉ๋‹ˆ๋‹ค.

 

๊ฐ๊ฐ์˜ ํด๋ž˜์Šค์— ๋Œ€ํ•ด $g_i(x) = P(w_i|x) = P(x|w_i)P(w_i)$๋ผ๊ณ  ํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค.

 

์ด๋•Œ ๊ฒฐ์ •๊ฒฝ๊ณ„๋ฅผ ์ฐพ์œผ๋ ค๊ณ  ํ•˜๊ธฐ ๋•Œ๋ฌธ์— ๋น„๊ต๋ฅผ ์ง„ํ–‰ํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค.

 

๋น„๊ต์— ์žˆ์–ด ๊ฐ ํ•ญ์— log๋ฅผ ์ทจํ•ด์ฃผ๋”๋ผ๋„ ๋น„๊ต์—๋Š” ์˜ํ–ฅ์„ ๋ผ์น˜์ง€ ๋ชปํ•˜๊ธฐ ๋•Œ๋ฌธ์— log๋ฅผ ์ทจํ•ด์ฃผ๋”๋ผ๋„ ์ƒ๊ด€์—†์Šต๋‹ˆ๋‹ค.

 

์ด๋•Œ  $g_i(x) = lnP(x|w_i) + lnP(w_i)$์ด๋ผ๋Š” ์‹์„ ๋„์ถœ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

 

๊ฒฐ์ •๊ฒฝ๊ณ„๋Š” $g_1(x) = g_2(x)$์—์„œ ์ฐพ์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

 

์ฆ‰, $g(x) = g_1(x) - g_2(x) = 0$์ผ ๋•Œ ๊ฒฐ์ •๊ฒฝ๊ณ„๋ฅผ ์ฐพ์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

 

์œ„์˜ ์‹์—์„œ $lnP(x|w_i)$๋Š” ๋ฐ์ดํ„ฐ๋กœ๋ถ€ํ„ฐ ์ฐพ์•„๋‚ผ ์ˆ˜ ์žˆ๊ณ  $lnP(w_i)$๋Š” ์‚ฌ์ „์— ์•Œ๊ณ ์žˆ์Šต๋‹ˆ๋‹ค.

 

๊ทธ๋Ÿฌ๋ฏ€๋กœ ์œ„์˜ ์‹์„ ํ†ตํ•ด ๊ฒฐ์ •๊ฒฝ๊ณ„๋ฅผ ์ฐพ์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

 

 

 

 

 

 

โœ๏ธ๊ฐ€์šฐ์‹œ์•ˆ ์ •๊ทœ๋ถ„ํฌ(Gaussian Distribution)

๊ฐ€์šฐ์‹œ์•ˆ ์ •๊ทœ๋ถ„ํฌ๋Š” $1$์ฐจ์› ํ˜•ํƒœ์™€ $d$์ฐจ์›์ธ ๊ฒฝ์šฐ๋ฅผ ๊ตฌ๋ถ„ํ•˜์—ฌ ์‹์œผ๋กœ ๋‚˜ํƒ€๋‚ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

 

๊ฐ€์šฐ์‹œ์•ˆ ์ •๊ทœ๋ถ„ํฌ๊ฐ€ $1$์ฐจ์› ํ˜•ํƒœ์ธ ๊ฒฝ์šฐ ๋‹จ๋ณ€๋Ÿ‰(univariate) ๊ฐ€์šฐ์‹œ์•ˆ์ด๋ผ๊ณ  ํ•˜๊ณ , ๊ฐ€์šฐ์‹œ์•ˆ ์ •๊ทœ๋ถ„ํฌ๊ฐ€ $d$์ฐจ์› ํ˜•ํƒœ์ธ ๊ฒฝ์šฐ ๋‹ค๋ณ€๋Ÿ‰(multivariate) ๊ฐ€์šฐ์‹œ์•ˆ์ด๋ผ๊ณ  ํ•ฉ๋‹ˆ๋‹ค.

 

 

 

ํ•ด๋‹น ๋ถ„ํฌ๋Š” $N(μ,σ^2)$ ๋˜๋Š” $N(μ,Σ)$ํ˜•ํƒœ๋กœ ํ‘œํ˜„ํ•ฉ๋‹ˆ๋‹ค.

 

๋‹จ๋ณ€๋Ÿ‰ ๊ฐ€์šฐ์‹œ์•ˆ ๋ถ„ํฌ๋Š” ์•„๋ž˜์™€ ๊ฐ™์ด ๋‚˜ํƒ€๋‚ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

 

 

 

 

 

๋‹ค๋ณ€๋Ÿ‰ ๊ฐ€์šฐ์‹œ์•ˆ ๋ถ„ํฌ๋Š” ์•„๋ž˜์™€ ๊ฐ™์ด ๋‚˜ํƒ€๋‚ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

 

 

 

 

 

 

์œ„์—์„œ ์„ค๋ช…ํ•œ ๊ฒƒ๊ณผ ๊ฐ™์ด ๊ฒฐ์ •๊ฒฝ๊ณ„๋Š” $g_i(x) = lnP(x|w_i) + lnP(w_i)$์™€ ๊ฐ™์ด ๋‚˜ํƒ€๋‚ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

 

์ด๋•Œ $lnP(x|w_i)$์— ๋‹ค๋ณ€๋Ÿ‰ ๊ฐ€์šฐ์‹œ์•ˆ ๋ถ„ํฌ๋ฅผ ๋Œ€์ž…ํ•ฉ๋‹ˆ๋‹ค.

 

ํ•ด๋‹น ์‹์„ ์ •๋ฆฌํ•˜๋ฉด ์•„๋ž˜์™€ ๊ฐ™์ด ์ •๋ฆฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

 

 

 

 

ํ•ด๋‹น ์‹์ด ๋ณต์žกํ•ด ๋ณด์ด์ง€๋งŒ ์ดํ•ด๋ฅผ ์œ„ํ•ด ์˜๋ฏธ๋ฅผ ์‚ดํŽด๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค.

 

ํ•ด๋‹น ์‹์—์„œ ์ž…๋ ฅ์€ ๋ฒกํ„ฐ $x$์ž…๋‹ˆ๋‹ค.

 

๋˜ํ•œ ํด๋ž˜์Šค ๋ณ„ ํ‰๊ท ๊ณผ ๋ฒกํ„ฐ๋Š” $μ_i,Σ_i$์ž„์„ ์•Œ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

 

 

 

์˜ˆ์‹œ๋ฅผ ๋“ค์–ด 2์ฐจ์› ์‹ค์ˆ˜ ๊ณต๊ฐ„์— ์ •์˜๋œ $x = (x_1, x_2)^T$์— ๋Œ€ํ•ด ๋‹ค๋ค„๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค.

 

์ด ๋•Œ ํด๋ž˜์Šค $w_i$๋Š” ๋‹ค์Œ ์„ฑ์งˆ์„ ๋”ฐ๋ฅธ๋‹ค๊ณ  ๊ฐ€์ •ํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค.

 

 

 

์œ„์—์„œ ์ „๊ฐœํ•œ ์‹์— ๋Œ€์ž…์„ ํ•˜๋ฉด ์•„๋ž˜์™€ ๊ฐ™์ด ์ •๋ฆฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

 

 

 

ํ•ด๋‹น ์‹์€ 2์ฐจ์‹, 1์ฐจ์‹, ์ƒ์ˆ˜ํ•ญ์œผ๋กœ ์ •๋ฆฌ๋จ์„ ์•Œ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

 

์ฆ‰, ํŠน์ง• ๋ฒกํ„ฐ์˜ ์ฐจ์›์— ๋”ฐ๋ผ ๊ฐ™์€ ์ฐจ์›์œผ๋กœ ์ •๋ฆฌ๋จ์„ ์•Œ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

 

์œ„ ์‹์€ $w_i$์˜ ํด๋ž˜์Šค์— ์†ํ•˜๋Š” ์–ด๋–ค ๊ฐ’์— ๋Œ€ํ•œ ์‚ฌํ›„ํ™•๋ฅ ์„ ๋œปํ•ฉ๋‹ˆ๋‹ค.

 

๊ทธ๋ ‡๊ธฐ ๋•Œ๋ฌธ์— ๋‘ ํด๋ž˜์Šค $g_i(x), g_j(x)$์— ๋Œ€ํ•ด ๊ฒฐ์ • ๊ฒฝ๊ณ„๋ฅผ ๋‚˜ํƒ€๋‚ด๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค.

 

 

 

 

์กฐ๊ธˆ ๋” ๊นŠ๊ฒŒ ํŒŒ๊ณ ๋“ค๋ฉด ๊ฐ ํด๋ž˜์Šค ๋ณ„๋กœ ๊ฐ™์€ ๊ณต๋ถ„์‚ฐ์„ ๊ฐ€์ง€๋Š” ๊ฒฝ์šฐ์™€ ๊ทธ๋ ‡์ง€ ์•Š์€ ๊ฒฝ์šฐ์— ๋”ฐ๋ผ ํ•ด์„ ๋ฐฉ๋ฒ•์ด ๋‹ค๋ฅธ๋ฐ, ์ด๋Š” ์•„๋ž˜์˜ ๋ธ”๋กœ๊ทธ๋ฅผ ์ฐธ๊ณ ํ•ด์ฃผ์‹œ๋ฉด ๊ฐ์‚ฌํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค.

 

์šฐ๋ฆฌ๊ฐ€ ์•Œ์•„๋ณผ ๊ฒƒ์€ ๊ฐ€์šฐ์‹œ์•ˆ ๋ถ„ํฌ๋ฅผ ํ†ตํ•ด ํŒŒ๋ผ๋ฏธํ„ฐ๋“ค์„ ์–ด๋–ป๊ฒŒ ์ถ”์ •ํ•˜๋Š”๊ฐ€์— ๋Œ€ํ•ด์„œ ์ž…๋‹ˆ๋‹ค.

 

์ด๋ฅผ MLE(Maximum Likelihood Estimation)์ด๋ผ๊ณ  ํ•˜๋Š”๋ฐ ๋ง ๊ทธ๋Œ€๋กœ Likelihood์˜ ์ตœ๋Œ€๋ฅผ ์ฐพ๋Š” ๊ฒƒ์ด๋ฏ€๋กœ ๋ฏธ๋ถ„์„ ํ•ด์„œ 0์ด ๋˜๋Š” ์ ์„ ์ฐพ๋Š” ๊ฒƒ์ด๋ผ๊ณ  ์ถ”์ธกํ•ด๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

๐Ÿ”Ž MLE(Maximum Likelihood Estimation)

1ํ•™๊ธฐ ํ™•๋ฅ ๊ณผ ํ†ต๊ณ„ ๊ณต๋ถ€๋ฅผ ํ•˜๋ฉฐ MLE์— ๋Œ€ํ•ด ๋ฐฐ์› ๋Š”๋ฐ ์ •๋ง ์—ด์‹ฌํžˆ ์ •๋ฆฌํ•œ ๋‚ด์šฉ์ด ์žˆ์–ด ์•„๋ž˜์˜ ๋‚ด์šฉ์„ ์‚ดํŽด๋ณด์‹œ๋ฉด ์ข‹์„ ๊ฒƒ ๊ฐ™์Šต๋‹ˆ๋‹ค.

 

 

 

 

๐Ÿ‘‰ MLE ์ •๋ฆฌ

๋”๋ณด๊ธฐ

https://ttl-blog.tistory.com/651?category=925533 

 

[ํ™•๋ฅ ๊ณผ ํ†ต๊ณ„] - (17) ์ตœ๋Œ€๊ฐ€๋Šฅ๋„ ๋ฐฉ๋ฒ•(์ตœ๋Œ€์šฐ๋„๋ฒ•) (Maximum Likelihood Estimator, MLE)

๊ฐ€๋Šฅ๋„(Likehood) ๊ฐ€๋Šฅ๋„๋Š” ์šฐ๋„๋ผ๊ณ ๋„ ๋ถˆ๋ฆฌ๋ฉฐ, ์–ด๋– ํ•œ ๊ฐ’์ด ๊ด€์ธก๋˜์—ˆ์„ ๋•Œ, ์ด ๊ฐ’์ด ์–ด๋–ค ํ™•๋ฅ  ๋ถ„ํฌ๋กœ๋ถ€ํ„ฐ ์™”์„์ง€์— ๋Œ€ํ•œ ํ™•๋ฅ ์„ ๋‚˜ํƒ€๋‚ด๋Š” ๊ฐ’์ž…๋‹ˆ๋‹ค. ๊ฐ€๋Šฅ๋„ ํ•จ์ˆ˜ (Likedhood Function) n๊ฐœ์˜ ์ž„์˜์˜ ํ‘œ

ttl-blog.tistory.com

 

 

 

 

์šฐ๋ฆฌ๊ฐ€ ์•Œ๊ณ ์‹ถ์€ ๊ฒƒ์€ ์ฃผ์–ด์ง„ ๋ฐ์ดํ„ฐ๋ฅผ ํ†ตํ•ด ํ™•๋ฅ  ํ•จ์ˆ˜๋ฅผ ์ตœ๋Œ€ํ™”ํ•˜๋Š” parameter์„ ์ถ”์ •ํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

 

์ฆ‰, Maximum Likelihood๋ฅผ ์ถ”์ •ํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

 

์•„๋ž˜์™€ ๊ฐ™์€ ๋ถ„ํฌ๊ฐ€ ์กด์žฌํ•  ๋•Œ ์•„๋ž˜์˜ ๊ณผ์ •์„ ๊ฑฐ์ณ ์ฐพ๊ณ ์žํ•˜๋Š” ๊ฐ’์„ ์ฐพ์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

 

 

 

 

 

 

 

 

 

์œ„์˜ ๊ทธ๋ž˜ํ”„์™€ ๊ฐ™์ด ์ด๋ฅผ ์ˆ˜ํ•™์ ์œผ๋กœ ์„œ์ˆ ํ•˜๋ฉด ์ „์ฒด ํ‘œ๋ณธ์ง‘ํ•ฉ์˜ ๊ฒฐํ•ฉํ™•๋ฅ ๋ฐ€๋„ํ•จ์ˆ˜๋ฅผ Likelihood function์ด๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

 

 

 

 

ํ•ด๋‹น ์‹์˜ ๊ฒฐ๊ณผ ๊ฐ’์ด ๊ฐ€์žฅ ์ปค์ง€๋Š” $\theta$๋ฅผ ์ถ”์ •๊ฐ’ $\hat{\theta}$๋กœ ๋ณด๋Š” ๊ฒƒ์ด ๊ฐ€์žฅ ๊ทธ๋Ÿด ๋“ฏ ํ•ฉ๋‹ˆ๋‹ค.

 

๋ฏธ๋ถ„์ด ์šฉ์ดํ•˜๊ฒŒ ํ•˜๊ธฐ ์œ„ํ•ด ์ž์—ฐ๋กœ๊ทธ๋ฅผ ์ทจํ•ด Log-likelihood fuction $L(\theta|x)$๋ฅผ ์ด์šฉํ•ฉ๋‹ˆ๋‹ค.

 

 

 

์ฐพ๊ณ ์ž ํ•˜๋Š” ํŒŒ๋ผ๋ฏธํ„ฐ $\theta$์— ๋Œ€ํ•˜์—ฌ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ํŽธ๋ฏธ๋ถ„์„ ์ง„ํ–‰ํ•œ ๋’ค ๊ทธ ๊ฐ’์ด 0์ด ๋˜๋„๋ก ํ•˜๋Š” ๊ฐ’์„ ์ฐพ์Šต๋‹ˆ๋‹ค.

 

 

 

 

์กฐ๊ธˆ ๋” generalํ•œ case๋กœ ๋ชจํ‰๊ท ๊ณผ ๋ชจ๋ถ„์‚ฐ์„ ์•Œ์ง€ ๋ชปํ•  ๋•Œ MLE๋ฅผ ์ฐพ๋Š” ๋ฐฉ๋ฒ•์„ ์•Œ์•„์•ผ ํ•˜๋Š”๋ฐ ์ด๋Š” ์•„๋ž˜์˜ ๋ธ”๋กœ๊ทธ๋ฅผ ์ฐธ๊ณ ํ•ด์ฃผ์„ธ์š”.

 

 

 

 

๐Ÿ‘‰ General Case

๋”๋ณด๊ธฐ

https://angeloyeo.github.io/2020/07/17/MLE.html

 

์ตœ๋Œ€์šฐ๋„๋ฒ•(MLE) - ๊ณต๋Œ์ด์˜ ์ˆ˜ํ•™์ •๋ฆฌ๋…ธํŠธ

 

angeloyeo.github.io

 

 

 

 

 

 

 

 

 

์ง€๊ธˆ๊นŒ์ง€ Parameter Estimation์„ ํ•˜๋Š” ๋ฐฉ๋ฒ•์— ๋Œ€ํ•ด ์•Œ์•„๋ณด์•˜์Šต๋‹ˆ๋‹ค.

 

๋‹ค์Œ ํฌ์ŠคํŒ…์—์„œ๋Š” Bayesian Classifier์˜ ์ถ”๊ฐ€ ์ •๋ณด์— ๋Œ€ํ•ด ์•Œ์•„๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค.

 

 

 

 

 

 

 

 

๐Ÿ”Ž Reference

https://bskyvision.com/453

 

๋ชจ์ˆ˜์™€ ํ‘œ๋ณธ ํ†ต๊ณ„๋Ÿ‰(=๋ชจ์ˆ˜ ์ถ”์ •์น˜)

๋ชจ์ˆ˜(parameter)๋Š” ๋ชจ์ง‘๋‹จ(population)์˜ ํŠน์„ฑ์„ ๋‚˜ํƒ€๋‚ด๋Š” ์ˆ˜์น˜๋กœ ๋ชจํ‰๊ท , ๋ชจ๋ถ„์‚ฐ, ๋ชจํ‘œ์ค€ํŽธ์ฐจ, ๋ชจ๋น„์œจ, ๋ชจ์ƒ๊ด€๊ด€๊ณ„ ๋“ฑ์ด ์žˆ๋‹ค. ํ‘œ๋ณธ ํ†ต๊ณ„๋Ÿ‰(sample statistics)์€ ํ‘œ๋ณธ(sample)์˜ ํŠน์„ฑ์„ ๋‚˜ํƒ€๋‚ด๋Š” ์ˆ˜์น˜๋กœ ํ‘œ

bskyvision.com

 

https://ratsgo.github.io/generative%20model/2017/12/17/compare/

 

discriminative vs generative · ratsgo's blog

์ด๋ฒˆ ๊ธ€์—์„œ๋Š” discriminative model๊ณผ generative model์„ ๋น„๊ตํ•ด๋ณด๋„๋ก ํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค. ์ด ๊ธ€์€ ์ „์ธ์ˆ˜ ์„œ์šธ๋Œ€ ๋ฐ•์‚ฌ๊ณผ์ •์ด 2017๋…„ 12์›”์— ์ง„ํ–‰ํ•œ ํŒจ์ŠคํŠธ์บ ํผ์Šค ๊ฐ•์˜๋ฅผ ์ •๋ฆฌํ–ˆ์Œ์„ ๋จผ์ € ๋ฐํž™๋‹ˆ๋‹ค. ๊ทธ๋Ÿผ ์‹œ์ž‘ํ•˜

ratsgo.github.io

https://gaussian37.github.io/ml-concept-gaussian_discriminant/

 

๊ฐ€์šฐ์‹œ์•ˆ ๋ถ„ํฌ์™€ ๋ถ„๋ณ„ ํ•จ์ˆ˜ (์„ ํ˜• ๋ถ„๋ณ„ ๋ถ„์„(LDA), 2์ฐจ ๋ถ„๋ณ„ ๋ถ„์„(QDA))

gaussian37's blog

gaussian37.github.io

https://angeloyeo.github.io/2020/07/17/MLE.html

 

์ตœ๋Œ€์šฐ๋„๋ฒ•(MLE) - ๊ณต๋Œ์ด์˜ ์ˆ˜ํ•™์ •๋ฆฌ๋…ธํŠธ

 

angeloyeo.github.io

 

'AI > Machine Learning' ์นดํ…Œ๊ณ ๋ฆฌ์˜ ๋‹ค๋ฅธ ๊ธ€

[ML] Regression(ํšŒ๊ท€)(1) - Linear Regression(์„ ํ˜• ํšŒ๊ท€)  (0) 2022.11.11
[ML] ๋ฒ ์ด์ง€์•ˆ ๋ถ„๋ฅ˜๊ธฐ(Bayesian Classifier)(4) - Bayesian Classifier  (0) 2022.10.14
[ML] ๋ฒ ์ด์ง€์•ˆ ๋ถ„๋ฅ˜๊ธฐ(Bayesian Classifier)(2) - ๋ฒ ์ด์ฆˆ ์ •๋ฆฌ(Bayes' Theorem)  (0) 2022.10.14
[ML] ๋ฒ ์ด์ง€์•ˆ ๋ถ„๋ฅ˜๊ธฐ(Bayesian Classifier)(1) - ์•Œ์•„๋ณด๊ธฐ  (0) 2022.10.03
[ML] NumPy & Pandas  (0) 2022.09.19
    'AI/Machine Learning' ์นดํ…Œ๊ณ ๋ฆฌ์˜ ๋‹ค๋ฅธ ๊ธ€
    • [ML] Regression(ํšŒ๊ท€)(1) - Linear Regression(์„ ํ˜• ํšŒ๊ท€)
    • [ML] ๋ฒ ์ด์ง€์•ˆ ๋ถ„๋ฅ˜๊ธฐ(Bayesian Classifier)(4) - Bayesian Classifier
    • [ML] ๋ฒ ์ด์ง€์•ˆ ๋ถ„๋ฅ˜๊ธฐ(Bayesian Classifier)(2) - ๋ฒ ์ด์ฆˆ ์ •๋ฆฌ(Bayes' Theorem)
    • [ML] ๋ฒ ์ด์ง€์•ˆ ๋ถ„๋ฅ˜๊ธฐ(Bayesian Classifier)(1) - ์•Œ์•„๋ณด๊ธฐ
    ์ดํƒœํ™
    ์ดํƒœํ™
    ๊ณต๋ถ€ํ•˜์ž ํƒœํ™์•„

    ํ‹ฐ์Šคํ† ๋ฆฌํˆด๋ฐ”