AI/Machine Learning

[ML] Ensemble Method(4) - Gradient Boost

์ดํƒœํ™ 2022. 11. 29. 10:25

๐Ÿค” Ensemble Method

ํ†ต๊ณ„ํ•™๊ณผ ๊ธฐ๊ณ„ ํ•™์Šต์—์„œ ์•™์ƒ๋ธ” ํ•™์Šต๋ฒ•์€ ํ•™์Šต ์•Œ๊ณ ๋ฆฌ์ฆ˜๋“ค์„ ๋”ฐ๋กœ ์“ฐ๋Š” ๊ฒฝ์šฐ์— ๋น„ํ•ด ๋” ์ข‹์€ ์˜ˆ์ธก ์„ฑ๋Šฅ์„ ์–ป๊ธฐ ์œ„ํ•ด ๋‹ค์ˆ˜์˜ ํ•™์Šต ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์‚ฌ์šฉํ•˜๋Š” ๋ฐฉ๋ฒ• ์ž…๋‹ˆ๋‹ค.

 

 ํ†ต๊ณ„ ์—ญํ•™์—์„œ์˜ ํ†ต๊ณ„์  ์•™์ƒ๋ธ”๊ณผ ๋‹ฌ๋ฆฌ ๊ธฐ๊ณ„ ํ•™์Šต์—์„œ์˜ ์•™์ƒ๋ธ”์€ ๋Œ€์ฒด ๋ชจ๋ธ๋“ค์˜ ๋‹จ๋‹จํ•œ ์œ ํ•œ ์ง‘ํ•ฉ์„ ๊ฐ€๋ฆฌํ‚ค์ง€๋งŒ, ์ผ๋ฐ˜์ ์œผ๋กœ ๊ทธ๋Ÿฌํ•œ ๋Œ€์ฒด ๋ชจ๋ธ ์‚ฌ์ด์— ํ›จ์”ฌ ๋” ์œ ์—ฐํ•œ ๊ตฌ์กฐ๋ฅผ ํ—ˆ์šฉํ•ฉ๋‹ˆ๋‹ค.

 

์ด์ „ ํฌ์ŠคํŒ…์—์„œ ๋ฐฐ์šด Boosting ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ๋ฐœ์ „์‹œํ‚จ Gradient Boost์— ๋Œ€ํ•ด ์•Œ์•„๋ณด๋„๋ก ํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

๐Ÿ”Ž Gradient Boost

Gradient Boost๋ฅผ ์•Œ๊ธฐ ์œ„ํ•ด Gradient์˜ ๊ฐœ๋…์„ ์•Œ์•„์•ผ ํ•ฉ๋‹ˆ๋‹ค.

 

Gradient๋Š” ๊ธฐ์šธ๊ธฐ ์ฆ‰ 1์ฐจ ๋ฏธ๋ถ„ ๊ฐ’์ด๋ผ๋Š” ๋œป์ž…๋‹ˆ๋‹ค.

 

๋‚˜์ค‘์— ๋ฐฐ์šฐ๊ฒŒ ๋  NN๊ณผ ๋”ฅ๋Ÿฌ๋‹์•Œ๊ณ ๋ฆฌ์ฆ˜์ด ๊ฒฐ๊ตญ์—๋Š” ๊ธฐ์šธ๊ธฐ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•™์Šต์„ ์ง„ํ–‰ํ•ฉ๋‹ˆ๋‹ค.

 

Gradient Boost๋Š” ์ด๋ฅผ Boosting์— ์ ์šฉํ–ˆ๋‹ค๊ณ  ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

 

 

 

 

 

 

 

 

โœ ๊ฒฝ์‚ฌํ•˜๊ฐ•๋ฒ•(Gradient Descent)

์•„๋ž˜์™€ ๊ฐ™์€ $J(a)$๋ผ๋Š” ๋ชฉ์  ํ•จ์ˆ˜๊ฐ€ ์กด์žฌํ•œ๋‹ค๊ณ  ํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค.

 

์ด๋•Œ $a_k$๋Š” ๋ชจ๋ธ์˜ solution์ด์ž weight, parameter์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.

 

 

 

 

 

์ด๋•Œ $a_k$๋ฅผ sequential ํ•˜๊ฒŒ ์—…๋ฐ์ดํŠธ๋ฅผ ์ ์šฉํ•˜๋Š”๋ฐ ์•„๋ž˜์™€ ๊ฐ™์€ ๋ฐฉ๋ฒ•์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.

 

 

 

 

๊ทธ๋ž˜ํ”„๋ฅผ ์‚ดํŽด๋ณด์•˜์„ ๋•Œ ๋ชฉ์ ํ•จ์ˆ˜๋Š” $a$์— ๋Œ€ํ•œ ํ•จ์ˆ˜์ž…๋‹ˆ๋‹ค.

 

์ด๋•Œ ๋ชฉ์ ํ•จ์ˆ˜๋Š” Loss Function, Cost Function์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.

 

๊ทธ๋Ÿฌ๋ฏ€๋กœ ์šฐ๋ฆฌ๋Š” ํ•ด๋‹น ํ•จ์ˆ˜์˜ ์ตœ์†Œ๊ฐ’์„ ์ฐพ์œผ๋ ค๊ณ  ๋…ธ๋ ฅํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ($min(J(a))$์„ ์ฐพ๋Š”๋‹ค.)

 

 

 

์ตœ์†Œํ™”๋ฅผ ์œ„ํ•ด์„œ ๊ทธ๋ฆผ์˜ ๊ฒฝ์šฐ์—๋Š” ํ•œ ๋ฒˆ๋งŒ ๋ฏธ๋ถ„์„ ํ•˜๋ฉด ๋˜์ง€๋งŒ ์‹ค์ œ LSM(Least Square Method)๋ฅผ ์‚ฌ์šฉํ•˜์ง€ ๋ชปํ•œ๋‹ค๊ณ  ๊ฐ€์ •ํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค.(ํ•œ ๋ฒˆ์˜ ๋ฏธ๋ถ„์œผ๋กœ ํ•ด๊ฒฐ์ด ์•ˆ ๋œ๋‹ค๊ณ  ๊ฐ€์ •)

 

์ด๋•Œ ์šฐ๋ฆฌ๋Š” $a_k$๋ฅผ ์™ผ์ชฝ์œผ๋กœ ์กฐ๊ธˆ ์ด๋™์„ ํ•˜์—ฌ ๋” ์ž‘์€ ๊ฐ’์„ ์ฐพ์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

 

ํ•ด๋‹น ๊ณผ์ •์„ ๋ฐ˜๋ณตํ•˜๋‹ค๊ฐ€ 0์ด ๋  ๋•Œ Optimalํ•œ ๊ฐ’์„ ์ฐพ์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

 

 

 

์‰ฝ๊ฒŒ ๋น„์œ ๋ฅผ ํ•˜์ž๋ฉด ๋“ฑ์‚ฐ์„ ํ•  ๋•Œ ํ•˜์‚ฐ์„ ํ•˜๊ธฐ ์œ„ํ•ด์„œ ์šฐ๋ฆฌ๋Š” ๊ฒฝ์‚ฌ๋ฉด์˜ ๋ฐ˜๋Œ€๋กœ ์ด๋™ํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค.

 

์ด๋•Œ ํ‰์ง€๋ฅผ ์ฐพ๊ฒŒ ๋œ๋‹ค๋ฉด ์ด๋ฅผ Local Optimum์ด๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

 

 

 

์ฆ‰, ๋ฏธ๋ถ„์„ ํ•œ ๋’ค ๊ธฐ์šธ๊ธฐ์˜ ๋ฐ˜๋Œ€๋ฐฉํ–ฅ์œผ๋กœ ์›€์ง์—ฌ์•ผ ํ•œ๋‹ค๋Š” ๋œป์ž…๋‹ˆ๋‹ค.

 

์ด๋ฅผ ์ˆ˜์‹์œผ๋กœ ๋‚˜ํƒ€๋‚ด๋ฉด ์•„๋ž˜์˜ ์ˆ˜์‹๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค.

 

 

์ด๋•Œ Global Optimum ์€ ์•„๋‹ˆ๋”๋ผ๋„ Local Optimum์— ๋„๋‹ฌํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

 

 

 

ํ•ด๋‹น ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์ด์šฉํ•œ ๊ฒƒ์ด Gradient Boost ์ž…๋‹ˆ๋‹ค.

 

 

 

 

 

Example

์˜ˆ์‹œ๋ฅผ ํ†ตํ•ด Gradient Boost๋ฅผ ์•Œ์•„๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค.

 

Regression์— Gradient Boost๋ฅผ ์ ์šฉํ•œ ์˜ˆ์ œ๋ฅผ ์‚ดํŽด๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค.

 

๋”๋ณด๊ธฐ

ํ•ด๋‹น ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ์•„๋ž˜์™€ ๊ฐ™์€ ์ˆœ์„œ๋กœ ์ด๋ค„์ง‘๋‹ˆ๋‹ค.

 

1. y๊ฐ’์— ํ•ด๋‹นํ•˜๋Š” ๊ฐ’๋“ค์˜ ํ‰๊ท ์„ ํ†ตํ•ด Initial Guess๋ฅผ ์ง„ํ–‰ํ•ฉ๋‹ˆ๋‹ค. 

2. ์ค‘๊ฐ„๊ณผ์ •์˜ ์ž”์ฐจ($y - \hat{y}$)๋ฅผ ๊ณ„์‚ฐํ•œ ๋’ค ์ž”์ฐจ๋ฅผ ๋งž์ถ”๋Š” Tree๋ฅผ ๊ตฌ์„ฑํ•ฉ๋‹ˆ๋‹ค. ์ด๋•Œ Tree๋Š” Underfit ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜๊ธฐ ๋•Œ๋ฌธ์— 2~4์˜ depth๋ฅผ ๊ฐ€์ง‘๋‹ˆ๋‹ค. ์ด๋•Œ ๋น„์Šทํ•œ ์ž”์ฐจ๋ฅผ ๊ฐ€์ง€๋Š” ๋ฐ์ดํ„ฐ๋ฅผ ๋ฌถ์–ด Leaf Node๋กœ ๋‘” ๋‹ค์Œ ํ•ด๋‹น ๊ฐ’๋“ค์˜ ์ž”์ฐจ์˜ ํ‰๊ท ์„ ๊ตฌํ•ฉ๋‹ˆ๋‹ค.(์•„๋ž˜์˜ ๊ทธ๋ฆผ์˜ ๊ฒฝ์šฐ ์ž„์˜๋กœ ์˜ˆ์ธก๊ฐ’์„ ์‚ฝ์ž…ํ–ˆ์Šต๋‹ˆ๋‹ค)

3. ์‚ฌ์šฉ์ž๊ฐ€ ์„ค์ •ํ•œ ํ•˜์ดํผ ํŒŒ๋ผ๋ฏธํ„ฐ์ธ $\alpha$๋ฅผ ํ•ด๋‹น Tree์˜ ๊ฐ’๊ณผ ๊ณฑํ•œ ๊ฐ’์„ ์ด์ „ Tree์— ๋”ํ•˜์—ฌ ๋‹ค์Œ $\hat{y}$๋ฅผ ์„ค์ •ํ•ฉ๋‹ˆ๋‹ค.

4. 2, 3์„ ๋ฐ˜๋ณต์œผ๋กœ ์ง„ํ–‰ํ•ฉ๋‹ˆ๋‹ค.

5. 4์™€ ๋™์ผ

6. ๋” ์ด์ƒ์˜ ๋ณ€ํ™”๊ฐ€ ์—†๋‹ค๊ณ  ๋А๊ปด์งˆ ๋•Œ๊ฐ€์ง€ ์œ„์˜ ๊ณผ์ •์„ ๋ฐ˜๋ณตํ•ฉ๋‹ˆ๋‹ค. 

 

์ด๋ฅผ ํ‘œ์™€ Tree๋ฅผ ํ†ตํ•ด ๋‚˜ํƒ€๋‚ด๋ฉด ์•„๋ž˜์™€ ๊ฐ™์Šต๋‹ˆ๋‹ค.

 

 

 

๊ฒฐ๋ก ์ ์œผ๋กœ residual์„ ๋งž์ถ”๋Š” Tree๋ฅผ ๋งŒ๋“œ๋Š” ๊ฒƒ์ด ์ตœ์ข… ๋ชฉ์ ์ž…๋‹ˆ๋‹ค.

 

ํ•ด๋‹น Residual๊ฐ’์„ ์ ์  ๊ฐ์†Œ์‹œ์ผœ์„œ ์ค„์—ฌ๋ผ!

 

 

 

 

 

โœ  Gradient Tree Boosting Algorithm for Regression

Gradient Tree Boosting Algorithm์„ ์‚ดํŽด๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค.

 

 

 

 

 

์ „์ฒด์ ์œผ๋กœ ๋ณด์•˜์„ ๋•Œ initialize์—์„œ ํ‰๊ท ์„ ์‚ฝ์ž…ํ•˜๋ผ๋Š” ๋œป์ž…๋‹ˆ๋‹ค.

 

์ดํ›„ MSE๋ฅผ ์ƒ๊ฐํ•˜์—ฌ L์€ ์•„๋ž˜์™€ ๊ฐ™๋‹ค๊ณ  ํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค.

 

 

$r_{iM}$์— ๊ธฐ์šธ๊ธฐ ๊ฐ์†Œ(Gradient Descent)๊ฐ’์„ ์ž…๋ ฅํ•ฉ๋‹ˆ๋‹ค.

 

์œ„์˜ ์ˆ˜์‹์„ ๋ฏธ๋ถ„ํ•˜๋ฉด ์•„๋ž˜์™€ ๊ฐ™๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

 

์ด๋ฅผ ์ •๋ฆฌํ•˜๋ฉด ์•„๋ž˜์™€ ๊ฐ™์Šต๋‹ˆ๋‹ค.

 

 

์ฆ‰, $y_i - f(x_i)$๋Š” ์ž”์ฐจ๋ฅผ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.

 

Residual์„ ๋งž์ถ”๋Š” Tree๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๊ฒƒ์ด ์šฐ๋ฆฌ์˜ ๋ชฉ์ ์ด๊ธฐ ๋•Œ๋ฌธ์— Loss Function์˜ Gradient์˜ ์—ญ๋ฐฉํ–ฅ์œผ๋กœ ์ด๋™ํ•˜์—ฌ ์ด๋ฅผ ๋งž์ถ”๊ฒ ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

 

๊ฒฐ๊ตญ "Residual์„ ๋งž์ถ”๋Š” Tree๋ฅผ ๋งŒ๋“ ๋‹ค = Gradient Descent๋ฅผ ์‹คํ–‰ํ•œ๋‹ค"๋ฅผ ์˜๋ฏธํ•˜๋Š” ๊ฒƒ์„ ์•Œ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

 

 

 

์œ„์˜ ์•Œ๊ณ ๋ฆฌ์ฆ˜์—์„œ $R_{jm}$์—์„œ $j$๋Š” Leaf Node Number์„ ์˜๋ฏธํ•˜๋Š”๋ฐ, Leaf Node ๊ฐ๊ฐ ํ‰๊ท ์„ ์„ค์ •ํ•ด ์คฌ์Šต๋‹ˆ๋‹ค.

 

์ด๋•Œ ๊ฐ๊ฐ์˜ terminal region์ด๊ธฐ ๋•Œ๋ฌธ์— Leaf Node๋ฅผ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.

 

์ด๋ฅผ ์ตœ์†Œํ™” ํ•˜๋Š” ๊ฐ๋งˆ ๊ฐ’์„ ์ฐพ์•„์„œ ์ด๋ฅผ $r_Pjm}$์— ์‚ฝ์ž…ํ•ฉ๋‹ˆ๋‹ค.

 

ํ•ด๋‹น ๊ณผ์ •์—์„œ์˜ Loss Function์€ ์•„๋ž˜์™€ ๊ฐ™์Šต๋‹ˆ๋‹ค.

 

 

 

 

 

์ด๋ฅผ ๋ฏธ๋ถ„ํ–ˆ์„ ๋•Œ 0์ด ๋˜๋Š” ๊ฐ’์„ ์ฐพ์œผ๋ฉด $\sum\gamma = \frac{\sum(y_i - f_{m-1}(x_i))}{1}$์ผ ๋•Œ ๋งŒ์กฑํ•ฉ๋‹ˆ๋‹ค.

 

์ตœ์ข…์ ์œผ๋กœ $\gamma = \frac{\sum(y_i - f_{m-1}(x_i))}{n}$์ผ ๋•Œ๋ฅผ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.

 

์ด๊ฒƒ์ด ์˜๋ฏธํ•˜๋Š”๊ฒƒ์ด ๊ฐ Leaf Node์˜ ๊ฐ’์€ ํ‰๊ท ์ด๋ผ๋Š” ๊ฒƒ๊ณผ ๋™์ผํ•ฉ๋‹ˆ๋‹ค.

 

๋‹ค์Œ ์†”๋ฃจ์…˜์—์„œ ํ•ด๋‹น ๊ฐ๋งˆ์˜ ๊ฐ’์„ ๋”ํ•ด์ค๋‹ˆ๋‹ค.

 

 

 

ํ•ด๋‹น ์†”๋ฃจ์…˜๋“ค์„ ๋ชจ๋‘ ๋”ํ•œ ๊ฐ’์ด $\hat{f(x)} = f_M(x)$์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.

 

 

 

์ •๋ฆฌํ•˜์ž๋ฉด ์œ„์™€ ๊ฐ™์ด Gradient Descent๋ฅผ Boosting์— ์ ์šฉํ•˜๋Š” ๋ฐฉ๋ฒ•์ด Gradient Boost์ž…๋‹ˆ๋‹ค.

 

 

 

 

 

 

 

โœ Gradient Tree Boosting Algorithm for Classification

Classification ์˜ ๊ฒฝ์šฐ ๋‚˜๋จธ์ง€๋Š” ๋ชจ๋‘ ๋™์ผํ•˜์ง€๋งŒ Loss Function์ด ๋‹ค๋ฆ…๋‹ˆ๋‹ค.

 

Logistic Regression์—์„œ ํ•™์Šตํ–ˆ๋˜ ๋‚ด์šฉ ์ค‘ Odds, Log Odds์— ๋Œ€ํ•œ ๊ฐœ๋…์„ ๋จผ์ € ์ดํ•ดํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค.

 

 

 

 

 

์งง๊ฒŒ ์„ค๋ช…ํ•˜์ž๋ฉด ํ•ด๋‹น ํ•จ์ˆ˜๋Š” Logistic Sigmoid ํ•จ์ˆ˜๋ผ๋Š” ๊ฒƒ์„ ์•Œ๊ณ  ๊ฐ€์‹œ๋ฉด ๋ฉ๋‹ˆ๋‹ค.

 

Refression์—์„œ์™€ ๊ฐ™์ด ์ด๋ฅผ ์ง„ํ–‰ํ•œ๋‹ค๋ฉด ์•„๋ž˜์˜ ์˜ˆ์‹œ์™€ ๊ฐ™์Šต๋‹ˆ๋‹ค.

 

Example

๋”๋ณด๊ธฐ

์ฃผ์˜ํ•ด์•ผ ํ•  ๊ฒƒ์€ $\hat{y}$๊ฐ’์„ ์ง์ ‘ ๊ฑด๋“œ๋ ธ๋˜ Regression๊ณผ ๋‹ฌ๋ฆฌ, Classification์—์„œ๋Š” $Log(odds)$๋ฅผ ๋ˆ„์ ํ•ด์•ผ ํ•œ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

 

4๋ฒˆ ๊ณผ์ •์—์„œ Tree0์˜ $Log(odds) = 0.41$์ด๊ณ  Tree1์˜ ์ฒซ ๋ฒˆ์งธ Leaf Node์˜ ๊ฐ’์ด 1.66์ด๋ฏ€๋กœ $0.41 + 0.1\times1.66 = 0.4266$์„ ์–ป์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

 

์ด๋ฅผ ๋‹ค์‹œ Probability๋กœ ๋ณ€ํ™˜ํ•˜๋ฉด 0.61์ด๋ผ๋Š” ๊ฐ’์„ ์–ป์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

 

 

 

 

 

์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์‚ดํ‘œ๋ณด๋ฉด ์•„๋ž˜์™€ ๊ฐ™์Šต๋‹ˆ๋‹ค.

 

 

 

 

์•ž์—์„œ ์‚ดํŽด๋ณธ Gradient Tree Boosting Algorithm for Regression๊ณผ Loss Function์„ ์ œ์™ธํ•˜๊ณ  ๋™์ผํ•ฉ๋‹ˆ๋‹ค.

 

 Regression์˜ ๊ฒฝ์šฐ Loss Function์„ MSE๋กœ ๋ด๋„ ๋ฌด๋ฐฉํ–ˆ๊ธฐ ๋•Œ๋ฌธ์— ๊น”๋”ํ•˜๊ฒŒ ์ „๊ฐœ๊ฐ€ ๋์ง€๋งŒ, Classification์˜ ๊ฒฝ์šฐ MSE์™€ ๊ฐ™์€ ๋ฏธ๋ถ„ ๊ฐ€๋Šฅํ•œ Loss Function์„ ๋งŒ๋“ค๊ธฐ ์–ด๋ ค์›Œ์„œ ์œ„์™€ ๊ฐ™์€ ๋ณต์žกํ•œ ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.

 

์œ„์˜ ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ๋ฒ ๋ฅด๋ˆ„์ด ๋ถ„ํฌ๋กœ ๋ถ€ํ„ฐ ์ƒ์„ฑ๋˜๋Š”๋ฐ ์•„๋ž˜์™€ ๊ฐ™์€ ๊ณผ์ •์„ ๊ฑฐ์นฉ๋‹ˆ๋‹ค.

 

 

 

 

 

 

์šฐ๋ฆฌ๋Š” Loss Function๊ณ„์‚ฐํ•˜์—ฌ Gradient Descent๋ฅผ ์ง„ํ–‰ํ•ด์•ผ ํ•˜๋Š”๋ฐ Loss Function์ด ๋‚ฎ์„ ์ˆ˜๋ก ์ข‹๊ธฐ ๋•Œ๋ฌธ์— ๋†’์„ ์ˆ˜๋ก ์ข‹์€ Likelihood๋ฅผ negativeํ•˜๊ฒŒ ๊ณ„์‚ฐํ•ฉ๋‹ˆ๋‹ค.

 

์ตœ์ข…์ ์œผ๋กœ Negative Log Likelihood๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.

 

ํ•ด๋‹น ์‹์„ ์ „๊ฐœํ•˜๋ฉด ์•„๋ž˜์™€ ๊ฐ™์Šต๋‹ˆ๋‹ค.

 

 

 

 

 

๊ฒฐ๋ก ์‹์œผ๋กœ ์•„๋ž˜์™€ ๊ฐ™์€ ์ˆ˜์‹์„ ์–ป์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

 

 

 

ํ•ด๋‹น ์‹์„ ์ตœ์†Œํ™” ํ•˜๋Š” ๊ฐ’์„ ์ฐพ๋Š” ๊ฒƒ์ด ์œ„์˜ ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ํ•ด๊ฒฐํ•˜๋Š” ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค.

 

์œ„์˜ ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ํ•ด๊ฒฐํ•˜๋‹ค๋ณด๋ฉด $ y_i - p_i$๋ผ๋Š” ์ค‘๊ฐ„ ์ž”์ฐจ๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

 

 

 

์ผ๋ฐ˜ Regression๊ณผ์˜ ๊ฐ€์žฅ ํฐ ์ฐจ์ด์ ์€ ๊ฐœ๋ณ„ ๋…ธ๋“œ์˜ Output์„ Regression์—์„œ๋Š” ํ‰๊ท ์„ ํ†ตํ•ด ๊ตฌํ–ˆ๋Š”๋ฐ, Classification์˜ ๊ฒฝ์šฐ ์•„๋ž˜์™€ ๊ฐ™์€๊ฐ’์„ Leaf์˜ Output ๊ฐ’์œผ๋กœ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.

 

 

 

 

 

 

์ฆ๋ช…์€ ์ƒ๋žตํ•˜๋„๋ก ํ•˜๊ณ  ๊ฐ€์žฅ ์ค‘์š”ํ–ˆ๋˜ ๊ฒƒ์„ ๊ฐ•์กฐํ•˜๊ณ  ๋งˆ์น˜๋„๋ก ํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค.

 

๋ชฉ์ ํ•จ์ˆ˜์ธ $f(x_i)$๋Š” $Log(odds)$๋ฅผ ์˜๋ฏธํ•˜๋ฉฐ ์ด๋Š” ํŠธ๋ฆฌ์˜ Leaf Node์˜ output์„ ์˜๋งˆํ•œ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

 

์ฆ๋ช…์ด ๊ถ๊ธˆํ•˜์‹  ๋ถ„์€ ์•„๋ž˜์˜ ๋งํฌ๋ฅผ ์ฐธ๊ณ ํ•˜์‹œ๊ธฐ ๋ฐ”๋ž๋‹ˆ๋‹ค.

 

 

 

 

โœ Gradient Boost ํŠน์ง•

Gradient Boost์˜ ๊ฒฝ์šฐ weak learner๋“ค์˜ Leaf Node ๊ฐœ์ˆ˜๋Š” ์ผ๋ฐ˜์ ์œผ๋กœ $2^3 ~ 2^5$์ด๋ฉฐ depth๋Š” 3~5์ •๋„๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.

 

์ฆ‰, Underfitํ•œ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•œ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

 

Tree์˜ ๊ฒฝ์šฐ ์ผ๋ฐ˜์ ์œผ๋กœ 100์ •๋„์˜ Iteration์„ ๊ฐ€์ง‘๋‹ˆ๋‹ค.

 

๋˜ํ•œ Learning Rate๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ Log(odds)๊ฐ’์˜ ๋น„์œจ์„ ์กฐ์ •ํ•ด์ค๋‹ˆ๋‹ค.

 

 

 

 

๋‹ค์Œ ํฌ์ŠคํŒ…์—์„œ๋Š” XGBoost ๊ธฐ๋ฒ•์— ๋Œ€ํ•ด ์•Œ์•„๋ณด๋„๋ก ํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

๐Ÿ”Ž Reference

https://analysisbugs.tistory.com/225

 

[Machine Learning] Gradient Boosting (Classification)

๋ณธ ํฌ์ŠคํŒ…์€ STATQUEST ์œ ํŠœ๋ธŒ ์ฑ„๋„์„ ์ฐธ๊ณ ํ•˜์˜€์Šต๋‹ˆ๋‹ค. ์œ„์˜ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด์„œ 3๊ฐ€์ง€ input attribute๋กœ Love troll 2๋ฅผ ์˜ˆ์ธกํ•˜๊ณ ์ž ํ•œ๋‹ค. Classification Task ์ด๋ฏ€๋กœ ์˜ค์ฐจ ํ•จ์ˆ˜๋ฅผ Cross Entropy๋กœ ์ •์˜ํ•œ๋‹ค. Step 1) โ–ถ

analysisbugs.tistory.com