๐ค Ensemble Method
ํต๊ณํ๊ณผ ๊ธฐ๊ณ ํ์ต์์ ์์๋ธ ํ์ต๋ฒ์ ํ์ต ์๊ณ ๋ฆฌ์ฆ๋ค์ ๋ฐ๋ก ์ฐ๋ ๊ฒฝ์ฐ์ ๋นํด ๋ ์ข์ ์์ธก ์ฑ๋ฅ์ ์ป๊ธฐ ์ํด ๋ค์์ ํ์ต ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ ์ ๋๋ค.
ํต๊ณ ์ญํ์์์ ํต๊ณ์ ์์๋ธ๊ณผ ๋ฌ๋ฆฌ ๊ธฐ๊ณ ํ์ต์์์ ์์๋ธ์ ๋์ฒด ๋ชจ๋ธ๋ค์ ๋จ๋จํ ์ ํ ์งํฉ์ ๊ฐ๋ฆฌํค์ง๋ง, ์ผ๋ฐ์ ์ผ๋ก ๊ทธ๋ฌํ ๋์ฒด ๋ชจ๋ธ ์ฌ์ด์ ํจ์ฌ ๋ ์ ์ฐํ ๊ตฌ์กฐ๋ฅผ ํ์ฉํฉ๋๋ค.
์ด์ ํฌ์คํ ์์ ๋ฐฐ์ด Gradient Boost์ ๊ฒฝ์ฐ ์ฝ๊ฐ์ Overfit ํ์์ด ์ผ์ด๋ ์ ์์ต๋๋ค.
์ด๋ฒ ํฌ์คํ ์์๋ ์ด๋ฅผ ํด๊ฒฐํ XGBoost๊ธฐ๋ฒ์ ๋ํด ์์๋ณด๋๋ก ํ๊ฒ ์ต๋๋ค.
๐ XGBoost(Extreme Gradient Boost)
XGBoost๋ ์ด๋ฆ๋ถํฐ Gradient Boost์ ๋ํ์์ด๋ผ๋ ๊ฒ์ ์๋ ค์ฃผ๊ณ ์์ต๋๋ค.
GB์ ๊ฒฝ์ฐ weak learner๋ฅผ 100๊ฐ ์ด์ ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์ Overfit์ด ์ผ์ด๋ ์ ๋ฐ์ ์์ต๋๋ค.
๊ฒฐ๋ก ์ ์ผ๋ก XGBoost๋ Gradient Boost์ Overfit์ ๋ฐฉ์งํ๊ธฐ ์ํด Regularization์ ์ ์ฉํ ๋ชจ๋ธ์ ๋๋ค.
โ Similarity
์๋์ ๊ฐ์ ๋ฐ์ดํฐ๊ฐ ์กด์ฌํ ๋ Initial Guess๋ ํ๊ท ์ผ๋ก 0.5์ ๊ฐ์ ๊ฐ์ง๊ณ ์๋ค๊ณ ๊ฐ์ ํ๊ฒ ์ต๋๋ค.
๋ํ ๊ฐ๊ฐ +2, -3, -1, +4์ residual์ ๊ฐ์ง๊ณ ์๋ค๊ณ ๊ฐ์ ํ๊ฒ ์ต๋๋ค.
์ด๋ XGBoost๋ Similarity๋ผ๋ Term์ ์ฌ์ฉํฉ๋๋ค.
์ฃผ์ํด์ผ ํ ์ ์ $\sum(res)^2$๊ฐ ์๋ $(\sum{res})^2$์ ๊ฐ์ ์ฌ์ฉํ๋ค๋ ๊ฒ์ ๋๋ค.
์ด๋ฅผ Data์ ๊ฐ์๋ก ๋๋ ์ฃผ์ด ํ๊ท ์ ๊ตฌํฉ๋๋ค.( $\lambda$๋ ๋์ค์ ์ค๋ช )
ํด๋น ๊ณผ์ ์ ์ค์ ๋ก ๊ณ์ฐํ๋ฉด $Similarity = \frac{2^2}{4} = 1$์ ์ป์ ์ ์์ต๋๋ค.
Similarity๋ Residual์ ๋ํด์ ์ ๊ณฑ์ ํ๊ธฐ ๋๋ฌธ์ Residual์ฌ์ด์ zero-sum์ด ๋ฐ์ํ๋ค๋ฉด ๊ฐ์ด ๊ฐ์ํฉ๋๋ค.
๋ฐ๋๋ก ํ ๊ฐ์ง ๋ถํธ์ ๊ฐ๋ค๋ง ์กด์ฌํ ๋ Similarity๊ฐ ์ฆ๊ฐํฉ๋๋ค.
โ ๋ถ๊ธฐ์ดํ์ Similarity
์๋์ ๊ทธ๋ฆผ์์ ํ๋์ ์ข์ธก์ $Sim_L$ ์ฐ์ธก์ $Sim_R$์ด๋ผ๊ณ ํ๊ฒ ์ต๋๋ค.
์ด๋ $Sim_L = \frac{4}{1} = 4$, $Sim_R = \frac{(4 - 1 - 3)^2}{3} = 0$์ ๊ฐ์ ๊ฐ์ง๋๋ค.
์ฆ, Guess๋ก ๋ถํฐ ๊ฐ์ ๋ฐฉํฅ์ ๋ฐ์ดํฐ๋ง ์กด์ฌํ๋ค๋ฉด ๋ ๋์ Similarity์ ๊ฐ์ ๊ฐ์ง๋๋ค.
์ด๋ ์ฐ๋ฆฌ๊ฐ Tree์์ Information Gain์ ๊ตฌํ๋ฏ์ด Gain์ ๊ตฌํ ์ ์์ต๋๋ค.
$$Gain = Sim_r + SimL - Sim_{parent}$$
์ฆ, ์์ ๋ ธ๋๋ค์ Similarity์์ ๋ถ๋ชจ ๋ ธ๋์ Similarity๋ฅผ ๋นผ์ฃผ๋ฉด ๋ฉ๋๋ค.
์์๋ฅผ ํตํด ๊ณ์ฐํ๋ฉด $Gain = 0 + 4 - 1 = 3$์ธ๋ฐ ๋ง์ฝ $Gain < \gamma$๋ผ๋ฉด prune ์ฆ, ๋ถ๊ธฐํ๋ผ๋ ๋ป์ ๋๋ค.
ํด๋น ๋ฐฉ๋ฒ์ ํตํด ๊ณ์ ๋ถ๊ธฐํ๋ ๊ฒ์ด XGBoost์ ๋๋ค.
์ฃผํ์ ์ ์ ๊ธฐ์ค์ผ๋ก ํ ๋ฒ์ ๋ถ๊ธฐ๋ฅผ ๋ ๊ฑฐ์ณค๋ค๊ณ ํ๊ฒ ์ต๋๋ค
์ด๋, $Sim_L = \frac{16}{2} = 8$, $Sim_R = \frac{16}{1} = 16$ ์ด๋ฏ๋ก $Gain = 24 - 0 = 24$์ ๋๋ค.
Gain์ ํตํด ๊ณ์ ๋ถ๊ธฐ๋ฅผ ํด๊ฐ๋ฉด์ ๋ฐ์ดํฐ๋ฅผ ํ ์ชฝ์ผ๋ก ๋ชฐ์๋๊ฐ๋๋ค.
๋ฐ์ดํฐ ๋ถ๊ธฐ๋ฅผ ์ํด ์๋์ ๋ ๋ฐ์ดํฐ๊ฐ ์์ชฝ์ ์กด์ฌํ๋ค๋ฉด Similarity๊ฐ ๋จ์ด์ง๊ธฐ ๋๋ฌธ์ ๋ฐ์ดํฐ๋ฅผ ๊ณ์ ๊ตฌ์์ผ๋ก ๋ชฐ์๊ฐ์ผ๋ง ํฉ๋๋ค.
์์์ ๋งํ๋ $\lambda$ ๋ Regularization Term์ ๋๋ค.
$\lambda$๋ฅผ ์ด์ฉํ์ฌ ๋ถ๋ชจ์ ๊ฐ์ ํฌ๊ฒ ํ์ฌ Similarity๊ฐ ๋๋ฌด ํฐ ๊ฐ์ด ๋์จ๋ค๋ฉด Overfit ํ ์ ์๊ธฐ ๋๋ฌธ์ ๋๊ฐํ๊ฒ ๋ง๋ค ์ ์์ต๋๋ค.
์ฆ, Similarity ๊ฐ์ ๋ฎ์ถฐ์ Regularization ํจ๊ณผ๋ฅผ ์ฃผ๋ ๊ฒ์ ๋๋ค.
๊ทธ๋ฌ๋ฉด Gain์ ๊ฐ์ด $\gamma$๋ณด๋ค ๋ฎ์์ง๊ฒ ๋๊ณ prune์ด ๋ ๊ฐ๋ฅ์ฑ ๋์์ง๋๋ค.
์ด๋ ๋๋ฌด ๋ง์ด ๋ถ๊ธฐํ์ง ๋ง๊ณ ์ ๋นํ ๋ถ๊ธฐํ๋ผ๋ ์๋ฏธ๊ฐ ๋ฉ๋๋ค.
โ XGBoost Algorithm
XGBoost์ ์๊ณ ๋ฆฌ์ฆ์ ์ฐธ๊ณ ๋ง ํ์๊ธฐ ๋ฐ๋๋๋ค.
์ง๊ธ๊น์ง ์์๋ธ ๊ธฐ๋ฒ์ ๋ํด ์์๋ณด์์ต๋๋ค.
๋ค์ ํฌ์คํ ์์๋ NN(Neural Networks)์ ๋ํด ํ์ตํ๊ฒ ์ต๋๋ค.
'AI > Machine Learning' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[ML] Neural Network(1) - Introduction (0) | 2022.12.01 |
---|---|
[ML] Ensemble Method(6) - Summary (0) | 2022.11.30 |
[ML] Ensemble Method(4) - Gradient Boost (0) | 2022.11.29 |
[ML] Ensemble Method(3) - AdaBoost (0) | 2022.11.29 |
[ML] Ensemble Method(2) - Bagging & Random Forest (0) | 2022.11.26 |