๐คEnsemble Method(์์๋ธ ํ์ต๋ฒ)
ํต๊ณํ๊ณผ ๊ธฐ๊ณ ํ์ต์์ ์์๋ธ ํ์ต๋ฒ์ ํ์ต ์๊ณ ๋ฆฌ์ฆ๋ค์ ๋ฐ๋ก ์ฐ๋ ๊ฒฝ์ฐ์ ๋นํด ๋ ์ข์ ์์ธก ์ฑ๋ฅ์ ์ป๊ธฐ ์ํด ๋ค์์ ํ์ต ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ ์ ๋๋ค.
ํต๊ณ ์ญํ์์์ ํต๊ณ์ ์์๋ธ๊ณผ ๋ฌ๋ฆฌ ๊ธฐ๊ณ ํ์ต์์์ ์์๋ธ์ ๋์ฒด ๋ชจ๋ธ๋ค์ ๋จ๋จํ ์ ํ ์งํฉ์ ๊ฐ๋ฆฌํค์ง๋ง, ์ผ๋ฐ์ ์ผ๋ก ๊ทธ๋ฌํ ๋์ฒด ๋ชจ๋ธ ์ฌ์ด์ ํจ์ฌ ๋ ์ ์ฐํ ๊ตฌ์กฐ๋ฅผ ํ์ฉํฉ๋๋ค.
์ด์ ํฌ์คํ ์์ ๋ฐฐ์ด Bagging์ ๊ฒฝ์ฐ BaseLearner๋ก Overfitํ ๋ชจ๋ธ๋ค์ ์ฌ์ฉํ๋ค๊ณ ํ์ต๋๋ค.
์ฆ, Low Bias / High Variance์ ํน์ง์ ๊ฐ์ง๊ณ ์๋ ๋ชจ๋ธ์ smoothing ํจ๊ณผ๋ฅผ ํตํด ์ฑ๋ฅ์ ๋์ฌ์ฃผ๋ ๋ฐฉ์์ ์ฌ์ฉํฉ๋๋ค.
๋ํ ์ด๋ค์ ๋ณ๋ ฌ์ ์ผ๋ก ์ฌ์ฉํฉ๋๋ค.
๊ต์ฅํ ์ข์ Performance๋ฅผ ๋ณด์ฌ์ฃผ๋ ๋ํ์ ์ธ Bagging ๋ชจ๋ธ์ Random Forest์์ต๋๋ค.
์ด๋ฒ ํฌ์คํ ์์๋ ์์๋ธ ํ์ต๋ฒ ์ค Bagging๊ณผ ๋ฐ๋๋๋ ๊ฐ๋ ์ธ Boosting ๊ธฐ๋ฒ์ ๋ํด ๋ฐฐ์๋ณด๊ฒ ์ต๋๋ค.
๐ Boosting Ensemble
Boosting ๊ธฐ๋ฒ์ High bias / Low Variance ๋ชจ๋ธ์ ํตํด์ bias๋ฅผ cuttingํ๋ ๊ธฐ๋ฒ์ ๋๋ค.
์ฆ, Underfitํ ๋ชจ๋ธ๋ค์ ํตํด ์ฑ๋ฅ์ ๋์ด๋ ๋ฐฉ์์ด๋ผ๊ณ ํ ์ ์์ต๋๋ค.
Bagging์ ๋ณ๋ ฌ์ ์ด๋ผ๊ณ ํ๋ค๋ฉด Boosting์ ๊ฒฝ์ฐ์๋ ์์ฐจ์ (Sequential)์ธ ํ์ต์ ์งํํฉ๋๋ค.
Boosting์ ๊ฒฝ์ฐ Underfitํ ๋ชจ๋ธ์ ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์ ํญ์ View Point๊ฐ ๋ฌ๋ผ์ง๋๋ค.
๊ฐ Iterration ๋ง๋ค View Point๋ฅผ ๋ค๋ฅด๊ฒ ํ๊ธฐ ์ํ ์์ ์ด ํ์ํ๊ธฐ ๋๋ฌธ์ ๋ฐ์ดํฐ๋ฅผ ์กฐ๊ธ ๋ฐ๊พธ๋ ๊ฒ์ผ๋ก๋ ์ด๋ ค์์ด ์์ต๋๋ค.
๊ฐ์ฅ ๊ธฐ๋ณธ์ ์ธ Boosting ๊ธฐ๋ฒ์๋ AdaBoost๊ฐ ์์ต๋๋ค.
โ AdaBoost
๊ฐ๋ตํ ์ค๋ช ํ์๋ฉด training error์ ๋น๋กํ๊ฒ ๋งค๋ฒ sequence ๋ง๋ค ์ ํ์ ํ๋ ๊ธฐ๋ฒ์ ๋๋ค.
์๋์ ๊ทธ๋ฆผ์ ํตํด AdaBoost์ ๊ณผ์ ์ ์์๋ณด๊ฒ ์ต๋๋ค.
1. ๋จผ์ ๋ฐ์ดํฐ๋ฅผ sampling์ ํ์ฌ $C_1$๊ณผ ๊ฐ์ด ๋ชจ๋ธ์ ์์ฑํฉ๋๋ค.(์ด๋ Boostrapping์ ์๋๋ฐ, Boostrapping์ ๊ฒฝ์ฐ ๋ฐ์ดํฐ์ ์ฌ์ด์ฆ๋ฅผ ์ ์งํ๊ธฐ ๋๋ฌธ์ ๋๋ค.)
2. ํด๋น ๋ชจ๋ธ์์ ํ๋ฆฐ ๋ฐ์ดํฐ๋ฅผ ์์ฃผ๋ก sampling์ ์งํํฉ๋๋ค.
3. 2๋ฒ๊ณผ์ ์ ๋ฐ๋ณตํฉ๋๋ค.
4. ํด๋น ๋ชจ๋ธ๋ค์ ์กฐํฉํ์ฌ ๋ง์ง๋ง ๋ชจ๋ธ์ ์์ฑํฉ๋๋ค.
์์ ๋ฐฉ๋ฒ์ ํตํด ๊ฐ๊ฐ์ Sequence๋ค์ด ์๋ก ๋ค๋ฅธ Viewpoint๋ฅผ ๊ฐ์ง ์ ์์ต๋๋ค.
๊ทธ๋ฌ๋ฏ๋ก Boosting์ ๊ฒฝ์ฐ sequentialํ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ๋ค๊ณ ํ ์ ์์ต๋๋ค.
AdaBoost ์๊ณ ๋ฆฌ์ฆ ๋ถ์
AdaBoost์ ๊ฒฝ์ฐ ํด๋น ์๊ณ ๋ฆฌ์ฆ ๊น์ง๋ง ํด๋ Bagging๋ณด๋ค ์ข์ง ์๋ค๋ ํ์ด ๋ง์์ต๋๋ค.
ํด๋น ์๊ณ ๋ฆฌ์ฆ์ ๋ถ์์ ์งํํ๊ฒ ์ต๋๋ค.
1. ๋ชจ๋ ๊ฐ์ค์น๋ฅผ ๋์ผํ๊ฒ ๋ถ์ฌํฉ๋๋ค. ( $w_i = \frac{1}{N}$ )
2. ์ดํ Sequential ํ๊ฒ 1๋ถํฐ M๊น์ง Boosting์ ์งํํฉ๋๋ค.
(a) ๊ฐ๊ฐ์ sequence์์ ํ์ต์ ์งํํฉ๋๋ค. ์ด๋ $w_i$์ weight๋ฅผ ๊ฐ์ง๊ณ ํ์ต์ ์งํํฉ๋๋ค.
(b) error๋ฅผ ๊ณ์ฐํฉ๋๋ค. $y_i \neq G_m(x_i)$๋ ์์ธก์ ์คํจํ ๊ฐ์ ์๋ฏธํฉ๋๋ค. ์ฆ, Model์ ํ์ต ์๋ฌ(์ ์ฒด ๊ฐ์ค์น ํฉ์ ๋ํ ํ๋ฆฐ ๊ฐ์ ๊ฐ์ค์น์ ํฉ)๋ฅผ ์๋ฏธํฉ๋๋ค.
(c) $\alpha_m$์ ๊ณ์ฐํ๋๋ฐ ์ด๋ ์๋ฌ์ ๋ํ ์ ํ๋๋ฅผ ์๋ฏธํฉ๋๋ค. ๊ทธ๋ฌ๋ฏ๋ก $\alpha_m$์ ๊ฐ์ด ํด ์๋ก ์ ํํ ๋ชจ๋ธ์ด๋ฉฐ ์์ ์๋ก ๋ถ์ ํํ ๋ชจ๋ธ์์ ์๋ฏธํฉ๋๋ค.
(d) weight๋ฅผ ์ ๋ฐ์ดํธ ํฉ๋๋ค. i๋ฒ์งธ์ weight๋ฅผ $exp(\alpha_m \times I(y_i \neq G_m(x)))$ ์ผ๋ก ์ ๋ฐ์ดํธ ํฉ๋๋ค. ์ฆ, ํ๋ฆฐ ๊ฐ์ ๋ํด์๋ง $alpha_m$์ weight์ ๊ณฑํด์ค๋๋ค. ๊ทธ๋ฌ๋ฏ๋ก ์ ํํ ๋ชจ๋ธ์ ์ฌ์ฉํ์์๋ ๋ถ๊ตฌํ๊ณ ํ๋ฆฐ ๊ฐ๋ง์ ์ฐ์ฐํ๊ธฐ ๋๋ฌธ์ ํด๋น weight๋ฅผ ์ฆ๊ฐ์ํค๋ ๊ฒ์ ๋๋ค. ๋ฐ๋๋ก ๋ถ์ ํํ ๋ชจ๋ธ์ ์ฌ์ฉํ๋ค๋ฉด weight๊ฐ ์ ๊ฒ ์ฆ๊ฐํ๊ฑฐ๋ ๊ฐ์ํ ์ ์์ต๋๋ค. ์ดํ ๋ค์ ๋ชจ๋ธ์ ์์ฑํ ๋์๋ weight์ ๊ธฐ๋ฐํ์ฌ ๋ชจ๋ธ์ ์์ฑํ๊ธฐ ๋๋ฌธ์ ํ๋ฆฐ ๊ฐ์ weight๋ฅผ ์ฆ๊ฐํ์ฌ ํ์ต์ ์งํํ๋ค๋ฉด ์ด์ ์ ๋ชจ๋ธ์์ ํ๋ฆฐ ๋ถ๋ถ์ ๋ ์ง์คํด์ ๋ชจ๋ธ์ ์์ฑํ๊ฒ ๋ฉ๋๋ค. ์ด๋ฅผ ๋ฐ๋ณตํฉ๋๋ค.
3. ๊ฐ๊ฐ์ ๋ชจ๋ธ์ Sum ํด์ฃผ๋๋ฐ $a_m$์ ๊ณฑํด์ฃผ์ด ์งํํฉ๋๋ค. ์ฆ, ์ ํํ ๋ชจ๋ธ์ด์๋ค๋ฉด ๋ ํฐ ๊ฐ์ค์น๋ฅผ ๋ถ์ฌํ๋ค๊ณ ์๊ฐํ๋ฉด ๋ฉ๋๋ค.
์ด๋ฅผ ๊ทธ๋ฆผ์ ํตํด ํ์ธํ๋ฉด ์๋์ ๊ฐ์ต๋๋ค.
์ฒซ ๋ฒ์งธ Iteration์์ ํ๋ฆฐ ๊ฒ๋ค์ ๋ง์ถ๊ธฐ ์ํด ๋ ธ๋ ฅํฉ๋๋ค.
๋ง์ฐฌ๊ฐ์ง๋ก ๋ ๋ฒ์งธ Iteration์์ ํ๋ฆฐ ๊ฒ๋ค์ ๋ง์ถ๊ธฐ ์ํด ๋ ธ๋ ฅํฉ๋๋ค.
์ดํ ๊ฐ๊ฐ์ ๊ฐ๋ค์ ๊ฐ์ค์น๋ฅผ ๊ณฑํด์ ๋ํด์ค๋๋ค.
์์ ๋ฐฉ๋ฒ์ ํตํด Underfitํ (High bias / Low variance) ๋ชจ๋ธ๋ค์ ํตํด ์ข์ ๋ชจ๋ธ์ ์์ฑํ ์ ์์ต๋๋ค.
๋ค์ ํฌ์คํธ์์๋ ์กฐ๊ธ ๋ ๊ฐ์ ๋ ๋ชจ๋ธ์ธ Gradient Boost์ XGBoost ์๊ณ ๋ฆฌ์ฆ์ ๋ํด ์์๋ณด๊ฒ ์ต๋๋ค.
'AI > Machine Learning' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[ML] Ensemble Method(5) - XGBoost (0) | 2022.11.30 |
---|---|
[ML] Ensemble Method(4) - Gradient Boost (0) | 2022.11.29 |
[ML] Ensemble Method(2) - Bagging & Random Forest (0) | 2022.11.26 |
[ML] Ensemble Method(1) - ํธํฅ-๋ถ์ฐ ๋๋ ๋ง(Bias-Variance Dilemma) (0) | 2022.11.26 |
[ML] Nearest Neighbor Method - KNN(3) (0) | 2022.11.11 |