AI/Machine Learning

[ML] Ensemble Method(6) - Summary

์ดํƒœํ™ 2022. 11. 30. 00:46

๐Ÿค” Ensemble Method

ํ†ต๊ณ„ํ•™๊ณผ ๊ธฐ๊ณ„ ํ•™์Šต์—์„œ ์•™์ƒ๋ธ” ํ•™์Šต๋ฒ•์€ ํ•™์Šต ์•Œ๊ณ ๋ฆฌ์ฆ˜๋“ค์„ ๋”ฐ๋กœ ์“ฐ๋Š” ๊ฒฝ์šฐ์— ๋น„ํ•ด ๋” ์ข‹์€ ์˜ˆ์ธก ์„ฑ๋Šฅ์„ ์–ป๊ธฐ ์œ„ํ•ด ๋‹ค์ˆ˜์˜ ํ•™์Šต ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์‚ฌ์šฉํ•˜๋Š” ๋ฐฉ๋ฒ• ์ž…๋‹ˆ๋‹ค.

 

 ํ†ต๊ณ„ ์—ญํ•™์—์„œ์˜ ํ†ต๊ณ„์  ์•™์ƒ๋ธ”๊ณผ ๋‹ฌ๋ฆฌ ๊ธฐ๊ณ„ ํ•™์Šต์—์„œ์˜ ์•™์ƒ๋ธ”์€ ๋Œ€์ฒด ๋ชจ๋ธ๋“ค์˜ ๋‹จ๋‹จํ•œ ์œ ํ•œ ์ง‘ํ•ฉ์„ ๊ฐ€๋ฆฌํ‚ค์ง€๋งŒ, ์ผ๋ฐ˜์ ์œผ๋กœ ๊ทธ๋Ÿฌํ•œ ๋Œ€์ฒด ๋ชจ๋ธ ์‚ฌ์ด์— ํ›จ์”ฌ ๋” ์œ ์—ฐํ•œ ๊ตฌ์กฐ๋ฅผ ํ—ˆ์šฉํ•ฉ๋‹ˆ๋‹ค.

 

๋ณต์Šต ๊ฒธ์œผ๋กœ Summary๋ฅผ ์ง„ํ–‰ํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

๐Ÿ”Ž Bagging

Bagging ์•Œ๊ณ ๋ฆฌ์ฆ˜์—๋Š” ๊ธฐ๋ณธ์ ์ธ Bagging๊ณผ RandomForest๊ฐ€ ์กด์žฌํ–ˆ์Šต๋‹ˆ๋‹ค.

 

Bagging ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ํŠน์ง•์œผ๋กœ๋Š” Low bias / High Variance์ธ base learner๋“ค์„ ํ†ตํ•ด cuttingํ•ด๋‚˜๊ฐ€๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค.

 

์ฆ‰, Overfitํ•œ ๋ชจ๋ธ์„ ํ†ตํ•ด cutting์„ ์ง„ํ–‰ํ•ฉ๋‹ˆ๋‹ค.

 

Bagging ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ๋ณ‘๋ ฌ์ ์œผ๋กœ ํ•™์Šต์„ ์ง„ํ–‰ํ•ฉ๋‹ˆ๋‹ค.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

๐Ÿ”Ž  Boosting

Boosting ์•Œ๊ณ ๋ฆฌ์ฆ˜์—๋Š” AdaBoost, Gradient Boost, XGBoost๊ฐ€ ์กด์žฌํ–ˆ์Šต๋‹ˆ๋‹ค.

 

Boosting ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ํŠน์ง•์œผ๋กœ๋Š” High bias / Low Variance ์ธ base learner๋“ค์„ ํ†ตํ•ด boosting ํ•ด๋‚˜๊ฐ€๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด์—ˆ์Šต๋‹ˆ๋‹ค.

 

์ฆ‰, underfitํ•œ weak learner ๋ชจ๋ธ๋“ค์„ ํ†ตํ•ด ํ•™์Šต์„ ์ง„ํ–‰ํ•ฉ๋‹ˆ๋‹ค.

 

Boosting ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ์ˆœ์ฐจ์ ์œผ๋กœ ํ•™์Šต์„ ์ง„ํ–‰ํ•ฉ๋‹ˆ๋‹ค.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

๐Ÿ”Ž ๊ณตํ†ต์ 

ํ•ต์‹ฌ์ ์œผ๋กœ ๋‘˜ ๋ชจ๋‘๊ฐ€ View Point๋ฅผ ๋ณด์žฅํ•ด์ค˜์•ผ ํ•ฉ๋‹ˆ๋‹ค.

 

View Point์˜ ์ฐจ๋ณ„์„ฑ์„ ๊ฐ๊ฐ์˜ base learner์—๊ฒŒ ๋ณด์žฅ์„ ํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค.

 

Bagging์˜ ๊ฒฝ์šฐ boostrapping์„ ํ–ˆ์œผ๋ฉฐ Random Forest์˜ ๊ฒฝ์šฐ ๋ณ€์ˆ˜๋ฅผ ๋žœ๋คํ•˜๊ฒŒ ์„ ํƒํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์ถ”๊ฐ€ํ–ˆ์Šต๋‹ˆ๋‹ค.

 

Boosting์˜ ๊ฒฝ์šฐ Adaboost์—์„œ Error๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ, Gradient Boost์˜ ๊ฒฝ์šฐ residual์„ ๋”ฐ๋ผ๊ฐ€๋Š” ๋ฐฉ์‹์ด์—ˆ์Šต๋‹ˆ๋‹ค.

 

์ฆ‰, ๊ฐ๊ฐ์˜ Tree๊ฐ€ ๋‹ค๋ฅธ ๋‚ด์šฉ์œผ๋กœ ํ•™์Šต์„ ํ•  ์ˆ˜ ์žˆ์–ด์•ผ ํ–ˆ์Šต๋‹ˆ๋‹ค.

 

 

 

Bagging๊ณผ AdaBoost์˜ ์‹œ๋Œ€์—์„œ๋Š” Bagging์ด ๋” ์ข‹์€ ๊ฒฐ๊ณผ๋ฅผ ๋‚ธ๋‹ค๊ณ  ์ƒ๊ฐํ–ˆ์Šต๋‹ˆ๋‹ค.

 

๋˜ํ•œ RandomForest๊ฐ€ ๊ฐœ๋ฐœ ๋œ ํ›„์— Random Forest๊ฐ€ ๊ฐ€์žฅ ์ข‹๋‹ค๊ณ  ํ–ˆ์Šต๋‹ˆ๋‹ค.

 

๊ฒฐ๊ณผ์ ์œผ๋กœ AdaBoost < Bagging < RF < GBM < XGBoost ์˜ ๊ฒฝํ–ฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.

 

ํ•ญ์ƒ ๊ทธ๋ ‡๋‹ค๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ ๋ฐ์ดํ„ฐ์— ๋”ฐ๋ผ ๊ฒฐ๊ณผ๊ฐ€ ๋‹ฌ๋ผ์ง‘๋‹ˆ๋‹ค.

 

 

 

ํ•ด๋‹น ์•Œ๊ณ ๋ฆฌ์ฆ˜๋“ค์€ ๋”ฅ๋Ÿฌ๋‹์— ๋น„๊ฒฌ๋  ์ •๋„๋กœ ์˜ค๋žซ๋™์•ˆ ์‚ด์•„๋‚จ์•„์žˆ๋Š” ์šฐ์ˆ˜ํ•œ ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

 

 

 

์„ค๋ช…๋ ฅ์ด ํ•„์š”ํ•œ ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์‚ฌ์šฉํ•ด์•ผ ํ•  ๋•Œ ์œ„์˜ ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์‚ฌ์šฉํ•˜๋ฉด ๋ฉ๋‹ˆ๋‹ค.

 

 

 

๋˜ํ•œ ๋‘˜ ๋ชจ๋‘ ํ•˜์ดํผ ํŒŒ๋ผ๋ฏธํ„ฐ ์„ธํŒ…์ด ์‰ฝ๋‹ค๋Š” ์žฅ์ ์ด ์žˆ์Šต๋‹ˆ๋‹ค. ( ๋”ฅ๋Ÿฌ๋‹์— ๋น„ํ•ด )