[ML] Ensemble Method(2) - Bagging & Random Forest

🤔 Ensemble Method

통계학과 기계 학습에서 앙상블 학습법은 학습 알고리즘들을 따로 쓰는 경우에 비해 더 좋은 예측 성능을 얻기 위해 다수의 학습 알고리즘을 사용하는 방법 입니다.

통계 역학에서의 통계적 앙상블과 달리 기계 학습에서의 앙상블은 대체 모델들의 단단한 유한 집합을 가리키지만, 일반적으로 그러한 대체 모델 사이에 훨씬 더 유연한 구조를 허용합니다.

이번 포스팅에서는 앙상블 기법 중 Bagging에 대해 알아보려고 합니다.

🔎 About Ensemble

앙상블은 둘 이상의 Base Learner와 그것들의 결과를 결합하여 예측값을 반환합니다.

이때 각각의 Learner들은 달라야만 합니다.

각각의 Learner가 서로 다른 view point를 가지고 있어야 하기 때문입니다.

이에 대한 예시는 앞의 포스트에서 언급했으니 궁금하신 분은 참고하시기 바랍니다.

https://2t-hong.tistory.com/119

[ML] Ensemble Method(1) - 편향-분산 딜레마(Bias-Variance Dilemma)

🤔Ensemble Method(앙상블 학습법) 통계학과 기계 학습에서 앙상블 학습법은 학습 알고리즘들을 따로 쓰는 경우에 비해 더 좋은 예측 성능을 얻기 위해 다수의 학습 알고리즘을 사용하는 방법 입니

2t-hong.tistory.com

정리하자면 각각의 개별 모델이 서로 다른 뷰포인트를 가지게 함으로써 이를 조합했을 때 하나의 모델을 사용했을 때보다 훨씬 좋은 결과를 얻을 수 있다는 것입니다.

🔎 Type Of Ensemble Method

앙상블 모델은 대표적으로 Bagging과 Boosting이 존재합니다.

Bagging은 Low bias / High Variance 의 Base Learner로 구성됩니다.

즉, Overfit한 Base Learner들을 사용합니다.,

반대로 Boosting의 경우High bias / Low variance의 Base Learner로 구성됩니다.

즉, Underfit한 Base Learner들을 사용합니다.

이번 포스트에서는 Bagging 대해 더 자세히 알아보도록 하겠습니다.

✍ Bagging

Bagging이란 Bootstrap Aggregating의 줄임말로 Low bias / High variance 모델을 base learner로 사용합니다.

위의 그림과 같이 고정된 Training data set이 존재한다고 하겠습니다.

이때 Bootstrapping이라고 불리는 샘플링 기법을 통해 Bootstrap 을 n개 생성합니다.

Bootstrap은 sample set이라고 생각하시면 됩니다.

이때 Bootstrapping은 복원추출을 이용하는 sampling 기법입니다.

이때 각각의 Bootstrap의 크기를 설정한 뒤 복원추출을 통해 sampling을 진행합니다.

() 여담으로 복원추출을 진행한다면 해당 데이터는 다른 데이터들과 약 66%같고 33% 다르다고 합니다. )

Bagging의 경우 모든 프로세스가 병렬적으로 진행됩니다.

Low bias 모델을 사용해야 하기 때문에 각각의 base learner를 overfit 시킵니다.

이는 충분히 다른 view point를 세워야 하기 때문입니다.

대부분의 Bagging 같은 경우 decision tree를 사용하기 때문에 생성된 모델은 모두 full tree의 모델입니다.

이렇게 생긴 데이터들을 바탕으로 Voting을 진행합니다.

이를 민주적인 알고리즘이라고 하는 사람도 있습니다.

가장 중요한 것은 각각의 Base Learner들이 충분히 다른 VIew Point를 가지게 하는 것입니다.

Bagging을 사용하면 굉장히 좋은 Performance를 보입니다.

하나의 Decision Tree를 사용할 때보다 훨씬 좋은 성능을 낸다는 뜻입니다.

또한 우리가 설정 해줘야할 Hyper Parameter이 적습니다.

단순히 base learner의 개수만 정해주면 됩니다.

이때, 너무 많은 개수의 base learner를 정해주면 중복되는 view point가 생길 수 있습니다.

즉, 비슷한 결과를 도출할 가능성이 높다는 것입니다.

그래서 충분히 큰 수의 base learner의 개수를 정하면 됩니다.

정리하자면 Bagging은 설정해야할 하이퍼파라미터가 많지 않아 쉽지만 높은 Performace를 보여줍니다.

Bagging은 통상적으로 30개 정도의 .Base Learner를 사용합니다.

Bagging의 끝판왕 즉, Base Learner를 100개 이상 사용하고 싶은 사람들에 의해 나온 것이 Random Forest입니다.

100개가 넘는 Base Learner를 사용하더라도 어떻게 다른 View Point를 가질 수 있을 지에 대한 고찰로부터 시작됩니다.

✍ Random Forest

Random Forest는 구조가 다른 알고리즘보다 매우 간단하지만 매우 좋은 성능을 보입니다.

일반적인 Bagging과 다르게 Random Forest는 variables까지 랜덤으로 선택합니다.

이를 그림으로 나타내면 아래와 같습니다.

위와 같은 방법을 통해 더 다양한 View Point를 가질 수 있습니다.

특징

원래는 Data Number만을 선택했다면 Variable Number( Feature )도 함께 random 하게 선택합니다..

장점 : 빠른 시간에 동작한다, hyperparameter개수가 적다, interpretable하다.

단점 : 같은 의견을 많이 내는 base learner가 생성될 수 있다.( 적당히 큰 사이즈의 base learner사용하면 base learner가 늘어난다고 해서 critical한 성능 변화가 있지는 않다. )

Random Forest의 경우 두 가지의 하이퍼 파라미터가 들어간다고 생각하면 됩니다.

1. 몇 개의 트리를 만들 것인가?

2. 변수를 몇 개씩 볼 것인가?

RF또한 생각해줘야할 하이퍼파라미터의 개수가 매우 적지만 높은 성능을 냅니다.

NN과 달리 architecture와 loss function 을 생각하지 않아도 됩니다.

학습 순서

학습 순서는 아래와 같습니다.

다음 포스팅에서는 Boosting에대해 학습하겠습니다.

'AI > Machine Learning' 카테고리의 다른 글

[ML] Ensemble Method(4) - Gradient Boost (0)	2022.11.29
[ML] Ensemble Method(3) - AdaBoost (0)	2022.11.29
[ML] Ensemble Method(1) - 편향-분산 딜레마(Bias-Variance Dilemma) (0)	2022.11.26
[ML] Nearest Neighbor Method - KNN(3) (0)	2022.11.11
[ML] Nearest Neighbor Method - 정규화(Normalization)(2) (0)	2022.11.11