[ML] Ensemble Method(1) - 편향-분산 딜레마(Bias-Variance Dilemma)

🤔Ensemble Method(앙상블 학습법)

통계학과 기계 학습에서 앙상블 학습법은 학습 알고리즘들을 따로 쓰는 경우에 비해 더 좋은 예측 성능을 얻기 위해 다수의 학습 알고리즘을 사용하는 방법 입니다.

통계 역학에서의 통계적 앙상블과 달리 기계 학습에서의 앙상블은 대체 모델들의 단단한 유한 집합을 가리키지만, 일반적으로 그러한 대체 모델 사이에 훨씬 더 유연한 구조를 허용합니다.

이번 포스팅에서는 앙상블 학습법을 배우기 전 편향과 분산사이의 딜레마에 대해 알아보려고 합니다.

🔎 편향 분산 딜레마

앙상블에 대해 조금 쉽게 설명하기 위해 예시를 들어보겠습니다.

위의 그림과 같이 한 가지의 문제에 대해 여러가지의 모델을 사용하여 학습을 진행한다고 하겠습니다.

이때 한 개의 모델이 학습하는 문제가 Training set 전체 데이터라면 대부분 비슷한 결과를 도출합니다.

그렇기 때문에 모델이 전체 학습 데이터가 아닌 데이터의 일부를 나누어 학습을 진행합니다.

이를 쉽게 비유하자면 최근 있었던 수능에서 21번 30번 문제를 잘 푸는 학생과 나머지 준 킬러문제를 잘 푸는 학생을 나누어 학습을 시킵니다.

해당 학생들이 함꼐 수능 문제를 푼다면 더 좋은 성능을 낼 수 있다는 것입니다.

위의 데이터에서 랜덤으로 샘플링을 하여 데이터를 학습한다면 조금씩 다른 결과를 도출할 것입니다.

같은 데이터를 사용한다고 하더라도 하이퍼파라미터를 다르게 할 수도 있습니다.

예를 들어 같은 Decision Tree더라도 Depth를 다르게 한다면 다른 prediction 결과를 얻을 수 있습니다.

확률적 알고리즘(Stochastic Algorithm)과 반대되는 개념으로 확정적 알고리즘(Determinstic Algorithm)이 존재합니다.

즉, 같은 데이터를 가지고 있다면 모델을 만들 때마다 결과가 같다는 뜻입니다.

하지만 NN과 같은 확률 기반의 모델은 랜덤성이 내포되어 다른 결과가 나올 수 있습니다.

먼저 편향과 분산이 어떤 것인가에 대해 알아보도록 하겠습니다.

✍️ 편향(Bias)과 분산(Variance)이란?

편향(Bias)

편향이란 실제 값과 어떠한 값으로 나타날 것이라고 기대되는 예측값의 평균과의 차이입니다.

이를 수식으로 나타내면 아래와 같습니다.

분산(Variance)

분산은 예측값과 예측값의 평균과의 차이입니다.

말 그대로 예측치 값과의 떨어져있는 정도를 나타냅니다.

즉, 예측값의 변동성이 얼마나 큰 가를 의미합니다.

이를 수식으로 나타내면 아래와 같습니다.(편차 제곱의 평균)

✍️ 편향-분산 분해(Bias-Variance Decomposition)

우리가 배웠던 Error중 가장 대표적인 Error 는 MSE(Mean Squared Error)입니다.

해당 수식을 전개하여 살펴보겠습니다.

위의 수식을 통해 결국 편차와 분산의 합으로 나타나져 있다는 것을 알 수 있습니다.

즉, Error가 fixed 되어 있는 상황에서 어떤 model의 Bias가 낮다는 것은 같은 MSE에서 Variance가 커지고 반대로 Bias가 크다는 것은 Variance가 작다는 것을 의미합니다.

이는 편향과 분산이 trade-off의 관계에 있다고 할 수 있습니다.

✍️ 편향-분산과 Over/Underfit의 관계

Bias라는 것은 결국 model의 fitting능력입니다.

Bias를 낮추어 model의 fitting능력을 늘리면 위에서 설명했듯 편향과 분산은 trade-off관계라서 HIgh variance를 가지게 됩니다.

이 경우 비슷한 값의 데이터가 들어와 모델 학습을 다시 진행한다면 같은 모델을 사용하더라도 그래프는 매우 민감하게 달라질 것입니다.

위와 같은 경우를 Overfit이라고 합니다.

반대로 Bias가 높다고 하면 비슷한 값의 데이터가 들어와 모델 학습을 닷기 진행한다고 하더라도 그래프의 차이는 크지 않습니다.

즉, 낮은 Variance를 가진다는 뜻이며 이를 Underfit이라고 합니다.

이를 running curve로 나타내면 아래와 같습니다.

x축은 능력치이자 복잡도 입니다.

최적의 능력치를 가진 모델은 결국 적당한(?) 정도를 찾아야 합니다.

아래의 그림에서 C의 경우 Capacity가 높은 모델로 Low Bias / High Variance 모델입니다.

D의 경우 Capacity가 낮은 모델로 High Bias / Low Variance 모델인 것을 알 수 있습니다.

다음 포스팅에서는 앙상블의 기법에 대해 알아보도록 하겠습니다.

'AI > Machine Learning' 카테고리의 다른 글

[ML] Ensemble Method(3) - AdaBoost (0)	2022.11.29
[ML] Ensemble Method(2) - Bagging & Random Forest (0)	2022.11.26
[ML] Nearest Neighbor Method - KNN(3) (0)	2022.11.11
[ML] Nearest Neighbor Method - 정규화(Normalization)(2) (0)	2022.11.11
[ML] Nearest Neighbor Method - Distance Metric(1) (0)	2022.11.11