[ML] Neural Network(2) - Linear Separability

🤔 Neural Network

인공신경망(人工神經網, 영어: artificial neural network, ANN)은 기계학습과 인지과학에서 생물학의 신경망(동물의 중추신경계중 특히 뇌)에서 영감을 얻은 통계학적 학습 알고리즘입니다.

인공신경망은 시냅스의 결합으로 네트워크를 형성한 인공 뉴런(노드)이 학습을 통해 시냅스의 결합 세기를 변화시켜, 문제 해결 능력을 가지는 모델 전반을 가리킵니다.

이번 포스팅에서는 선형 분리 가능성(Linear Separability)에 대해 알아보겠습니다.

Linear Separability는 직선 하나로 어떻게 공간을 분리할 것인가에 대한 이론입니다.

아래와 같은 데이터가 존재한다고 하겠습니다.

이때 빨간선을 기준으로 두 가지 클래스의 데이터를 나눌 수 있습니다.

빨간선의 x절편과 y절편이 각각 2라면 위와 같은 식을 얻을 수 있습니다.

그래서 빨간선의 위쪽 영역은 $g(x) > 0$에 해당하여 Class 1을 의미하며, 아래쪽 영역은 $g(x) < 0$에 해당하여 Class -1을 의미합니다.

이를 일반화하게 된다면 $g(x_1, x_2) = w_1x_1 + w_2x_2 + w_0 = 0$이라고 할 수 있습니다.

이때 $w_1$, $w_2$, $w_0$은 파라미터라고 부릅니다.

이를 네트워크에 대한 그림으로 나타내면 아래와 같습니다.

$x_1$, $x_2$라는 데이터가 들어왔을때 각각에 파라미터를 곱한 뒤 이를 더해줍니다.

이때 $w_0$는 bias를 의미합니다.

0보다 큰 지 작은 지에 대한 판단 기준을 통해 해당 데이터가 어떤 Class에 존재하는지 결정합니다.

위의 식을 Multivariate Problem으로 일반화하게 된다면 아래의 식을 얻을 수 있습니다.

벡터의 형태로 나타냈을 때 $g(x) = w^Tx$라는 값을 얻을 수 있습니다. ( $w_0$ 는 벡터에 $w_0$와 $x_0 = 1$을 추가하여 생략할 수 있습니다.)

이를 그림으로 나타내면 아래와 같습니다.

위의 빨간색 글씨는 외워두시는 것을 추천드립니다.

weight는 파라미터라고 생각하면 되고 scale에 관한 내용은 이후에 설명하겠습니다.

weighted summation까지 진행한 뒤 output을 내는 것이 아니라 활성화 함수까지 거친 후에 output을 내야 한다는 것을 주의해야 합니다.

앞의 내용에서 활성화 함수는 0보다 크면 1이라는 값을 0보다 작으면 0이라는 값을 내보냅니다.

아래의 그림에서 가장 우측의 그래프를 의미합니다. ( 오타.. 1보다 큰 것이 아니라 0보다 큰 것 )

해당 그래프의 가장 큰 문제는 미분이 불가능하다는 것입니다.

대부분의 머신러닝 알고리즘들은 미분을 통해 문제를 해결하는데 미분이 되지 않는다면 알고리즘을 학습시킬 수 없습니다.

이를 해결한 것이 왼쪽 두 개의 그래프입니다.

하지만 Logistic function의 경우 0 ~ 1 사이의 값에 갇혀있기 때문에 Negative의 값을 얻을 수 없습니다.

이를 해결한 것이 하이퍼볼릭 탄젠트, 가장 왼쪽의 그래프를 의미합니다.

예시를 통해 이를 확인하겠습니다.

위와 같은 그래프가 있다고 했을 때 위에서 보았던 세 가지 활성화 함수를 적용하면 아래의 표와 같이 나타낼 수 있습니다.

다음 포스팅에서는 MLP에 대해 알아보겠습니다.

[ML] Neural Network(4) - 순전파(Feedforward Process) (0)	2022.12.01
[ML] Neural Network(3) - MLP(Multilayer Perceptron) (0)	2022.12.01
[ML] Neural Network(1) - Introduction (0)	2022.12.01
[ML] Ensemble Method(6) - Summary (0)	2022.11.30
[ML] Ensemble Method(5) - XGBoost (0)	2022.11.30