AI/Machine Learning

[ML] Neural Network(4) - ์ˆœ์ „ํŒŒ(Feedforward Process)

์ดํƒœํ™ 2022. 12. 1. 10:48

๐Ÿค” Neural Network

์ธ๊ณต์‹ ๊ฒฝ๋ง(ไบบๅทฅ็ฅž็ถ“็ถฒ, ์˜์–ด: artificial neural network, ANN)์€ ๊ธฐ๊ณ„ํ•™์Šต๊ณผ ์ธ์ง€๊ณผํ•™์—์„œ ์ƒ๋ฌผํ•™์˜ ์‹ ๊ฒฝ๋ง(๋™๋ฌผ์˜ ์ค‘์ถ”์‹ ๊ฒฝ๊ณ„์ค‘ ํŠนํžˆ ๋‡Œ)์—์„œ ์˜๊ฐ์„ ์–ป์€ ํ†ต๊ณ„ํ•™์  ํ•™์Šต ์•Œ๊ณ ๋ฆฌ์ฆ˜์ž…๋‹ˆ๋‹ค.

 

์ธ๊ณต์‹ ๊ฒฝ๋ง์€ ์‹œ๋ƒ…์Šค์˜ ๊ฒฐํ•ฉ์œผ๋กœ ๋„คํŠธ์›Œํฌ๋ฅผ ํ˜•์„ฑํ•œ ์ธ๊ณต ๋‰ด๋Ÿฐ(๋…ธ๋“œ)์ด ํ•™์Šต์„ ํ†ตํ•ด ์‹œ๋ƒ…์Šค์˜ ๊ฒฐํ•ฉ ์„ธ๊ธฐ๋ฅผ ๋ณ€ํ™”์‹œ์ผœ, ๋ฌธ์ œ ํ•ด๊ฒฐ ๋Šฅ๋ ฅ์„ ๊ฐ€์ง€๋Š” ๋ชจ๋ธ ์ „๋ฐ˜์„ ๊ฐ€๋ฆฌํ‚ต๋‹ˆ๋‹ค.

 

์ด๋ฒˆ ํฌ์ŠคํŒ…์—์„œ๋Š” ์ˆœ์ „ํŒŒ์— ๋Œ€ํ•ด ์•Œ์•„๋ณด๋„๋ก ํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค.

 

 

 

 

 

 

 

 

 

 

 

 

๐Ÿ”Ž Hidden Layer์™€ Node์˜ ์˜๋ฏธ

์ˆœ์ „ํŒŒ์— ๋Œ€ํ•ด ์•Œ์•„๋ณด๊ธฐ ์ „์— Hidden Layer์™€ Node์˜ ์˜๋ฏธ์— ๋Œ€ํ•ด ์•Œ์•„๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค

 

 

 

 

โœ Hidden Layer

Hidden Layer๋ž€ Input ๊ณต๊ฐ„์„ ๋ช‡ ๊ฐœ์˜ ์ž‘์€ ๊ณต๊ฐ„์œผ๋กœ ๋‚˜๋ˆˆ ๊ฒƒ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.

 

๋งŒ์•ฝ Hidden Layer๊ฐ€ ๋งŽ๋‹ค๋ฉด ๋” ๋งŽ์€ ๋‹จ๊ณ„์— ๊ฑธ์ณ์„œ ํ•ด๋‹น ๊ณต๊ฐ„์„ ๊ณต๋žตํ•˜์—ฌ ๊ฒฐ๊ณผ๋ฅผ ์‚ฐ์ถœํ•ฉ๋‹ˆ๋‹ค.

 

 

 

โœ Hidden Node

Hidden Node๋ž€ ์œ„์—์„œ ๋‚˜๋ˆˆ ๊ณต๊ฐ„์—์„œ์˜ Decision Rule์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.

 

๋งŒ์•ฝ Hidden Node๊ฐ€ ๋งŽ๋‹ค๋ฉด ๋” ๋งŽ์€ Decision Rule์„ ์กฐํ•ฉํ•œ๋‹ค๋Š” ์˜๋ฏธ์ž…๋‹ˆ๋‹ค.

 

 

 

Hidden Layer์™€ Hidden Node๊ฐ€ ๋งŽ๋‹ค๋ฉด Capacity๊ฐ€ ์ข‹์•„์ ธ ๋” ์–ด๋ ค์šด ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•  ์ˆ˜ ์žˆ์ง€๋งŒ, ๋„ˆ๋ฌด ๋งŽ๋‹ค๋ฉด Overfitting์ด ์ผ์–ด๋‚˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

 

 

 

 

https://towardsdatascience.com/neural-net-from-scratch-using-numpy-71a31f6e3675

 

 

 

 

 

 

 

 

 

 

 

 

๐Ÿ”Ž ์ˆœ์ „ํŒŒ(feedforward)

์œ„์—์„œ ์‚ดํŽด๋ณธ ๊ทธ๋ฆผ์—์„œ ํ•ด๋‹น ๋„คํŠธ์›Œํฌ๊ฐ€ ํ•˜๋Š” ์ผ์„ ์กฐ๊ธˆ ๋” ์ž์„ธํ•˜๊ฒŒ ์•Œ์•„๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค.

 

๋ฐ์ดํ„ฐ๊ฐ€ Input์œผ๋กœ ๋“ค์–ด๊ฐ€๊ฒŒ ๋˜๊ณ  Hidden Layer, Hidden Node๋ฅผ ๊ฑฐ์ณ Output์„ ์‚ฐ์ถœํ•ฉ๋‹ˆ๋‹ค.

 

ํ•ด๋‹น ๊ณผ์ •์€ ์•ž์œผ๋กœ๋งŒ ์ผ์–ด๋‚˜๊ธฐ ๋–„๋ฌธ์— ์ด๋ฅผ ์ˆœ์ „ํŒŒ(feedforward)๋ผ๊ณ  ํ•ฉ๋‹ˆ๋‹ค.

 

๋‚ด๋ถ€์ ์œผ๋กœ ์–ด๋–ค ์ผ์ด ์ผ์–ด๋‚˜๋Š”์ง€์— ๋Œ€ํ•ด ์กฐ๊ธˆ ๋” ์ž์„ธํ•˜๊ฒŒ ์•Œ์•„๋ณด๋„๋ก ํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค.

 

 

 

 

 

 

 

โœ MLP

์ด์ „ ํฌ์ŠคํŠธ์—์„œ ์•Œ์•„๋ณด์•˜๋˜ MLP๋ฅผ ์‚ดํŽด๋ณด๋„๋ก ํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค.

 

 

 

 

 

์šฐ๋ฆฌ๋Š” $Y_1$์„ ์–ป๊ธฐ ์œ„ํ•ด $f(w^Tx)$์˜ ๊ฐ’์„ ๊ตฌํ•ฉ๋‹ˆ๋‹ค.

 

๋งˆ์ฐฌ๊ฐ€์ง€๋กœ $Y_2$๋ฅผ ์–ป๊ธฐ ์œ„ํ•ด์„œ๋„ $f(w^Tx)$์˜ ๊ฐ’์„ ๊ตฌํ•ฉ๋‹ˆ๋‹ค.

 

๋‹จ, ์ด๋•Œ ์„œ๋กœ์˜ weight๋Š” ๋‹ค๋ฅธ ๊ฐ’์„ ๊ฐ€์ง€๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

 

๊ทธ๋ž˜์„œ i์—์„œ j๋กœ ๊ฐ€๋Š” weight๋ฅผ $w_{ji}$๋กœ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค. 

 

์ด๋Š” Output์ธ $Z$๋กœ ๊ฐˆ ๋•Œ๋„ ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ ์ ์šฉ๋ฉ๋‹ˆ๋‹ค.

 

๊ฒฐ๋ก ์ ์œผ๋กœ $Z_k$๋ฅผ ๊ตฌํ•˜๊ธฐ ์œ„ํ•ด ์•„๋ž˜์˜ ์ˆ˜์‹์„ ์–ป์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค..

 

 

 

 

์ •๋ฆฌํ•˜์ž๋ฉด ํ•จ์ˆ˜์˜ ๊ฒฐ๊ณผ๊ฐ€ ์ค‘์ฒฉ๋˜์–ด ์ ์šฉ๋œ๋‹ค๊ณ  ์ƒ๊ฐํ•˜๋ฉด ๋ฉ๋‹ˆ๋‹ค.( ๋ณ‘๋ ฌ์ ์ด์ง€ ์•Š์Œ )

 

 

 

์ฃผ์˜ํ•ด์•ผ ํ•  ์ ์€ ๋…ธ๋“œ ์•ˆ์—์„œ Activation๊นŒ์ง€ ์ ์šฉ๋œ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

 

๊ทธ๋ฆผ์œผ๋กœ ๋‚˜ํƒ€๋‚ธ๋‹ค๋ฉด hidden node ๋˜๋Š” output node๋Š” ์•„๋ž˜์˜ ๊ทธ๋ฆผ์„ ์ƒ๋žตํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

 

 

 

 

 

 

ํ•ด๋‹น ๊ณผ์ •์„ ์ˆ˜์‹์œผ๋กœ ๋‚˜ํƒ€๋‚ด๋ฉด ์ด๋Ÿฌํ•œ ์ˆ˜์‹์„ ์–ป์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

 

 

 

 

 

ํ™œ์„ฑํ™” ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•ด์•ผ๋งŒ Output ๊ฐ’์„ ์–ป์„ ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์„ ๊ผญ ๊ธฐ์–ตํ•˜์‹œ๊ธฐ ๋ฐ”๋ž๋‹ˆ๋‹ค.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

๐Ÿ”Ž Architecture

โœ NN๊ตฌ์กฐ์˜ ํŠน์ง•

# of hidden layers, # of hidden nodes

hidden layer์˜ ๊ฐœ์ˆ˜๊ฐ€ ๋งŽ์„ ์ˆ˜๋ก, hidden node์˜ ๊ฐœ์ˆ˜๊ฐ€ ๋” ๋งŽ์„ ์ˆ˜๋ก ๋” ๋†’์€ capacity ์ฆ‰, ๋” ๋†’์€ ์„ค๋ช…๋ ฅ์„ ๊ฐ€์ง€๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

 

ํ•˜์ง€๋งŒ ํ•ด๋‹น layer์™€ node์˜ ๊ฐœ์ˆ˜๊ฐ€ ๋„ˆ๋ฌด ๋งŽ๋‹ค๋ฉด NN์€ overfitํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

 

 

 

๊ทธ๋ž˜์„œ ์šฐ๋ฆฌ๊ฐ€ ์ •ํ•ด์ค˜์•ผํ•  ํ•˜์ดํผ ํŒŒ๋ผ๋ฏธํ„ฐ๋“ค์ด ์žˆ์Šต๋‹ˆ๋‹ค.

 

 

 

์ •ํ•˜์ง€ ์•Š์•„๋„ ๋˜๋Š” ๊ฐ’

Input Node์˜ ๊ฐœ์ˆ˜๋Š” ๋ฐ์ดํ„ฐ์˜ ๊ฐœ์ˆ˜๋กœ ๋ถ€ํ„ฐ ์ •ํ•ด์ง‘๋‹ˆ๋‹ค.

 

๊ทธ๋ฆฌ๊ณ  Output Node์˜ ๊ฐœ์ˆ˜๋Š” ์šฐ๋ฆฌ๊ฐ€ ํ’€๊ณ ์ž ํ•˜๋Š” ๋ฌธ์ œ์— ๋”ฐ๋ผ ๋‹ฌ๋ผ์ง‘๋‹ˆ๋‹ค.

 

 

๋งŒ์•ฝ ์šฐ๋ฆฌ๊ฐ€ ํ’€์–ด์•ผ ํ•˜๋Š” ๋ฌธ์ œ๊ฐ€ 2class๋ผ๋ฉด output node์˜ ๊ฐœ์ˆ˜๋Š” 1๊ฐœ ๋˜๋Š” 2๊ฐœ๊ฐ€ ๋˜์–ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ( 1๊ฐœ๋ผ๋ฉด ์ „์ฒด์—์„œ ๋นผ๋ฉด ๋˜๊ธฐ ๋–„๋ฌธ )

 

๋งŒ์•ฝ ์šฐ๋ฆฌ๊ฐ€ ํ’€์–ด์•ผ ํ•˜๋Š” ๋ฌธ์ œ๊ฐ€ 3class๋ผ๋ฉด output node์˜ ๊ฐœ์ˆ˜๋Š” 3๊ฐœ๊ฐ€ ๋˜์–ด์•ผ ํ•ฉ๋‹ˆ๋‹ค.

 

 

์ •ํ•ด์•ผ ํ•˜๋Š” ๊ฐ’

์ฆ‰ ,์šฐ๋ฆฌ๋Š” Hidden Node์˜ ๊ฐœ์ˆ˜์™€ Hidden Layer์˜ ๊ฐœ์ˆ˜๋ฅผ ์ •ํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค.

 

MLP๋ฅผ ๋šฑ๋šฑํ•˜๊ฒŒ ( Node์˜ ๊ฐœ์ˆ˜๋ฅผ ๋งŽ์ด ) ๊ตฌ์„ฑํ•  ์ง€ ๊ธธ๊ฒŒ ( Layer์˜ ๊ฐœ์ˆ˜๋ฅผ ๋งŽ์ด ) ๊ตฌ์„ฑํ•  ์ง€๋Š” ์šฐ๋ฆฌ๊ฐ€ ์ •ํ•ด์ค˜์•ผ ํ•˜๋Š” ๊ฐ’์ž…๋‹ˆ๋‹ค.

 

 

 

๋˜ํ•œ Activation Function์„ ์–ด๋–ค ๊ฒƒ์„ ์‚ฌ์šฉํ•  ์ง€ ์ •ํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค.

 

Activation Function์ค‘ ๋Œ€ํ‘œ์ ์ธ ๊ฒƒ๋“ค์€ ์•„๋ž˜์™€ ๊ฐ™์Šต๋‹ˆ๋‹ค.

 

 

 

 

ReLU๋งŒ ์‚ดํŽด๋ณด์ž๋ฉด 0๋ณด๋‹ค ์ž‘๋‹ค๋ฉด 0, 0๋ณด๋‹ค ํฌ๋‹ค๋ฉด x์˜ ๊ฐ’์„ ๊ฐ€์ง€๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

 

ํ•˜์ง€๋งŒ x = 0์ผ ๋•Œ ๋ฏธ๋ถ„์ด ๋ถˆ๊ฐ€๋Šฅ ํ•˜๋‹ค๋Š” ๋‹จ์ ์„ ๊ฐ€์ง€๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

 

 

 

์šฐ๋ฆฌ๋Š” Loss Function์˜ ์ข…๋ฅ˜๋ฅผ ์ •ํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค.

 

์šฐ๋ฆฌ๋Š” ํ•ด๋‹น Output์ด ์ •๋‹ต์„ ์–ผ๋งˆ๋‚˜ ๋งž์ท„๋Š”์ง€ ํ‰๊ฐ€๋ฅผ ์ง„ํ–‰ํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค.

 

์ฆ‰, Loss Function์˜ ๊ฐ’์„ ์–ผ๋งˆ๋‚˜ ์ตœ์†Œํ™” ํ–ˆ๋Š”์ง€ ์•Œ์•„๋ด์•ผ ํ•ฉ๋‹ˆ๋‹ค.

 

Classification์˜ ๊ฒฝ์šฐ์—๋Š” cross-entropy๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.

 

์‹ค์ œ๋กœ ์šฐ๋ฆฌ๊ฐ€ ๊ณ„์‚ฐํ•  ๋•Œ๋Š” $\sum_{i}target_ilog(output_i) = \sum_{i}y_ilog(\hat{y})$๋ฅผ ์ตœ์†Œํ™”ํ•ฉ๋‹ˆ๋‹ค.

 

Regression์˜ ๊ฒฝ์šฐ์—๋Š” MSE๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.

 

์‹ค์ œ๋กœ ์šฐ๋ฆฌ๊ฐ€ ๊ณ„์‚ฐํ•  ๋–„๋Š” $\frac{1}{2}||y - \hat{y}||^2$๋ฅผ ์ตœ์†Œํ™”ํ•ฉ๋‹ˆ๋‹ค.

 

 

 

 

 

 

 

 

โœ Activation Function์˜ ์—ญํ• 

Input Node

Input์—๋Š” Activation Function์ด ์‹ค์งˆ์ ์œผ๋กœ ์ ์šฉ๋˜์ง€ ์•Š์ง€๋งŒ ํ†ต์ผ์„ฑ์„ ์œ„ํ•ด $y = x$๋ผ๋Š” Activation Function์„ ์ ์šฉํ–ˆ๋‹ค๊ณ  ์ƒ๊ฐํ•ฉ๋‹ˆ๋‹ค.

 

 

 

 

Hidden Node

Activation Function์€ Hidden Layer์—์„œ ๋ง ๊ทธ๋Œ€๋กœ ํ™œ์„ฑํ™” ํ•˜๋Š” ์—ญํ• ์„ ํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

 

์ฆ‰, ์ž…๋ ฅ ์‹œ๊ทธ๋„์ด ์ถฉ๋ถ„ํžˆ ํฌ๋‹ค๋ฉด ์ถฉ๋ถ„ํžˆ ํฐ ์‹œ๊ทธ๋„์„ ๋‹ค์Œ Layer์— ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

 

๋ฐ˜๋Œ€๋กœ ์ž…๋ ฅ ์‹œ๊ทธ๋„์ด ์ž‘๋‹ค๋ฉด 0 ๊ฐ’์„ ๋ณด๋‚ด๊ฑฐ๋‚˜ ์ž‘์€ ๊ฐ’์„ ๋‹ค์Œ Layer์— ์ œ๊ณตํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค.

 

 

 

 

Output Node ( Classification )

Output Node์˜ ๊ฒฝ์šฐ ์–ด๋–ค ๋ฌธ์ œ๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ๋А๋ƒ์— ๋”ฐ๋ผ ๋‹ฌ๋ผ์ง‘๋‹ˆ๋‹ค.

 

๋งŒ์•ฝ 2-class classification์˜ ๋ฌธ์ œ์—์„œ๋Š” SIgmoid๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.

 

์ฆ‰, Logistic function์„ ์‚ฌ์šฉํ•œ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

 

์ด๋ฅผ ์ˆ˜์‹์œผ๋กœ ๋‚˜ํƒ€๋‚ด๋ฉด ์•„๋ž˜์™€ ๊ฐ™์Šต๋‹ˆ๋‹ค.

 

 

 

 

ํ–ฌ๋‹น ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•˜๊ฒŒ ๋œ๋‹ค๋ฉด Output Node์˜ ๊ฒฐ๊ณผ๊ฐ€ 0๊ณผ 1์‚ฌ์ด์˜ ๊ฐ’์ด ๋‚˜์™€ ํ™•๋ฅ ๊ฐ’ ์ฒ˜๋Ÿผ ๋‚˜์˜ค๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

 

 

 

3-class ์ด์ƒ Multi-class classification์˜ ๋ฌธ์ œ์—์„œ๋Š” Softmax๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.

 

 

 

 

 

3-class classification ๋ฌธ์ œ๋ฅผ ์˜ˆ์‹œ๋กœ ๋“ค๋ฉด ๊ฐ๊ฐ์˜ ๊ฐ’์„ ํ™•๋ฅ ๊ฐ’์œผ๋กœ ๋‚˜ํƒ€๋‚ด๊ณ ์ž ํ•  ๋•Œ ๋ชจ๋“  Output ๊ฐ’์„ ๋”ํ•˜๋ฉด 1์ด ๋‚˜์™€์•ผ๋งŒ ํ•ฉ๋‹ˆ๋‹ค.

 

ํ•˜์ง€๋งŒ ์ด๋•Œ Logistic sigmoid ํ•จ์ˆ˜๋ฅผ  ์‚ฌ์šฉํ•˜๊ฒŒ ๋˜๋ฉด 1์ด ๋‚˜์˜ค์ง€ ์•Š์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

 

 

 

๊ทธ๋ž˜์„œ softmax ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. 

 

 

 

 

 

 

 

 

 

 

Output Node ( Regression )

Classification์—์„œ๋Š” ๊ฐ๊ฐ์˜ ๊ฐ’์„ ํ™•๋ฅ ์ ์œผ๋กœ ๋ณ€ํ™˜ํ•ด์ฃผ๊ธฐ ์œ„ํ•ด์„œ Activation Function์„ ์‚ฌ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค.

 

Regression์—์„œ๋Š” Output ์ž์ฒด๊ฐ€ Continuousํ•œ Variable์ด๊ธฐ ๋•Œ๋ฌธ์— Output์— Linear units๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.

 

์ฆ‰, ๊ทธ๋Œ€๋กœ ๊ฐ’์„ ๋‚ด๋ณด๋‚ธ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

 

์ด๋ฅผ ์‹์œผ๋กœ ๋‚˜ํƒ€๋‚ธ๋‹ค๋ฉด ์•„๋ž˜์™€ ๊ฐ™์Šต๋‹ˆ๋‹ค.

 

$$\hat{y} = W^Th + b$$

 

 

 

 

 

๊ฒฐ๋ก ์ ์œผ๋กœ ์šฐ๋ฆฌ๊ฐ€ ์–ด๋– ํ•œ ๋ฌธ์ œ๋ฅผ ํ’€ ๊ฒƒ์ธ๊ฐ€์— ๋”ฐ๋ผ Output Node์˜ ๊ฐœ์ˆ˜๋„ ๋‹ฌ๋ผ์ง€๊ณ  Output Node์•ˆ์— ๋“ค์–ด๊ฐ€๋Š” Activation Function์˜ ์ข…๋ฅ˜๋„ ๋‹ฌ๋ผ์ง‘๋‹ˆ๋‹ค.

 

 

 

 

 

 

 

 

 

์ •๋ฆฌํ•˜์ž๋ฉด Hidden Node์˜ ๊ฐœ์ˆ˜์™€ Hidden Layer์˜ ๊ฐœ์ˆ˜ Activation Function์˜ ์ข…๋ฅ˜, Loss Function์˜ ์ข…๋ฅ˜๋ฅผ ์ง์ ‘ ์ •ํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค.

 

 

 

 

 

 

 

 

์ง€๊ธˆ๊นŒ์ง€ ์ˆœ์ „ํŒŒ(feedforward process)์— ๋Œ€ํ•ด ๋ฐฐ์›Œ๋ดค์Šต๋‹ˆ๋‹ค.

 

๋‹ค์Œ ํฌ์ŠคํŠธ์—์„œ๋Š” ์—ญ์ „ํŒŒ(backpropagation)์— ๋Œ€ํ•ด ๋ฐฐ์›Œ๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค.