์ดํƒœํ™
ํ™'story
์ดํƒœํ™
์ „์ฒด ๋ฐฉ๋ฌธ์ž
์˜ค๋Š˜
์–ด์ œ
  • ๋ถ„๋ฅ˜ ์ „์ฒด๋ณด๊ธฐ (171)
    • TW (39)
    • AI (47)
      • ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ (10)
      • Kaggle (2)
      • Machine Learning (26)
      • Computer Vision (0)
      • Deep Learning (0)
      • ROS2 (7)
    • Computer Science (29)
      • Data Structure (0)
      • Algorithm (18)
      • Computer Architecture (5)
      • SOLID (0)
      • System Programing (6)
    • LOLPAGO (10)
      • ํ”„๋ก ํŠธ์—”๋“œ (10)
      • ๋ฐฑ์—”๋“œ (0)
    • BAEKJOON (2)
    • React (5)
    • ์–ธ์–ด (8)
      • C++ (8)
    • GIT (0)
    • MOGAKCO (19)
    • ๋ฏธ๊ตญ ์—ฌํ–‰๊ธฐ (3)
    • etc. (7)
      • Blog (2)
      • ์ฝœ๋ผํ†ค (2)

๋ธ”๋กœ๊ทธ ๋ฉ”๋‰ด

  • ํ™ˆ
  • ํƒœ๊ทธ
  • ๋ฐฉ๋ช…๋ก

๊ณต์ง€์‚ฌํ•ญ

์ธ๊ธฐ ๊ธ€

ํƒœ๊ทธ

  • baekjoon
  • ๋ฐฑ์ค€
  • C++
  • ๋”ฅ๋Ÿฌ๋‹
  • ๊ธฐ๊ณ„ํ•™์Šต
  • computer architecture
  • react
  • algorithm
  • pytorch
  • tw
  • computerscience
  • NLP
  • ROS2
  • LOLPAGO
  • ์•Œ๊ณ ๋ฆฌ์ฆ˜
  • ML
  • kaggle
  • ๊ฒฝ์‚ฌํ•˜๊ฐ•๋ฒ•
  • Ai
  • ๋จธ์‹ ๋Ÿฌ๋‹

์ตœ๊ทผ ๋Œ“๊ธ€

์ตœ๊ทผ ๊ธ€

ํ‹ฐ์Šคํ† ๋ฆฌ

hELLO ยท Designed By ์ •์ƒ์šฐ.
์ดํƒœํ™

ํ™'story

[ML] Neural Network(6) - ์—ญ์ „ํŒŒ(Backpropagation)(2)
AI/Machine Learning

[ML] Neural Network(6) - ์—ญ์ „ํŒŒ(Backpropagation)(2)

2022. 12. 6. 02:13

๐Ÿค” Neural Network

์ธ๊ณต์‹ ๊ฒฝ๋ง(ไบบๅทฅ็ฅž็ถ“็ถฒ, ์˜์–ด: artificial neural network, ANN)์€ ๊ธฐ๊ณ„ํ•™์Šต๊ณผ ์ธ์ง€๊ณผํ•™์—์„œ ์ƒ๋ฌผํ•™์˜ ์‹ ๊ฒฝ๋ง(๋™๋ฌผ์˜ ์ค‘์ถ”์‹ ๊ฒฝ๊ณ„์ค‘ ํŠนํžˆ ๋‡Œ)์—์„œ ์˜๊ฐ์„ ์–ป์€ ํ†ต๊ณ„ํ•™์  ํ•™์Šต ์•Œ๊ณ ๋ฆฌ์ฆ˜์ž…๋‹ˆ๋‹ค.

 

์ธ๊ณต์‹ ๊ฒฝ๋ง์€ ์‹œ๋ƒ…์Šค์˜ ๊ฒฐํ•ฉ์œผ๋กœ ๋„คํŠธ์›Œํฌ๋ฅผ ํ˜•์„ฑํ•œ ์ธ๊ณต ๋‰ด๋Ÿฐ(๋…ธ๋“œ)์ด ํ•™์Šต์„ ํ†ตํ•ด ์‹œ๋ƒ…์Šค์˜ ๊ฒฐํ•ฉ ์„ธ๊ธฐ๋ฅผ ๋ณ€ํ™”์‹œ์ผœ, ๋ฌธ์ œ ํ•ด๊ฒฐ ๋Šฅ๋ ฅ์„ ๊ฐ€์ง€๋Š” ๋ชจ๋ธ ์ „๋ฐ˜์„ ๊ฐ€๋ฆฌํ‚ต๋‹ˆ๋‹ค.

 

์ด๋ฒˆ ํฌ์ŠคํŒ…์—์„œ๋Š” ์—ญ์ „ํŒŒ์— ๋Œ€ํ•ด ์•Œ์•„๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

๐Ÿ”Ž ์†์‹คํ•จ์ˆ˜(Loss Function)

์‹ค์ œ๋กœ ๋งŽ์ด ์‚ฌ์šฉ๋˜๋Š” ์†์‹ค ํ•จ์ˆ˜์— ๋Œ€ํ•ด ์•Œ์•„๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค

 

Cross Entropy Loss Function, Softmax(multi class์—์„œ output node์˜ activaition func), Sigmoid(hidden node์˜ activation func), ReLU(hidden node์˜ activation func) ๋“ฑ์ด ์žˆ์Šต๋‹ˆ๋‹ค.

 

ํ•ด๋‹น ํ•จ์ˆ˜๋“ค์˜ ๋ฏธ๋ถ„์€ ์•„๋ž˜์˜ ๊ทธ๋ฆผ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค.

 

 

 

 

 

Cross Entropy์˜ ๊ฒฝ์šฐ Classification์—์„œ ์‚ฌ์šฉํ•˜์ง€๋งŒ Regression์˜ ๊ฒฝ์šฐ MSE๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.

 

๋ฏธ๋ถ„ ๊ฐ’๋“ค์ด ๋ชจ๋‘ ๊ฐ„๋‹จํ•˜๊ฒŒ ๊ณ„์‚ฐ๋˜๊ธฐ ๋•Œ๋ฌธ์— ํ•ด๋‹น term๋“ค์„ NN์— ๋งŽ์ด ์‚ฌ์šฉํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

๐Ÿ”Ž ์—ญ์ „ํŒŒ ์ž์„ธํžˆ ๋ณด๊ธฐ

์•ž ํฌ์ŠคํŒ…์—์„œ $f'(net)$์ด๋ผ๊ณ  ํ•˜๋ฉฐ ๋„˜์–ด๊ฐ”๋˜ ๋ถ€๋ถ„์„ ์ด์ œ๋Š” ์œ„์˜ ํ•จ์ˆ˜๋“ค์„ ํ†ตํ•ด ๋‹ค์‹œ ๋‚˜ํƒ€๋‚ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

 

 

 

 

 

โœ Hidden to Output

 

 

 

 

 

 

 

 

 

 

โœ Input to Hidden

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

๐Ÿ”Ž Learning Rate

Gradinent Descent๋ฅผ ํ•  ๋•Œ Gradient๋ฅผ ์–ผ๋งŒํผ ๋ฐ˜์˜ํ•  ๊ฒƒ์ธ๊ฐ€์— ๋Œ€ํ•œ ํ•˜์ดํผ ํŒŒ๋ผ๋ฏธํ„ฐ์ž…๋‹ˆ๋‹ค.

 

์ด๋ฅผ ์ˆ˜์‹์œผ๋กœ ๋‚˜ํƒ€๋‚ด๋ฉด ์•„๋ž˜์™€ ๊ฐ™์Šต๋‹ˆ๋‹ค.

 

 

 

๋งŒ์•ฝ ๋„ˆ๋ฌด ํฐ Rate๋ฅผ ๊ฐ€์ง€๊ฒŒ ๋˜๋ฉด ๋ฐœ์‚ฐํ•˜๊ฒŒ  ๋˜๊ณ  ๋„ˆ๋ฌด ์ž‘์€ Rate๋ฅผ ๊ฐ€์ง€๊ฒŒ ๋˜๋ฉด ์ตœ์ €์ ์„ ์ฐพ๋Š” ๊ฒƒ์ด ์˜ค๋ž˜๊ฑธ๋ฆฌ๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

 

Big learning rate

์žฅ์  : ๋†’์€ ์†๋„๋ฅผ ๋ณด์ธ๋‹ค

๋‹จ์  : ๋ฐœ์‚ฐ ๊ฐ€๋Šฅํ•˜๋‹ค

 

Small learning rate

์žฅ์  : ๋ฐœ์‚ฐํ•  ์œ„ํ—˜์ด ์—†๋‹ค

๋‹จ์  : ์ˆ˜๋ ด์ง€์—ฐ

 

 

 

 

 

 

 

 

 

 

๊ทธ๋ž˜์„œ ์šฐ๋ฆฌ๋Š” adaptive learning rate๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.

 

์†๋„๋ฅผ ๋ณ€ํ™”ํ•˜๋ฉด์„œ ํ•™์Šต์„ ์ง„ํ–‰ํ•ฉ๋‹ˆ๋‹ค.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

๐Ÿ”Ž Local Optima Problem

์œ„์˜ ๋ฐฉ๋ฒ•๋“ค์„ ํ†ตํ•ด์„œ ์ €์ ์„ ์ฐพ์„ ์ˆ˜๋Š” ์žˆ์ง€๋งŒ ๊ทธ๊ฒƒ์ด best solution์ด๋ผ๊ณ ๋Š” ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค

 

์šฐ๋ฆฌ๋Š” local minimum์„ ์ฐพ๋Š” ๊ฒƒ ๋ฟ์ž…๋‹ˆ๋‹ค.

 

๊ทธ๋ ‡๊ธฐ ๋•Œ๋ฌธ์— ์ข‹์€ local optimum์„ ์ฐพ๊ธฐ์œ„ํ•ด ๋…ธ๋ ฅํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค.

 

 

 

 

 

 

์ข‹์€ local optima๋ฅผ ์ฐพ๊ธฐ ์œ„ํ•ด bad local optima๋ฅผ ์šฐ๋ฆฌ๋Š” ํ”ผํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค.

 

 

 

 

โœ ์ข‹์€ Local Optimum ์ฐพ๊ธฐ

1. ์ข‹์€ ์‹œ์ž‘ ์‹œ์ ์„ ์ฐพ๋Š” ๋ฐฉ๋ฒ•

์ข‹์€ ์‹œ์ž‘ ์‹œ์ ์„ ์ฐพ๋Š”๋‹ค๋ฉด ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ ์ข‹์€ local optimum์„ ์ฐพ์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

 

ํ•˜์ง€๋งŒ ์ด๋Ÿฌํ•œ ๋ฐฉ๋ฒ•์€ ๊ฑฐ์˜ ๋ถˆ๊ฐ€๋Šฅํ•˜๋‹ค๊ณ  ๋ณด์‹œ๋ฉด ๋ฉ๋‹ˆ๋‹ค.

 

 

 

2. ํ•™์Šต ๋ฉˆ์ถ”๊ธฐ

์ ๋‹นํžˆ ํ•™์Šต์„ ํ•˜๋‹ค๊ฐ€ loss์˜ ์ ˆ๋Œ“๊ฐ’์ด $\theta$๋ณด๋‹ค ์ž‘์•„์ง„๋‹ค๋ฉด ํ•™์Šต์„ ๋ฉˆ์ถฅ๋‹ˆ๋‹ค.

 

์ฆ‰, Overfit์„ ํ•˜์ง€ ์•Š๊ธฐ ์œ„ํ•ด (์•ˆ ์ข‹์€ solution์— Overfit ํ•  ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ) threshold๋ฅผ ์ •ํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

 

 

 

3. Learning Curve ํ™•์ธํ•˜๊ธฐ

Validation Error์— ๋Œ€ํ•œ ๊ทธ๋ž˜ํ”„๋ฅผ ํ†ตํ•ด ์ ๋‹นํ•œ ์œ„์น˜์—์„œ ํ•™์Šต์„ ์ข…๋ฃŒํ•˜๋Š” ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค.

 

 

 

 

 

 

 

 

์ง€๊ธˆ๊นŒ์ง€ ์—ญ์ „ํŒŒ ์•Œ๊ณ ๋ฆฌ์ฆ˜์— ๋Œ€ํ•ด ํ•™์Šตํ–ˆ์Šต๋‹ˆ๋‹ค.

 

์‰ฝ์ง€ ์•Š์€ ๋‚ด์šฉ์ด๋ผ์„œ ๋งŽ์€ ๋ณต์Šต์ด ํ•„์š”ํ•  ๊ฒƒ์ž…๋‹ˆ๋‹ค.

'AI > Machine Learning' ์นดํ…Œ๊ณ ๋ฆฌ์˜ ๋‹ค๋ฅธ ๊ธ€

[ML] ํ•ธ์ฆˆ์˜จ ๋จธ์‹ ๋Ÿฌ๋‹ - 10(ํ•˜์œ„ ํด๋ž˜์Šค API๋กœ ๋™์  ๋ชจ๋ธ ๋งŒ๋“ค๊ธฐ)  (0) 2023.01.03
[ML] ํ•ธ์ฆˆ์˜จ ๋จธ์‹ ๋Ÿฌ๋‹ - 10์žฅ(๋‹ค์–‘ํ•œ ๋ชจ๋ธ ๋งŒ๋“ค๊ธฐ)  (0) 2023.01.03
[ML] Neural Network(5) - ์—ญ์ „ํŒŒ(Backpropagation)(1)  (0) 2022.12.06
[ML] Neural Network(4) - ์ˆœ์ „ํŒŒ(Feedforward Process)  (0) 2022.12.01
[ML] Neural Network(3) - MLP(Multilayer Perceptron)  (0) 2022.12.01
    'AI/Machine Learning' ์นดํ…Œ๊ณ ๋ฆฌ์˜ ๋‹ค๋ฅธ ๊ธ€
    • [ML] ํ•ธ์ฆˆ์˜จ ๋จธ์‹ ๋Ÿฌ๋‹ - 10(ํ•˜์œ„ ํด๋ž˜์Šค API๋กœ ๋™์  ๋ชจ๋ธ ๋งŒ๋“ค๊ธฐ)
    • [ML] ํ•ธ์ฆˆ์˜จ ๋จธ์‹ ๋Ÿฌ๋‹ - 10์žฅ(๋‹ค์–‘ํ•œ ๋ชจ๋ธ ๋งŒ๋“ค๊ธฐ)
    • [ML] Neural Network(5) - ์—ญ์ „ํŒŒ(Backpropagation)(1)
    • [ML] Neural Network(4) - ์ˆœ์ „ํŒŒ(Feedforward Process)
    ์ดํƒœํ™
    ์ดํƒœํ™
    ๊ณต๋ถ€ํ•˜์ž ํƒœํ™์•„

    ํ‹ฐ์Šคํ† ๋ฆฌํˆด๋ฐ”