์—ญ์ „ํŒŒ

์ด ๋ถ€๋ถ„์„ ์ดํ•ดํ•˜๊ธฐ ์ „์—, Deep Learning์— ๋Œ€ํ•œ ์ „๋ฐ˜์ ์ธ ๊ณผ์ •์„ ์ดํ•ดํ•˜๋Š” ๊ฒƒ์ด ์ข‹๋‹ค.

์•ž๋ถ€๋ถ„์—์„œ๋Š” cost ํ•จ์ˆ˜๋ฅผ ์ •์˜ํ•˜๊ณ  ์ด๋ฅผ ํ•™์Šตํ•˜๋Š”๋ฐ ์žˆ์–ด gradient descent ๋ฐฉ๋ฒ•์„ ํ™œ์šฉํ–ˆ๋‹ค.

๊ทธ๋Ÿฐ๋ฐ, ๊ทผ๋ณธ์ ์ธ NN์˜ ํ•œ๊ณ„๋Š” XOR๋ฌธ์ œ๋ฅผ ํ’€์ง€ ๋ชปํ•œ๋‹ค๋Š” ์ ์ด์—ˆ๋Š”๋ฐ, ์ด๋ฅผ ํ•ด๊ฒฐํ•˜๋ ค๋ฉด 2๊ฐœ ์ด์ƒ์˜ Layer๊ฐ€ ํ•„์š”ํ–ˆ๋‹ค.

๊ทธ๋ ‡๊ฒŒ ๋˜๋ฉด์„œ ์—ฌ๋Ÿฌ Layer๋ฅผ ํ™œ์šฉํ•œ NN๋ชจ๋ธ์ด ๋‚˜์˜ค๊ฒŒ ๋˜์—ˆ๋Š”๋ฐ, ๊ทธ๋ ‡๋‹ค๋ฉด, ์ด ์—ฌ๋Ÿฌ ๊ฐœ์˜ Layer๋ฅผ ์Œ“์€ NN๋ชจ๋ธ์€ ์–ด๋–ป๊ฒŒ ํ•™์Šต์„ ํ•ด์•ผํ•˜๋Š”๊ฐ€? ๊ทธ๊ฒƒ์ด ๋ฐ”๋กœ ์—ญ์ „ํŒŒ์ด๋‹ค.

์šฐ๋ฆฌ๋Š” ๊ฒฐ๊ตญ, costํ•จ์ˆ˜๋ฅผ ์ตœ์†Œํ™”ํ•˜๋Š”๋ฐ ์žˆ์–ด์„œ, w, x, b๊ฐ€ ์ฃผ๋Š” ๊ฐ๊ฐ์˜ ์˜ํ–ฅ๋ ฅ(๋ฏธ๋ถ„๊ฐ’)์„ ์•Œ์•„๋‚ด์•ผ ํ•œ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ์ด ๊ฐ’๋“ค์„ ํ† ๋Œ€๋กœ ๊ฒฝ์‚ฌํ•˜๊ฐ•๋ฒ•์„ ์ˆ˜ํ–‰ํ•ด์•ผ ํ•œ๋‹ค.

Chain rule

๊ฒฐ๊ตญ ์™ผ์ชฝ์— ๋†“์—ฌ์žˆ๋Š” ๊ฐ ํŽธ๋ฏธ๋ถ„๊ฐ’์€ ์—ฐ์‡„๋ฒ•์น™์œผ๋กœ ๊ตฌํ•ด์งˆ ์ˆ˜ ์žˆ๋‹ค.

์ž˜ ๋ณด๊ฒŒ๋˜๋ฉด, ์‚ฌ์šฉ๋˜๋Š” ๋ฏธ๋ถ„ ๊ฐ’์€ 4๊ฐœ๊ฐ€ ์ „๋ถ€์ด๋‹ค.

์—ฌ๊ธฐ๋กœ ๋ถ€ํ„ฐ,

์ด 4๊ฐœ์˜ ๊ฐ’์ด ์กฐํ•ฉ๋˜์–ด ์›ํ•˜๋Š” ๊ฐ’์„ ์–ป์„ ์ˆ˜ ์žˆ๋‹ค.

๊ฐ ๋ณ€์ˆ˜ x, w, b๋Š” ์ดˆ๊ธฐ์— ์ •ํ•ด์ง„ ๊ฐ’์ด ๋„ฃ์–ด์ง€๊ฒŒ ๋œ๋‹ค.