์ญ์ ํ
์ด ๋ถ๋ถ์ ์ดํดํ๊ธฐ ์ ์, Deep Learning์ ๋ํ ์ ๋ฐ์ ์ธ ๊ณผ์ ์ ์ดํดํ๋ ๊ฒ์ด ์ข๋ค.
์๋ถ๋ถ์์๋ cost ํจ์๋ฅผ ์ ์ํ๊ณ ์ด๋ฅผ ํ์ตํ๋๋ฐ ์์ด gradient descent ๋ฐฉ๋ฒ์ ํ์ฉํ๋ค.
๊ทธ๋ฐ๋ฐ, ๊ทผ๋ณธ์ ์ธ NN์ ํ๊ณ๋ XOR๋ฌธ์ ๋ฅผ ํ์ง ๋ชปํ๋ค๋ ์ ์ด์๋๋ฐ, ์ด๋ฅผ ํด๊ฒฐํ๋ ค๋ฉด 2๊ฐ ์ด์์ Layer๊ฐ ํ์ํ๋ค.
๊ทธ๋ ๊ฒ ๋๋ฉด์ ์ฌ๋ฌ Layer๋ฅผ ํ์ฉํ NN๋ชจ๋ธ์ด ๋์ค๊ฒ ๋์๋๋ฐ, ๊ทธ๋ ๋ค๋ฉด, ์ด ์ฌ๋ฌ ๊ฐ์ Layer๋ฅผ ์์ NN๋ชจ๋ธ์ ์ด๋ป๊ฒ ํ์ต์ ํด์ผํ๋๊ฐ? ๊ทธ๊ฒ์ด ๋ฐ๋ก ์ญ์ ํ์ด๋ค.
์ฐ๋ฆฌ๋ ๊ฒฐ๊ตญ, costํจ์๋ฅผ ์ต์ํํ๋๋ฐ ์์ด์, w, x, b๊ฐ ์ฃผ๋ ๊ฐ๊ฐ์ ์ํฅ๋ ฅ(๋ฏธ๋ถ๊ฐ)์ ์์๋ด์ผ ํ๋ค. ๊ทธ๋ฆฌ๊ณ ์ด ๊ฐ๋ค์ ํ ๋๋ก ๊ฒฝ์ฌํ๊ฐ๋ฒ์ ์ํํด์ผ ํ๋ค.
Chain rule
๊ฒฐ๊ตญ ์ผ์ชฝ์ ๋์ฌ์๋ ๊ฐ ํธ๋ฏธ๋ถ๊ฐ์ ์ฐ์๋ฒ์น์ผ๋ก ๊ตฌํด์ง ์ ์๋ค.
์ ๋ณด๊ฒ๋๋ฉด, ์ฌ์ฉ๋๋ ๋ฏธ๋ถ ๊ฐ์ 4๊ฐ๊ฐ ์ ๋ถ์ด๋ค.
์ฌ๊ธฐ๋ก ๋ถํฐ,
์ด 4๊ฐ์ ๊ฐ์ด ์กฐํฉ๋์ด ์ํ๋ ๊ฐ์ ์ป์ ์ ์๋ค.
๊ฐ ๋ณ์ x, w, b๋ ์ด๊ธฐ์ ์ ํด์ง ๊ฐ์ด ๋ฃ์ด์ง๊ฒ ๋๋ค.