Train/Test Dataset
์ ํ๋๋ฅผ ์ธก์ ํ๋๋ฐ ์์ด์ ์์์๋, ๋ชจ๋ธ์ ํ๋ จํ๋ ๋ฐ ์ฌ์ฉํ๋ ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ง๊ณ ์ ํ๊ฐํ๋ค.
๊ทธ๋ฐ๋ฐ ์ฌ์ค์ ๊ทธ๋ ๊ฒ ์ํํ๋ฉด ์๋๋ ๊ฒ์ด ๋น์ฐํ๋ค.
๋ชจ๋ธ์ ์
์ฅ์์๋ ๋ด๊ฐ ์ด๋ฏธ ๋จน์ด๋ณธ ์์์ ๋ํด ๊ฒฐ๊ณผ๋ฅผ ๋ด๋์ผ๋ผ ํ๋ ๋น์ฐํ ์ข์ ๊ฒฐ๊ณผ๊ฐ ๋์ค๊ธฐ ๋๋ฌธ์ด๋ค. ์ฐ๋ฆฌ๋ ๋ด๊ฐ ํ๋ จํ ๋ชจ๋ธ์ด ์๋ก์ด ์์์ ๋ฃ์์ ๋๋
์ข๊ฒ ์์ธกํ๋์ง๊ฐ ๊ถ๊ธํ๋ค. ๊ทธ๋ ๊ธฐ ๋๋ฌธ์ ์ฐ๋ฆฌ๋ ์ ์ฒด ๋ฐ์ดํฐ ์
์ ๋๋ ์ ๊ด๋ฆฌํด์ผ ํ๋ค.
Train/Test ๋ก.
Learning rate
Gradient descent๋ฅผ ๋ณด๊ฒ๋๋ฉด, alpha ๋ผ๋ ์์ ํญ์ด ๊ณฑํด์ ธ ์๋๋ฐ, ์ด๊ฒ์ ์ต์ ์ ์ผ๋ก ๊ฐ๋๋ฐ ์์ด ์ผ๋ง๋ ๋๋ฐ๊ธฐ๋ฅผ ํฌ๊ฒ ํ ๊ฒ์ด๋๋ฅผ ๊ฒฐ์ ํ๋ค.
์ผ์ชฝ์, ํ์ต๋ฅ ์ด ํฐ ๊ฒฝ์ฐ, ๊ตญ์์ ์ผ๋ก๋ถํฐ ๋ฉ๋ฆฌ ๋จ์ด์ ธ ๊ฐ์ด ๋ฐ์ฐํ๋ ๊ฒฝ์ฐ์ด๊ณ ,
์ค๋ฅธ์ชฝ์ ๋๋ฌด ํ์ต๋ฅ ์ด ์์ local minima์ ๋น ์ง๋ ๊ฒฝ์ฐ๋ฅผ ๋ณด์ฌ์ค ๊ฒ์ด๋ค.
ํฐ Learning rate
์ต์์ ์ ๋ค์ด๊ฐ์ง ๋ชปํ๊ณ , ๋ฐ์ฐํด ๋ฒ๋ฆฐ๋ค.
์์ Learning rate
๊ด์ฐฐํด๋ณด๋ฉด, cost๊ฐ ๊ฐ์ํ๊ณ ์์ง ์์์ ๋ณผ ์ ์๋ค.
๊ตญ์ ์ต์์ ์ ๊ฐํ๊ฑฐ๋, ์ด๋ํ์ง ๋ชปํ๊ณ ์์์ ๋ณด์ฌ์ค๋ค.
??? ์์ ์ฝ๋๋ฅผ ๋ณด๋ฉด, ๋๋ฌด๋๋ ์ฌํํ ์ฝ๋์ธ๋ฐ cost๊ฐ ๋ฐ์ฐํ๋ ๋ฌธ์ ๊ฐ ์๊ฒจ๋ฒ๋ ธ๋ค. ์ ์ผ๊น?
์ฌ์ค regression์ ํ๋ ฌ์ ๋ค๋ฃจ๊ฒ ๋์ด์๋ค. ๊ทธ๋ฐ๋ฐ ์ปดํจํฐ๋ก ๊ณ์ฐํ ๋์ ๊ฐ ํ๋ ฌ์ ์์๊ฐ ๋น์ทํ ํฌ๊ธฐ๋ฅผ ๊ฐ์ง ์์ ๊ฒฝ์ฐ ์ฐ์ฐ์ ์ํํ ๋, ์ค๋ฅ๊ฐ ์๊ธด๋ค.
์ฐ๋ฆฌ๋ ํ๋ ฌ์ ๊ณ์ฐํ๋๋ฐ ์์ด Computing Method๋ฅผ ์ฌ์ฉํ๋๋ฐ, ํ์ค์ ๊ฐ์ ๊ทผ์ฌํด์ ๋งคํํ๋ ์ปดํจํฐ์ ํ๊ณ ๋๋ฌธ์, ์ฐ๋ฆฌ๋ Round Off Error ๋ฅผ ํ์ฐ์ ์ผ๋ก ๊ฐ์ง ์ ๋ฐ์ ์๋ค.
์ด๊ฒ์ ๊ดํ ๋ด์ฉ์, 08. Pivoting ๋ํ, ์์ ๊ฐ์ input data๋ฅผ ๋ฃ์์ ๊ฒฝ์ฐ, ๊ฐ weight์ ๊ฐ์ ๋ถํฌ๊ฐ ๋ถ๊ท ์ผ ํ๋ค.
์ด๋ ฌ ๊ฒฝ์ฐ, ํ์ต๋ฅ alpha์ ์ํด ์ํฅ์ ๋ฐ์ผ๋ฉฐ ์ต์ ์ ์ ์ฐพ์๊ฐ๋๋ฐ, w1, w2๊ฐ ๋ค๋ฅด๊ฒ ์ํฅ์ ๋ฐ๊ฒ๋์ด ๋ฐ์ฐํ ๊ฐ๋ฅ์ฑ์ด ๊ต์ฅํ ๋์์ง๋ค.
๋ฐ๋ผ์ ์ฐ๋ฆฌ๋ ์ ๊ทํ๋ฅผ ํ์ฌ w1, w2๊ฐ ๊ฐ์ ์ํฅ๋ ฅ์ ๋ฐ๋๋ก ํด์ผํ๋ค.
๋ฐ๋ผ์ ์ฐ๋ฆฌ๋ ์ด ๊ฐ๋ค์ scalingํด์ ์ง์ด๋ฃ์ด์ค๋ค.
์ด ๋, ๊ฐ ์ด ๋ณ๋ก ์ต์๊ฐ๊ณผ ์ต๋๊ฐ์ ๊ธฐ์ค์ผ๋ก ์ ๊ทํํด์ฃผ๋ min-max scale์ ์ฌ์ฉํ๋ค.