- ๋ฏธ๋ถ์ ์
๋ ฅ์ ์์ ๋ณํ์ ๋น๋กํด ์ถ๋ ฅ์ด ์ผ๋ง๋ ๋ณํ๋์ง๋ฅผ ๋งํด์ค๋ค.
- ์ด๋ฐ ์ฑ์ง์ ๋ฏธ๋ถ ํจ์์ ์ต์ํ์ ์ ์ฉํ๋ค.
- ๋ํจ์๋ ์ถ๋ ฅ y๋ฅผ ๊ฐ์ ํ๋ ค๋ฉด ์
๋ ฅ x๋ฅผ ์ผ๋ง๋ ๋ณํํด์ผ ํ๋์ง์ ๋ํ ์ ๋ณด๋ฅผ ์ฃผ๊ธฐ ๋๋ฌธ์ด๋ค.
- ์ด๋ ๊ฒ ๋ฏธ๋ถ๊ฐ์ ๋ถํธํ ๋ฐ๋์ธ ๋ฐฉํฅ์ผ๋ก ์ด๋ํ์ฌ f(x)์ ๊ฐ์ ์ต์ํํ๋ ๋ฐฉ๋ฒ์ Gradient Descent๋ผ๊ณ ํ๋ค.
Critical Point
- ๋ฏธ๋ถ๊ฐ์ด 0์ธ ์ง์ ์ ๋งํ๋ค.
- Gradient Descent๋ Critical Point์์๋ง ์๋ํ๋ค.
- ์ด ์ง์ ์์๋ ๊ธฐ์ธ๊ธฐ๊ฐ 0์ด๋ฏ๋ก, ๋ ์ด์ ์ด๋ํ ์ ์๋ค.
- ์ ๋ฅ์ (stationary point)๋ผ๊ณ ๋ ํ๋ค.
์ข
๋ฅ
- Local Minimum Point: ์ฃผ๋ณ ๋ณด๋ค ๊ฐ์ฅ ์์ ๊ฐ
- Local Maximum Point: ์ฃผ๋ณ ๋ณด๋ค ๊ฐ์ฅ ํฐ ๊ฐ
- Saddle Point: ๋ชจ๋ ๋ฐฉํฅ์์ ๊ธฐ์ธ๊ธฐ๊ฐ 0์ด์ง๋ง, Local Minimum์ด๋ Local Maximum์ ์๋ ์ง์
- Global Minimum Point: ๋ชจ๋ ์ ์์ ๊ฐ์ฅ ์์ ๊ฐ
- ์ฌ๋ฌ๊ฐ๊ฐ ์กด์ฌํ ์๋ ์๋ค.
Gradient
- ๋น์ฐํ๊ฒ ์ง๋ง, ์ฐ๋ฆฌ๊ฐ ๋ค๋ฃจ๋ ํจ์๋ RnโR์ด๋ค.
- ์ฆ, ์
๋ ฅ์ด ๋ฒกํฐ์ด๊ณ ์ถ๋ ฅ์ด ์ค์นผ๋ผ์ธ ํจ์๋ฅผ ๋ค๋ฃฌ๋ค.
- ์ต์ํ๋ผ๋ ๊ฐ๋
์ด ์ฑ๋ฆฝํ๋ ค๋ฉด ์ถ๋ ฅ์ด ์ค์นผ๋ผ์ฌ์ผ ํ๋ค.
- ์ด๋ ๊ฒ ์
๋ ฅ์ด ์ฌ๋ฌ๊ฐ์ผ ๊ฒฝ์ฐ ๋น์ฐํ ํธ๋ฏธ๋ถ์ผ๋ก ๊ฐ ์
๋ ฅ์ ๋ํ ๋ฏธ๋ถ๊ฐ์ ๊ณ์ฐํด์ผ ํ๋ค.
\\nabla f(x) = \left\[ \frac{\partial f}{\partial x_1}, \frac{\partial f}{\partial x_2}, \cdots, \frac{\partial f}{\partial x_n} \right\]
- ์ด๋ ๊ฒ ๊ตฌํ โf(x)๋ฅผ Gradient (๊ตฌ๋ฐฐ) ๋ผ๊ณ ํ๋ค.
- ๋ค์ฐจ์ ์
๋ ฅ ํจ์์์์ Critical Point๋ Gradient๊ฐ 0์ธ ์ง์ ์ด๋ค.
Directional Derivative
- ํจ์ f์ u ๋ฐฉํฅ ๊ธฐ์ธ๊ธฐ๋ฅผ u ๋ฐฉํฅ์ ๋ฐฉํฅ ๋ฏธ๋ถ(Directional Derivative) ์ด๋ผ ํ๋ค.
- ์ฐ๋ฆฌ๊ฐ ์๊ณ ์ถ์ ๊ฑด u ๋ฐฉํฅ์ ๋ํ ๊ธฐ์ธ๊ธฐ๊ฐ ์ผ๋ง์ด๋์ด๋ค.
- ์ฆ, ฮฑ ๋งํผ x๋ฅผ u ๋ฐฉํฅ์ผ๋ก ์ด๋ํ์ ๋์ ํจ์๊ฐ (f(x+ฮฑu)) ๊ณผ f(x)์ ์ฐจ์ด๋ฅผ ๊ตฌํ๋ ๊ฒ์ด๋ค.
fracโโx1โf(x+ฮฑu)=lim_ฮฑโ0ฮฑf(x+ฮฑu)โf(x)โ=uTโf(x)
- ์ด๋ โf(x)์ u์ ๋ด์ ์ผ๋ก ํํํ ์ ์๋ค.
Gradient Descent
- ์ฐ ์ ์์ ์๋ค๊ณ ํ์.
- ๊ทธ๋ฐ๋ฐ ์ฌ๊ธฐ์ ํ์ฐ์ ๊ฐ์ฅ ๋นจ๋ฆฌํด์ผ ํ๋ค.
- ๊ทธ๋ ๋ค๋ฉด ์ํํ๋๋ผ๋ ๊ฒฝ์ฌ๊ฐ ๊ฐ์ฅ ๊ธํ ๋ฐฉํฅ์ผ๋ก ๋ด๋ ค๊ฐ์ผ ํ๋ค.
- ์ด๊ฑธ ์ํ์ ์ผ๋ก ์ฆ๋ช
ํด๋ณด์.
- ํน์ ์ง์ ์์์ ๋ฐฉํฅ์ u๋ผ ํ์.
- ๊ทธ๋ ๋ค๋ฉด, ๋ด๊ฐ ์ด ์ง์ ์ ์์ ๋, ์ด๋ ๋ฐฉํฅ์ผ๋ก ๊ฐ์ผ ๊ฐ์ฅ ๋นจ๋ฆฌ ๋ด๋ ค๊ฐ ์ ์์๊น?
- ๋น์ฐํ์ง๋ง ํด๋น ์ง์ ์ ๊ธฐ์ธ๊ธฐ (๊ฐ์ฅ ๊ธํ ๊ฒฝ์ฌ๋ฅผ ์๋ฏธ)์ ๋ฐ๋๋ฐฉํฅ์ผ๋ก ๊ฐ๋ฉด ๋ ๊ฒ์ด๋ค.
- ๋ง์ฐฌ๊ฐ์ง๋ก ํน์ Objective Function์ด ์์ ๋, ๊ฐ์ฅ ๊ฒฝ์ฌ๊ฐ ๊ธํ ๋ฐฉํฅ u๋ฅผ ์ฐพ์์ ์ด๋ํ๋ ๊ฒ์ด ์ข์ ์ ์๋ค.
\\min\limits\_{u, u^Tu = 1} u^T \nabla f(x) = \min\limits\_{u, u^Tu = 1} \left\| u \right\| \left\| \nabla f(x) \right\| \cos \theta
- ์ ์์, f(x)๋ฅผ ์ต์ํํ๋ ๋ฐฉํฅ์ u๋ฅผ ์ฐพ๋ ๊ณผ์ ์ด๋ค.
- โฅuโฅ=1 (๋จ์๋ฒกํฐ), โฅโf(x)โฅ ๋ ๊ณ ์ ๋ ์์ (๊ตฌ๋ฐฐ์ ํฌ๊ธฐ)์ด๋ฏ๋ก, ์ด๋ฅผ ์ต์ํํ๋ ๋ฐฉํฅ์ cosฮธ๋ฅผ ์ต์ํํ๋ ๋ฐฉํฅ์ด๋ค.
- ์ฆ, ํด๋น Gradient์ ์์ ๊ธฐ์ธ๊ธฐ ๋ฐฉํฅ์ผ๋ก ์ด๋ํ๋ฉด ์ต๋ ๊ฒฝ์ฌ๋ก ํ๊ฐํ๋ค.
- ์ด๋ฅผ Gradient Descent๋ผ๊ณ ํ๋ค.
- Method of Steepest Descent๋ผ๊ณ ๋ ํ๋ค.
x_n+1=xnโโฮฑโf(xnโ)
- ฮฑ๋ Learning Rate๋ก, ์ผ๋ง๋ ํฐ ๋ณดํญ์ผ๋ก ์ด๋ํ ์ง๋ฅผ ๊ฒฐ์ ํ๋ค.
- ์ด ๊ฐ์ด ๋๋ฌด ์์ผ๋ฉด ์๋ ดํ๋๋ฐ ์๊ฐ์ด ์ค๋ ๊ฑธ๋ฆฌ๊ณ , ๋๋ฌด ํฌ๋ฉด ๋ฐ์ฐํ ์ ์๋ค.
- ํด๋น ๊ฐ์ ์ ํ๋ ๋ฐฉ๋ฒ์ ๋ค์ํ๋ค.