• ๋ฏธ๋ถ„์€ ์ž…๋ ฅ์˜ ์ž‘์€ ๋ณ€ํ™”์— ๋น„๋ก€ํ•ด ์ถœ๋ ฅ์ด ์–ผ๋งˆ๋‚˜ ๋ณ€ํ•˜๋Š”์ง€๋ฅผ ๋งํ•ด์ค€๋‹ค.
  • ์ด๋Ÿฐ ์„ฑ์งˆ์€ ๋ฏธ๋ถ„ ํ•จ์ˆ˜์˜ ์ตœ์†Œํ™”์— ์œ ์šฉํ•˜๋‹ค.
  • ๋„ํ•จ์ˆ˜๋Š” ์ถœ๋ ฅ y๋ฅผ ๊ฐœ์„ ํ•˜๋ ค๋ฉด ์ž…๋ ฅ x๋ฅผ ์–ผ๋งˆ๋‚˜ ๋ณ€ํ™”ํ•ด์•ผ ํ•˜๋Š”์ง€์— ๋Œ€ํ•œ ์ •๋ณด๋ฅผ ์ฃผ๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค.
  • ์ด๋ ‡๊ฒŒ ๋ฏธ๋ถ„๊ฐ’์˜ ๋ถ€ํ˜ธํ™” ๋ฐ˜๋Œ€์ธ ๋ฐฉํ–ฅ์œผ๋กœ ์ด๋™ํ•˜์—ฌ ์˜ ๊ฐ’์„ ์ตœ์†Œํ™”ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ Gradient Descent๋ผ๊ณ  ํ•œ๋‹ค.

Critical Point

  • ๋ฏธ๋ถ„๊ฐ’์ด 0์ธ ์ง€์ ์„ ๋งํ•œ๋‹ค.
  • Gradient Descent๋Š” Critical Point์—์„œ๋งŒ ์ž‘๋™ํ•œ๋‹ค.
  • ์ด ์ง€์ ์—์„œ๋Š” ๊ธฐ์šธ๊ธฐ๊ฐ€ 0์ด๋ฏ€๋กœ, ๋” ์ด์ƒ ์ด๋™ํ•  ์ˆ˜ ์—†๋‹ค.
  • ์ •๋ฅ˜์  (stationary point)๋ผ๊ณ ๋„ ํ•œ๋‹ค.

์ข…๋ฅ˜

  • Local Minimum Point: ์ฃผ๋ณ€ ๋ณด๋‹ค ๊ฐ€์žฅ ์ž‘์€ ๊ฐ’
  • Local Maximum Point: ์ฃผ๋ณ€ ๋ณด๋‹ค ๊ฐ€์žฅ ํฐ ๊ฐ’
  • Saddle Point: ๋ชจ๋“  ๋ฐฉํ–ฅ์—์„œ ๊ธฐ์šธ๊ธฐ๊ฐ€ 0์ด์ง€๋งŒ, Local Minimum์ด๋‚˜ Local Maximum์€ ์•„๋‹Œ ์ง€์ 
  • Global Minimum Point: ๋ชจ๋“  ์ ์—์„œ ๊ฐ€์žฅ ์ž‘์€ ๊ฐ’
    • ์—ฌ๋Ÿฌ๊ฐœ๊ฐ€ ์กด์žฌํ•  ์ˆ˜๋„ ์žˆ๋‹ค.

Gradient

  • ๋‹น์—ฐํ•˜๊ฒ ์ง€๋งŒ, ์šฐ๋ฆฌ๊ฐ€ ๋‹ค๋ฃจ๋Š” ํ•จ์ˆ˜๋Š” ์ด๋‹ค.
  • ์ฆ‰, ์ž…๋ ฅ์ด ๋ฒกํ„ฐ์ด๊ณ  ์ถœ๋ ฅ์ด ์Šค์นผ๋ผ์ธ ํ•จ์ˆ˜๋ฅผ ๋‹ค๋ฃฌ๋‹ค.
    • ์ตœ์†Œํ™”๋ผ๋Š” ๊ฐœ๋…์ด ์„ฑ๋ฆฝํ•˜๋ ค๋ฉด ์ถœ๋ ฅ์ด ์Šค์นผ๋ผ์—ฌ์•ผ ํ•œ๋‹ค.
  • ์ด๋ ‡๊ฒŒ ์ž…๋ ฅ์ด ์—ฌ๋Ÿฌ๊ฐœ์ผ ๊ฒฝ์šฐ ๋‹น์—ฐํžˆ ํŽธ๋ฏธ๋ถ„์œผ๋กœ ๊ฐ ์ž…๋ ฅ์— ๋Œ€ํ•œ ๋ฏธ๋ถ„๊ฐ’์„ ๊ณ„์‚ฐํ•ด์•ผ ํ•œ๋‹ค.
\\nabla f(x) = \left\[ \frac{\partial f}{\partial x_1}, \frac{\partial f}{\partial x_2}, \cdots, \frac{\partial f}{\partial x_n} \right\]
  • ์ด๋ ‡๊ฒŒ ๊ตฌํ•œ ๋ฅผ Gradient (๊ตฌ๋ฐฐ) ๋ผ๊ณ  ํ•œ๋‹ค.
  • ๋‹ค์ฐจ์› ์ž…๋ ฅ ํ•จ์ˆ˜์—์„œ์˜ Critical Point๋Š” Gradient๊ฐ€ 0์ธ ์ง€์ ์ด๋‹ค.

Directional Derivative

  • ํ•จ์ˆ˜ ์˜ ๋ฐฉํ–ฅ ๊ธฐ์šธ๊ธฐ๋ฅผ ๋ฐฉํ–ฅ์˜ ๋ฐฉํ–ฅ ๋ฏธ๋ถ„(Directional Derivative) ์ด๋ผ ํ•œ๋‹ค.
  • ์šฐ๋ฆฌ๊ฐ€ ์•Œ๊ณ  ์‹ถ์€ ๊ฑด ๋ฐฉํ–ฅ์— ๋Œ€ํ•œ ๊ธฐ์šธ๊ธฐ๊ฐ€ ์–ผ๋งˆ์ด๋ƒ์ด๋‹ค.
  • ์ฆ‰, ๋งŒํผ ๋ฅผ ๋ฐฉํ–ฅ์œผ๋กœ ์ด๋™ํ–ˆ์„ ๋•Œ์˜ ํ•จ์ˆ˜๊ฐ’ () ๊ณผ ์˜ ์ฐจ์ด๋ฅผ ๊ตฌํ•˜๋Š” ๊ฒƒ์ด๋‹ค.
  • ์ด๋Š” ์™€ ์˜ ๋‚ด์ ์œผ๋กœ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๋‹ค.

Gradient Descent

  • ์‚ฐ ์ •์ƒ์— ์žˆ๋‹ค๊ณ  ํ•˜์ž.
  • ๊ทธ๋Ÿฐ๋ฐ ์—ฌ๊ธฐ์„œ ํ•˜์‚ฐ์„ ๊ฐ€์žฅ ๋นจ๋ฆฌํ•ด์•ผ ํ•œ๋‹ค.
  • ๊ทธ๋ ‡๋‹ค๋ฉด ์œ„ํ—˜ํ•˜๋”๋ผ๋„ ๊ฒฝ์‚ฌ๊ฐ€ ๊ฐ€์žฅ ๊ธ‰ํ•œ ๋ฐฉํ–ฅ์œผ๋กœ ๋‚ด๋ ค๊ฐ€์•ผ ํ•œ๋‹ค.
  • ์ด๊ฑธ ์ˆ˜ํ•™์ ์œผ๋กœ ์ฆ๋ช…ํ•ด๋ณด์ž.
  • ํŠน์ • ์ง€์ ์—์„œ์˜ ๋ฐฉํ–ฅ์„ ๋ผ ํ•˜์ž.
  • ๊ทธ๋ ‡๋‹ค๋ฉด, ๋‚ด๊ฐ€ ์ด ์ง€์ ์— ์žˆ์„ ๋•Œ, ์–ด๋Š ๋ฐฉํ–ฅ์œผ๋กœ ๊ฐ€์•ผ ๊ฐ€์žฅ ๋นจ๋ฆฌ ๋‚ด๋ ค๊ฐˆ ์ˆ˜ ์žˆ์„๊นŒ?
    • ๋‹น์—ฐํ•˜์ง€๋งŒ ํ•ด๋‹น ์ง€์ ์˜ ๊ธฐ์šธ๊ธฐ (๊ฐ€์žฅ ๊ธ‰ํ•œ ๊ฒฝ์‚ฌ๋ฅผ ์˜๋ฏธ)์— ๋ฐ˜๋Œ€๋ฐฉํ–ฅ์œผ๋กœ ๊ฐ€๋ฉด ๋  ๊ฒƒ์ด๋‹ค.
  • ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ ํŠน์ • Objective Function์ด ์žˆ์„ ๋•Œ, ๊ฐ€์žฅ ๊ฒฝ์‚ฌ๊ฐ€ ๊ธ‰ํ•œ ๋ฐฉํ–ฅ ๋ฅผ ์ฐพ์•„์„œ ์ด๋™ํ•˜๋Š” ๊ฒƒ์ด ์ข‹์„ ์ˆ˜ ์žˆ๋‹ค.
\\min\limits\_{u, u^Tu = 1} u^T \nabla f(x) = \min\limits\_{u, u^Tu = 1} \left\| u \right\| \left\| \nabla f(x) \right\| \cos \theta
  • ์œ„ ์‹์€, ๋ฅผ ์ตœ์†Œํ™”ํ•˜๋Š” ๋ฐฉํ–ฅ์˜ ๋ฅผ ์ฐพ๋Š” ๊ณผ์ •์ด๋‹ค.
  • (๋‹จ์œ„๋ฒกํ„ฐ), ๋Š” ๊ณ ์ •๋œ ์ƒ์ˆ˜ (๊ตฌ๋ฐฐ์˜ ํฌ๊ธฐ)์ด๋ฏ€๋กœ, ์ด๋ฅผ ์ตœ์†Œํ™”ํ•˜๋Š” ๋ฐฉํ–ฅ์€ ๋ฅผ ์ตœ์†Œํ™”ํ•˜๋Š” ๋ฐฉํ–ฅ์ด๋‹ค.
  • ์ฆ‰, ํ•ด๋‹น Gradient์˜ ์Œ์˜ ๊ธฐ์šธ๊ธฐ ๋ฐฉํ–ฅ์œผ๋กœ ์ด๋™ํ•˜๋ฉด ์ตœ๋Œ€ ๊ฒฝ์‚ฌ๋กœ ํ•˜๊ฐ•ํ•œ๋‹ค.
  • ์ด๋ฅผ Gradient Descent๋ผ๊ณ  ํ•œ๋‹ค.
    • Method of Steepest Descent๋ผ๊ณ ๋„ ํ•œ๋‹ค.
  • ๋Š” Learning Rate๋กœ, ์–ผ๋งˆ๋‚˜ ํฐ ๋ณดํญ์œผ๋กœ ์ด๋™ํ• ์ง€๋ฅผ ๊ฒฐ์ •ํ•œ๋‹ค.
  • ์ด ๊ฐ’์ด ๋„ˆ๋ฌด ์ž‘์œผ๋ฉด ์ˆ˜๋ ดํ•˜๋Š”๋ฐ ์‹œ๊ฐ„์ด ์˜ค๋ž˜ ๊ฑธ๋ฆฌ๊ณ , ๋„ˆ๋ฌด ํฌ๋ฉด ๋ฐœ์‚ฐํ•  ์ˆ˜ ์žˆ๋‹ค.
  • ํ•ด๋‹น ๊ฐ’์„ ์ •ํ•˜๋Š” ๋ฐฉ๋ฒ•์€ ๋‹ค์–‘ํ•œ๋‹ค.