What is Padding Convolution

  • ์ „ ๊ฒŒ์‹œ๋ฌผ์—์„œ 3x3 ์งœ๋ฆฌ ํ•„ํ„ฐ๋ฅผ ๊ฑธ์—ˆ์„ ๋•Œ, 4x4์งœ๋ฆฌ๊ฐ€ ๋‚˜์™”๋‹ค.

  • ์–ด๋–ป๊ฒŒ ๋ณด๋ฉด ๋‹น์—ฐํ•  ๊ฒฐ๊ณผ์ด๋‹ค.

  • ์ด๋ฏธ์ง€์˜ ํ•œ ๋ณ€์˜ ํฌ๊ธฐ๋ฅผ n, ํ•„ํ„ฐ์˜ ํ•œ ๋ณ€์˜ ํฌ๊ธฐ๋ฅผ f๋ผ๊ณ  ํ•œ๋‹ค๋ฉด,

  • ์ถœ๋ ฅ์˜ ํ•œ ๋ณ€์˜ ํฌ๊ธฐ๋Š”,

    (nโ€…โˆ’โ€…fโ€…+โ€…1)โ€…ร—โ€…(nโ€…โˆ’โ€…fโ€…+โ€…1)

  • ๊ทธ๋Ÿฐ๋ฐ ์ด๋ ‡๊ฒŒ ๋œ๋‹ค๋ฉด, ์œ„ ๊ทธ๋ฆผ์—์„œ 6x6 ์งœ๋ฆฌ ํ–‰๋ ฌ์˜ ๊ฐ€์žฅ์ž๋ฆฌ์— ์žˆ๋Š” ํ”ฝ์…€๋“ค์€

  • ์ค‘๊ฐ„์— ์žˆ๋Š” ํ”ฝ์…€๋ณด๋‹ค ์ ์€ ํšŸ์ˆ˜๋กœ ํ•„ํ„ฐ๊ฐ€ ๊ฑธ๋ฆฐ๋‹ค.

  • ์ฆ‰ ๋ฐ์ดํ„ฐ์˜ ์†์‹ค์ด ์ƒ๊ธด๋‹ค.

  • ๋‘๋ฒˆ์งธ๋กœ๋Š” ์ด๋ฏธ์ง€๊ฐ€ ์ถ•์†Œ ๋œ๋‹ค๋Š” ๋‹จ์ ์ด ์žˆ๋‹ค.

  • ๋‚ด๊ฐ€ ์›ํ•˜๋Š” ์ด๋Ÿฐ ๊ฒฐ๊ณผ๊ฐ€ ๋‚˜์˜ค๊ธฐ ์œ„ํ•ด์„œ๋Š” ์–ด๋–ค ์กฐ์น˜๋ฅผ ์ทจํ•ด์ค˜์•ผํ•œ๋‹ค.

  • ๋‹ค์Œ๊ณผ ๊ฐ™์ด 6x6 ์ฃผ๋ณ€์— 1์งœ๋ฆฌ ํ…Œ๋‘๋ฆฌ๋Š” ๋ง๋ฐ์–ด (PAD) ์ฃผ๋ฉด, ํ•ด๊ฒฐ๋œ๋‹ค!
  • ์ด๋ ‡๊ฒŒ ๋ ๋•Œ ๋ฐ์ดํ„ฐ ์†์‹ค, ์ด๋ฏธ์ง€์ถ•์†Œ์˜ ๋‘๊ฐ€์ง€ ๋‹จ์ ์„ ๋ชจ๋‘ ์žก์„ ์ˆ˜ ์žˆ๋‹ค.
  • ํŒจ๋”ฉํ•ด์ฃผ๋Š” ๊ฐ’์€ 0์œผ๋กœ ๋ณดํ†ต ์ฑ„์šด๋‹ค.
  • ๋‚ด๊ฐ€ p๋ฅผ ํŒจ๋”ฉ์˜ ์–‘์ด๋ผ๊ณ  ํ•˜๋ฉด ์ด๋•Œ p = 1์ด๋‹ค.
  • ์ด์ œ ํŒจ๋”ฉ๊นŒ์ง€ ์ถ”๊ฐ€ํ•˜์—ฌ ๊ฒฐ๊ณผ์ด๋ฏธ์ง€์˜ ํฌ๊ธฐ๋ฅผ ์˜ˆ์ƒํ•ด๋ณด๋ฉด, (nโ€…+โ€…2pโ€…โˆ’โ€…fโ€…+โ€…1)โ€…ร—โ€…(nโ€…+โ€…2pโ€…โˆ’โ€…fโ€…+โ€…1)

Category of Padding

  1. Vaild
    • No Padding
    • p = 0
  2. Same
    • ๋ฐฉ๊ธˆ๊ฐ™์€ 3x3 ํ•„ํ„ฐ์˜ ๊ฒฝ์šฐ p = 1 ์ผ ๋•Œ ์ถœ๋ ฅ๊ฐ’๊ณผ ์ž…๋ ฅ๊ฐ’์˜ ํฌ๊ธฐ๊ฐ€ ๋™์ผํ•จ
    • ๊ฒฐ๋ก ์ ์œผ๋กœ ์ž…๋ ฅ๊ณผ ๊ฐ™์€ ํฌ๊ธฐ์˜ ์ถœ๋ ฅ์„ ๊ฐ–๊ฒŒํ•˜๋Š” ํŒจ๋”ฉ๊ฐ’

๊ฑฐ์˜ ํ•ญ์ƒ ํ•„ํ„ฐ๋Š” ํ™€์ˆ˜์˜ ํฌ๊ธฐ๋ฅผ ๊ฐ™๊ณ  ์žˆ๊ธฐ ๋•Œ๋ฌธ์— Padding์€ ์ •์ˆ˜๊ฐ’์œผ๋กœ ๋–จ์–ด์ง„๋‹ค.

What is Strided Convolution

  • ์ง€๊ธˆ๊นŒ์ง€ ํ•„ํ„ฐ๋ฅผ ๊ณฑํ• ๋•Œ ํ•œ์นธ์”ฉ ๋„๋ฉด์„œ ๊ณฑํ–ˆ๋Š”๋ฐ,
  • ๋‘์นธ์”ฉ ๋„์–ด์„œ ์—ฐ์‚ฐํ•˜์ž!
  • ์ด๊ฒŒ ์ŠคํŠธ๋ผ์ด๋“œ์˜ ๊ฐœ๋…์ด๋‹ค.
  • ์ด๊ฑธ ๊ธฐ์กด์˜ Fully connected Neural Network๋กœ ๋ณธ๋‹ค๋ฉด,
  • ์‹ ๊ฒฝ๋ง์ด ์—ฐ๊ฒฐ๋  ๋•Œ ์žˆ์–ด์„œ, ๊ณต์ฐจ๋ฅผ ๋ช‡์œผ๋กœ ๋‘๊ฒ ๋ƒ๋Š” ์˜๋ฏธ์™€ ์ƒ๋“ฑํ•˜๋‹ค.
  • ์ž ๊ทธ๋ ‡๋‹ค๋ฉด ์ด ๊ฒฝ์šฐ, Stride ๋Š” 2์ด๋‹ค.
  • ์ด ๊ฒฝ์šฐ ์ถœ๋ ฅ๊ฐ’์€ 3x3 ์ด๊ณ , ์ด ๊ด€๊ณ„๋ฅผ ๋‚˜ํƒ€๋‚ด์–ด ๋ณด๋ฉด,
  • ์ด ๋•Œ, ์ •์ˆ˜๊ฐ€ ์•„๋‹ˆ๋ฉด ๋‚ด๋ฆผ์„ ํ•ด์ค€๋‹ค.

Convolutions in RGB Channels

  • ์ด์ œ ๋ฐ๊ธฐ๋งŒ ์ƒ๊ฐํ•œ ์ด๋ฏธ์ง€๋กœ ๋ถ€ํ„ฐ, ์‹ค์ œ ์ƒ‰์„ ๋‚˜ํƒ€๋‚ด๋Š” RGB๋กœ ํ™•์žฅํ•ด์„œ ์ƒ๊ฐํ•ด๋ณด์ž.

  • ์ด์ œ ์ด๋Ÿฐ์‹์œผ๋กœ 3๊ฐœ์˜ RGB ์ฑ„๋„์— ๋Œ€ํ•ด 3๊ฐœ์˜ ํ•„ํ„ฐ๋ฅผ ์‚ฌ์šฉํ•ด์„œ ๊ฐ’์„ ๋ฐ›์„ ๊ฒƒ์ด๋‹ค.
  • ๊ทธ๋Ÿฐ๋ฐ ํ•œ๊ฐ€์ง€ ์ฃผ๋ชฉํ•ด์•ผ ํ•˜๋Š” ์ ์€ ์ด๋ฏธ์ง€์˜ ์ฑ„๋„ ์ˆ˜์™€ ํ•„ํ„ฐ์˜ ์ฑ„๋„ ์ˆ˜๋Š” ๊ฐ™์•„์•ผ ํ•œ๋‹ค๋Š” ์ ์ด๋‹ค.
  • ํ•˜์ง€๋งŒ ์ถœ๋ ฅ๊ฐ’์˜ ์ฑ„๋„์ˆ˜๋Š” ๊ฐ™์„ ํ•„์š”๊ฐ€ ์—†๋‹ค.

  • ์œ„์˜ ๊ทธ๋ฆผ์„ ์กฐ๊ธˆ๋” ๊ฐ„๋‹จํ•˜๊ฒŒ ๋ณด๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.
  • ์ด ๋•Œ, 3 x 3 x 3์˜ ํ•„ํ„ฐ๋ฅผ ์ •์œก๋ฉด์ฒด ๋ฉ์–ด๋ฆฌ๋กœ ๋ณธ๋‹ค๋ฉด,
  • ์ด์ œ ์ด ๋ฉ์–ด๋ฆฌ๊ฐ€ RGB ์ฑ„๋„๋กœ ๊ตฌ์„ฑ๋œ ์ด๋ฏธ์ง€์— ํ•œ๋ฒˆ์”ฉ ์ ์šฉ๋˜๋Š” ํ˜•ํƒœ์ด๋‹ค.
  • ๊ทธ๋ ‡๋‹ค๋ฉด ํ•„ํ„ฐ์˜ ์š”์†Œ๋Š” ์ด 9๊ฐœ๋กœ ๊ตฌ์„ฑ๋œ ํ…์„œ๋ฉ์–ด๋ฆฌ ์ด๋ฉฐ, ์ด๋ฏธ์ง€์— ์ ์šฉ์ด ๋˜๋ฉด ์ด 27๊ฐœ์˜ ๊ฐ’์ด ๋‚˜์˜จ๋‹ค.
  • ๊ทธ๋Ÿฐ๋ฐ ์šฐ๋ฆฌ๋Š” Convolution ์—ฐ์‚ฐ์„ ํ•˜๋ฏ€๋กœ ์ด 27๊ฐœ์˜ ๊ฐ’์„ ๋‹ค ๋”ํ•œ ๊ฒƒ์ด
  • ์ถœ๋ ฅ์˜ [1,1]์— ์ €์žฅ๋œ๋‹ค.
  • ๊ทธ๋ ‡๊ธฐ ๋•Œ๋ฌธ์— 4 x 4 x 3 ์ด ์•„๋‹Œ 4 x 4 x 1์งœ๋ฆฌ ์ถœ๋ ฅ์„ ์–ป๊ฒŒ ๋œ๋‹ค.

์ฐธ๊ณ 

  • ํ…์„œํ”Œ๋กœ์šฐ์—์„œ ์™œ ๋…ธ๋“œ์˜ ์—ฐ๊ฒฐ์ด ํ…์„œ๋กœ ์ด๋ฃจ์–ด์ง„๋‹ค๊ณ  ํ–ˆ๋Š”์ง€ ์œ„ ์˜ˆ์‹œ์—์„œ ๋ณด๋‹ค ํ™•์‹คํ•˜๊ฒŒ ์•Œ ์ˆ˜ ์žˆ๋‹ค.
  • ์—ฌ๊ธฐ์„œ ํ•„ํ„ฐ๋Š” ๊ฐ€์ค‘์น˜ ๋ฉ์–ด๋ฆฌ์ด๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค.
  • ๊ทธ๋ฆฌ๊ณ  ์™ผ์ชฝ์˜ ์ด๋ฏธ์ง€๋Š” Input data๋ฅผ ๋‹ด๊ณ  ์žˆ๋Š” ๊ฐ๊ฐ์˜ ๋…ธ๋“œ์ด๋‹ค.
  • ํ…์„œ๋กœ ๊ตฌ์„ฑ๋˜์–ด ์žˆ๋Š” ๊ฐ€์ค‘์น˜ ๋ฉ์–ด๋ฆฌ๋ฅผ ํ•ฉ์„ฑ๊ณฑ ์—ฐ์‚ฐ์„ ํ•ด์ฃผ๊ณ  ๊ทธ ๊ฐ’์„ ๋‹ค์Œ ๋…ธ๋“œ๋กœ ๋„˜๊ฒจ์ฃผ๊ณ  ์žˆ๋‹ค.
  • Input data ์—ญ์‹œ ํ…์„œ๋กœ ๊ตฌ์„ฑ๋˜์–ด ์žˆ๊ณ  ์ด๊ฒƒ์„ ๋„˜๊ฒจ์ฃผ๋Š” ๊ฒƒ๋„ ๊ฒฐ๊ตญ ํ…์„œ๋กœ ๊ตฌ์„ฑ๋˜์–ด ์žˆ๋‹ค.
  • ๊ฒฐ๊ณผ์ ์œผ๋กœ ํ…์„œ์˜ ํ๋ฆ„์œผ๋กœ ๋ฌด์–ธ๊ฐ€๋ฅผ ๋งŒ๋“ค๊ณ  ์žˆ๊ธฐ ๋–„๋ฌธ์— TensorFlow ์ด๋‹ค.
  • ์ž ์—ฌ๊ธฐ์„œ ๋งŒ์•ฝ์— ๋นจ๊ฐ„์ƒ‰์˜ ์ˆ˜์ง ์œค๊ณฝ์„ ๋งŒ ๋–ผ์˜ค๊ณ  ์‹ถ๋‹ค๋ฉด ํ•„ํ„ฐ๋Š”,
  • ์™€ ๊ฐ™์ด ํ‘œํ˜„ ๊ฐ€๋Šฅํ•˜๋‹ค.
  • ๊ทธ๋Ÿฐ๋ฐ ๋งŒ์•ฝ ์ˆ˜์ง์„ ๊ณผ ์ˆ˜ํ‰์„ ์„ ๋™์‹œ์— ๋”ฐ์˜ค๊ณ  ์‹ถ์œผ๋ฉด ์–ด๋–ป๊ฒŒ ํ• ๊นŒ?

  • ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์ƒํ™ฉ์—์„œ,
  • ๋…ธ๋ž€์ƒ‰ = Vertical
  • ์ฃผํ™ฉ์„น = Horizontal ํ•„ํ„ฐ๋ผ๊ณ  ํ•ด๋ณด์ž.
  • ์ด ๊ฒฝ์šฐ ๋‚˜์˜จ ์ถœ๋ ฅ์€ 4 x 4 ๊ฐ€ 2๊ฐœ๊ฐ€ ๋‚˜์˜ฌ ๊ฒƒ์ด๋‹ค.
  • ์ด ๋‘๊ฐœ๋ฅผ ๋‚ด๊ฐ€ ํ•œ๊บผ๋ฒˆ์— ์“ด๋‹ค๋ฉด, 4 x 4 x 2 ์ด๋‹ค.
  • ๋‚ด๊ฐ€ RGB ์ฑ„๋„์— ๊ฐ๊ฐ ๋“ค์–ด๊ฐ€๋Š” ํ•„ํ„ฐ๋ฅผ ์–ด๋–ค ํ•˜๋‚˜์˜ ๋‹จ์œ„์ฒ˜๋Ÿผ ๋ณธ๋‹ค๋ฉด,
  • ๋‹ค์‹œ ๋งํ•ด์„œ ์œ„ ๊ทธ๋ฆผ์—์„œ ๋…ธ๋ž€์ƒ‰ ํ•„ํ„ฐ, ์ฃผํ™ฉ์ƒ‰ ํ•„ํ„ฐ์™€ ๊ฐ™์ด 2๊ฐœ์˜ ํ•„ํ„ฐ๊ฐ€ ์žˆ๋‹ค๊ณ  ์ƒ๊ฐํ•œ๋‹ค๋ฉด,
  • ์ถœ๋ ฅ์˜ ์ฑ„๋„ ์ˆ˜๋Š”, ๋‚ด๊ฐ€ ์‚ฌ์šฉํ•œ ํ•„ํ„ฐ์˜ ๊ฐœ์ˆ˜์— ๋”ฐ๋ผ ๊ฒฐ์ •๋œ๋‹ค.
  • ์—ฌ๊ธฐ์„œ ํ•ต์‹ฌ์ ์ธ ๊ฒƒ์€,
  • ๋‚ด๊ฐ€ ํ•„์š”ํ•œ ํ•„ํ„ฐ๋“ค์„ ์ด๋ฏธ์ง€์— ๋‹ค ๊ฑธ์–ด๋ฒ„๋ฆฐ ํ›„
  • ์ด๊ฒƒ๋“ค์„ ํ•œ๋ฐ๋ชจ์•„ ๋‹ค๊ฐ™์ด ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค!
  • ์ฆ‰ ๊ฒ€์ถœํ•˜๊ณ ์ž ํ•˜๋Š” ํŠน์„ฑ์˜ ์ˆ˜๋งŒํผ ์ถœ๋ ฅ์˜ ์ฑ„๋„์„ ๊ฐ–๊ฒŒ ๋œ๋‹ค!