Computer Vision์˜ Task

์ด์ค‘ Object Detection์— ํ•ด๋‹นํ•˜๋Š” ๋ฌธ์ œ์ด๋‹ค.

R-CNN

  1. region proposal์„ ์ง„ํ–‰ํ•œ๋‹ค.
  2. CNN์— ๊ฐ๊ฐ ๋„ฃ๋Š”๋‹ค. โ†’ ๋Š๋ฆฌ๋‹ค, CNN์„ ์‚ฌ์šฉํ•˜๊ธฐ ๋•Œ๋ฌธ์— ์ž…๋ ฅ ํฌ๊ธฐ๊ฐ€ ๋™์ผํ•ด์•ผ ํ•œ๋‹ค.(warpping)
  3. CNN์˜ ๋งˆ์ง€๋ง‰ feature map์—์„œ SVM์„ ์‚ฌ์šฉํ•˜์—ฌ ๊ตฌ๋ถ„ํ•œ๋‹ค.
  4. ๋˜ํ•œ ์ž…๋ ฅ์œผ๋กœ ์ฃผ์–ด์ง„ bounding box๋ฅผ ์กฐ์ •ํ•˜๊ธฐ ์œ„ํ•ด regression์„ ์ง„ํ–‰ํ•œ๋‹ค.

Region Proposal

initial bounding box๋ฅผ selective search๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋ฝ‘์•„๋‚ธ๋‹ค. โ†’ ๋Š๋ฆฌ๋‹ค.

Training

  1. pretrained model = alexnet for ImageNet classification dataset
    • ์ด๋ฏธ์ง€๋„ท์—์„œ ์‚ฌ์ „ ํ›ˆ๋ จ๋œ ์•Œ๋ ‰์Šค ๋„ท์„ ์‚ฌ์šฉํ–ˆ๋‹ค. ๋งˆ์ง€๋ง‰๋‹จ์„ ์ž˜๋ผ์„œ ์‚ฌ์šฉํ•œ๋‹ค.
  2. ๊ฐ€์ง€๊ณ  ์žˆ๋Š” ๋ฐ์ดํ„ฐ๋ฅผ ๋„ฃ์–ด์„œ ํ›ˆ๋ จํ•œ๋‹ค.
  3. ์—ฌ๊ธฐ์„œ ๋ฐœ์ƒํ•œ ๋งˆ์ง€๋ง‰ feature map์„ ๊ฐ€์ง€๊ณ  ์™€์„œ classification, bounding box regression ์„ ์ง„ํ–‰ํ•œ๋‹ค.

์ด๋Ÿฌํ•œ ๋ฐฉ๋ฒ•์€, ๋‘๊ฐ€์ง€ ๋ฌธ์ œ๋ฅผ ๋ฐœ์ƒ์‹œํ‚จ๋‹ค.

  1. ์†๋„
  2. ๋งˆ์ง€๋ง‰ ๋‹จ์˜ feature map์„ ์‚ฌ์šฉํ•˜๊ธฐ ๋•Œ๋ฌธ์— back propagation์„ ํ†ตํ•œ ํ•™์Šต์ด ๋ถˆ๊ฐ€ํ•˜๋‹ค.

Bounding-Box Regression

Box๋Š” centerX, centerY, Width, Height๋กœ ํ‘œํ˜„๋œ๋‹ค.

์šฐ๋ฆฌ์˜ ๋ชฉ์ ์€ ๋ฐ•์Šค๋ฅผ ์ตœ๋Œ€ํ•œ G์— ๊ฐ€๊น๊ฒŒ ์ด๋™์‹œํ‚ค๋Š” ํ•จ์ˆ˜๋ฅผ ํ•™์Šต์‹œํ‚ค๋Š” ๊ฒƒ์ด๋‹ค. ์ด๋ฅผ ํ‘œํ˜„ํ•ด๋ณด๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

x, y์˜ ๊ฒฝ์šฐ๋Š” ํ‰ํ–‰์ด๋™์ด ์—ฐ์‚ฐ์˜ ์ „๋ถ€์ด๊ธฐ ๋•Œ๋ฌธ์— linear ์—ฐ์‚ฐ์œผ๋กœ ์ฒ˜๋ฆฌ๊ฐ€ ๊ฐ€๋Šฅํ•˜๋‹ค. ๋ฐ˜๋ฉด ๋„ˆ๋น„์™€ ๋†’์ด๋Š” ํ™•๋Œ€, ์ถ•์†Œ ๋ณ€ํ™˜์ด ํ•„์š”ํ•˜๋‹ค. ๋‹จ์ˆœํ•œ ํ™•๋Œ€ ์ถ•์†Œ ์—ฐ์‚ฐ์„ ์‚ฌ์šฉํ•˜๊ฒŒ ๋˜๋ฉด, ์ถ”ํ›„์— backpropagation์„ ํ†ตํ•œ ํ•™์Šต์ด ์–ด๋ ค์›Œ์ง€๊ธฐ ๋•Œ๋ฌธ์— ์—ฌ๊ธฐ์„œ๋Š” exp๋ฅผ ์‚ฌ์šฉํ–ˆ๋‹ค.

์™œ ๊ตณ์ด ์‹์„ ์ด๋ ‡๊ฒŒ ๋งŒ๋“ค์—ˆ๋ƒ ๋ณด๋‹ค๋Š”, ์ด๋Ÿฌํ•œ ๋ฐฉ์‹์œผ๋กœ ์ œ์•ˆ์„ ํ•˜๋ ค๊ณ  ํ–ˆ๋‹ค๊ณ  ์ƒ๊ฐํ•ด๋ณด์ž. P์— ๋Œ€ํ•œ ๋ณ€์ˆ˜๋Š” ์ดˆ๊ธฐ์— ์ œ์•ˆํ•˜๋Š” ๊ฒƒ์ด๋ฏ€๋กœ, ์šฐ๋ฆฌ๋Š” ํ•จ์ˆ˜ ๊ฐ€ ์–ด๋–ค ๋…€์„์ธ์ง€ ์•„๋Š” ๊ฒƒ์ด ๋ชฉํ‘œ์ด๋‹ค. ๊ทธ๋ฆฌ๊ณ  ์ด ํ•จ์ˆ˜๋ฅผ ์•Œ์•„๋‚ด๋Š” ๊ณผ์ •์€ deep learning network๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋งŒ๋“ค ๊ฒƒ์ด๋‹ค.

์—ฌ๊ธฐ์„œ ๋Š” pretraioned model์˜ ๊ฐ€์žฅ ๋งˆ์ง€๋ง‰ feature map์„ ์˜๋ฏธํ•œ๋‹ค. ๊ฒฐ๊ตญ feature๋งต์— ์„ ํ˜• ์—ฐ์‚ฐ์„ ์ถ”๊ฐ€ํ•˜์—ฌ ์›ํ•˜๋Š” ํ•จ์ˆ˜๋ฅผ ๊ตฌํ•œ๋‹ค.

๊ทธ๋ ‡๋‹ค๋ฉด, ์ด์ œ๋Š” ๋ฌธ์ œ๊ฐ€ ๋ณ€ํ™”ํ–ˆ๋‹ค. ground truth์—์„œ ๋ฐœ์ƒํ•˜๋Š” ํ•จ์ˆ˜์™€ ์ œ์•ˆ๋œ ๋ฐฉ๋ฒ•์˜ ํ•จ์ˆ˜ ์˜ ๊ฐ€์ค‘์น˜ ๋ฅผ ๊ตฌํ•˜๋Š” ๋ฌธ์ œ์ด๋‹ค.

ground truth์—์„œ ๋ฐœ์ƒํ•˜๋Š” ๊ฐ’์ธ ๋Š” ๊ฐ๊ฐ์˜ ์‚ฌ์ง„ ํ•œ์žฅ์— ๋Œ€ํ•ด์„œ ๊ณ ์ •๋˜์–ด ์žˆ๋‹ค. ์ด๋ฅผ ๋ฐ˜์˜ํ•œ ์†์‹ค ํ•จ์ˆ˜๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค. ์ €์ž๋“ค์€ ๋žŒ๋‹ค๋ฅผ 1000์œผ๋กœ ์„ค์ •ํ•˜์˜€๋‹ค.

ํ•œ๊ณ„

  1. ๋Š๋ฆฌ๋‹ค.
  2. SVM์€ CNN์„ ํ›ˆ๋ จ์‹œํ‚ค์ง€ ๋ชปํ•œ๋‹ค.
  3. Multostage Training Pipeline์ด๋‹ค.

Reference