Computer Vision์ Task
์ด์ค Object Detection์ ํด๋นํ๋ ๋ฌธ์ ์ด๋ค.
R-CNN
- region proposal์ ์งํํ๋ค.
- CNN์ ๊ฐ๊ฐ ๋ฃ๋๋ค. โ ๋๋ฆฌ๋ค, CNN์ ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์ ์ ๋ ฅ ํฌ๊ธฐ๊ฐ ๋์ผํด์ผ ํ๋ค.(warpping)
- CNN์ ๋ง์ง๋ง feature map์์ SVM์ ์ฌ์ฉํ์ฌ ๊ตฌ๋ถํ๋ค.
- ๋ํ ์ ๋ ฅ์ผ๋ก ์ฃผ์ด์ง bounding box๋ฅผ ์กฐ์ ํ๊ธฐ ์ํด regression์ ์งํํ๋ค.
Region Proposal
initial bounding box๋ฅผ selective search๋ฅผ ์ฌ์ฉํ์ฌ ๋ฝ์๋ธ๋ค. โ ๋๋ฆฌ๋ค.
Training
- pretrained model = alexnet for ImageNet classification dataset
- ์ด๋ฏธ์ง๋ท์์ ์ฌ์ ํ๋ จ๋ ์๋ ์ค ๋ท์ ์ฌ์ฉํ๋ค. ๋ง์ง๋ง๋จ์ ์๋ผ์ ์ฌ์ฉํ๋ค.
- ๊ฐ์ง๊ณ ์๋ ๋ฐ์ดํฐ๋ฅผ ๋ฃ์ด์ ํ๋ จํ๋ค.
- ์ฌ๊ธฐ์ ๋ฐ์ํ ๋ง์ง๋ง feature map์ ๊ฐ์ง๊ณ ์์ classification, bounding box regression ์ ์งํํ๋ค.
์ด๋ฌํ ๋ฐฉ๋ฒ์, ๋๊ฐ์ง ๋ฌธ์ ๋ฅผ ๋ฐ์์ํจ๋ค.
- ์๋
- ๋ง์ง๋ง ๋จ์ feature map์ ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์ back propagation์ ํตํ ํ์ต์ด ๋ถ๊ฐํ๋ค.
Bounding-Box Regression
Box๋ centerX, centerY, Width, Height๋ก ํํ๋๋ค.
์ฐ๋ฆฌ์ ๋ชฉ์ ์ ๋ฐ์ค๋ฅผ ์ต๋ํ G์ ๊ฐ๊น๊ฒ ์ด๋์ํค๋ ํจ์๋ฅผ ํ์ต์ํค๋ ๊ฒ์ด๋ค. ์ด๋ฅผ ํํํด๋ณด๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.
x, y์ ๊ฒฝ์ฐ๋ ํํ์ด๋์ด ์ฐ์ฐ์ ์ ๋ถ์ด๊ธฐ ๋๋ฌธ์ linear ์ฐ์ฐ์ผ๋ก ์ฒ๋ฆฌ๊ฐ ๊ฐ๋ฅํ๋ค. ๋ฐ๋ฉด ๋๋น์ ๋์ด๋ ํ๋, ์ถ์ ๋ณํ์ด ํ์ํ๋ค. ๋จ์ํ ํ๋ ์ถ์ ์ฐ์ฐ์ ์ฌ์ฉํ๊ฒ ๋๋ฉด, ์ถํ์ backpropagation์ ํตํ ํ์ต์ด ์ด๋ ค์์ง๊ธฐ ๋๋ฌธ์ ์ฌ๊ธฐ์๋ exp๋ฅผ ์ฌ์ฉํ๋ค.
์ ๊ตณ์ด ์์ ์ด๋ ๊ฒ ๋ง๋ค์๋ ๋ณด๋ค๋, ์ด๋ฌํ ๋ฐฉ์์ผ๋ก ์ ์์ ํ๋ ค๊ณ ํ๋ค๊ณ ์๊ฐํด๋ณด์. P์ ๋ํ ๋ณ์๋ ์ด๊ธฐ์ ์ ์ํ๋ ๊ฒ์ด๋ฏ๋ก, ์ฐ๋ฆฌ๋ ํจ์ ๊ฐ ์ด๋ค ๋ ์์ธ์ง ์๋ ๊ฒ์ด ๋ชฉํ์ด๋ค. ๊ทธ๋ฆฌ๊ณ ์ด ํจ์๋ฅผ ์์๋ด๋ ๊ณผ์ ์ deep learning network๋ฅผ ์ฌ์ฉํ์ฌ ๋ง๋ค ๊ฒ์ด๋ค.
์ฌ๊ธฐ์ ๋ pretraioned model์ ๊ฐ์ฅ ๋ง์ง๋ง feature map์ ์๋ฏธํ๋ค. ๊ฒฐ๊ตญ feature๋งต์ ์ ํ ์ฐ์ฐ์ ์ถ๊ฐํ์ฌ ์ํ๋ ํจ์๋ฅผ ๊ตฌํ๋ค.
๊ทธ๋ ๋ค๋ฉด, ์ด์ ๋ ๋ฌธ์ ๊ฐ ๋ณํํ๋ค. ground truth์์ ๋ฐ์ํ๋ ํจ์์ ์ ์๋ ๋ฐฉ๋ฒ์ ํจ์ ์ ๊ฐ์ค์น ๋ฅผ ๊ตฌํ๋ ๋ฌธ์ ์ด๋ค.
ground truth์์ ๋ฐ์ํ๋ ๊ฐ์ธ ๋ ๊ฐ๊ฐ์ ์ฌ์ง ํ์ฅ์ ๋ํด์ ๊ณ ์ ๋์ด ์๋ค. ์ด๋ฅผ ๋ฐ์ํ ์์ค ํจ์๋ ๋ค์๊ณผ ๊ฐ๋ค. ์ ์๋ค์ ๋๋ค๋ฅผ 1000์ผ๋ก ์ค์ ํ์๋ค.
ํ๊ณ
- ๋๋ฆฌ๋ค.
- SVM์ CNN์ ํ๋ จ์ํค์ง ๋ชปํ๋ค.
- Multostage Training Pipeline์ด๋ค.