ํต์ฌ ์์ด๋์ด
์ ๋ ฅ ์ด๋ฏธ์ง์ ํฌ๊ธฐ๋ ๋น์จ์ ๊ด๊ณ์์ด CNN ํ์ต์ ๋ถ๊ฐํ๊ฐ?
Fast R-CNN์ผ๋ก ๋์ด๊ฐ๊ธฐ์ ์๋นํ ๋ง์ ์์ด๋์ด๋ฅผ ๊ฐ์ ธ์จ ๋ ผ๋ฌธ์ด๋ค. ์ด์ ์ R-CNN์ ๋ณด๊ฒ๋๋ฉด, proposal roi๊ฐ CNN์ ๋ค์ด๊ฐ๊ธฐ ์ ์ ์ ๋ ฅ ์ด๋ฏธ์ง๋ฅผ ๋ฐ๊ฟ์ฃผ์ด์ผ ํ๋ ํ๊ณ๊ฐ ์กด์ฌํ๋ค. ์ฌ๊ธฐ์ ์ ์๋ค์ ์๋ฌธ์ ๊ฐ๋๋ค. ์ด ์ ํ ์์๋ฅผ ์์ค ์ํ๋ก CNN์ ํ์ต์ํค๋ ๊ฒ์ด๋ค.
SPPNet์ ํต์ฌ ์์ด๋์ด
์ฌ์ค CNN์ ์ ๋ ฅ์ด๋ฏธ์ง ํฌ๊ธฐ๋ ๊ณ ์ ๋ ํ์๊ฐ ์๋ค. CNN์ ํต์ฌ ์์ด๋์ด๋ filter๋ฅผ ๊ฐ์ง๊ณ ์ฐ์ฐ์ ์ํํ๋ ๊ฒ์ด๊ณ , ์ด๊ฒ์ ์ฐ์ฐ ๋ฐฉ์์ sliding window ๋ฐฉ์์ผ๋ก ์งํ๋๋ค. ํ์ง๋ง, ์ด ์ ๋ ฅ ์ด๋ฏธ์ง์ ํฌ๊ธฐ๊ฐ ๊ณ ์ ์ด์ด์ผ ํ๋ ์ด์ ๋, ๋ง์ง๋ง์ ๋์ถ๋๋ fully connected layer์ ํฌ๊ธฐ๊ฐ ๊ณ ์ ์ ์ผ๋ก ๋์์ผ ํ๊ธฐ ๋๋ฌธ์ด๋ค. ์ด ๋ฌธ์ ์ ์ผ๋ก ๋ถํฐ SPPNet๊ฐ ์ ์๋๋ค.
์ ๋ ฅ ์ด๋ฏธ์ง ์๊ด ์์ด ํต๊ณผ์ํค๊ณ , FC ์ ์ polling์ ํตํด์ ๋์ผํ ํฌ๊ธฐ๋ก ๋ง๋ค์!
๊ต์ฅํ ๋จ์ํ ๋ฐฉ๋ฒ์ ์ ์ํ์๋ค. (โฆ) ์ด๋ฐ ๋ฐฉ์์ ์ฌ์ฉํ ๊ฒฝ์ฐ, ์๋ณธ ์ด๋ฏธ์ง์ ํน์ง์ ๊ณ ์ค๋ํ ๊ฐ์งํ feature map์ ์ป์ ์ ์๋ค. ์ถ๊ฐ์ ์ผ๋ก ๋น์จ๋ ์กฐ์ ํ์ง ์๊ธฐ ๋๋ฌธ์, ์ฌ๋ฌผ์ ํฌ๊ธฐ์ ๋ฐ๋ฅธ ๋ณํ๋ ๊ฐ์ง๊ฐ ๊ฐ๋ฅํ๋ค.
์์ ๊ทธ๋ฆผ์ ๋ณด๋ฉด Crop ํ conv์ ๋ฃ๋ ๊ฒ์ด ์๋๊ณ , feature map์ ๋ง๋ ํ, ์ด๋ฅผ SSPNet์ ๋ฃ์ด ๋ชจ์์ ๋ง์ถ ํ์ output์ ๋ง๋๋ ๊ฒ์ ๋ณผ ์ ์๋ค.
์๊ณ ๋ฆฌ์ฆ
- ์ ์ฒด ์ด๋ฏธ์ง๋ฅผ pretrained model์ ํต๊ณผ์์ผ feature map์ ์ถ์ถํ๋ค.
- ํด๋น feature map์ผ๋ก ๋ถํฐ selective search๋ฅผ ํตํด ROI๋ฅผ ๋ฝ์๋ธ๋ค. ์ด ๋ ๋ฐ์ํ๋ ROI๋ ๋ชจ๋ ํฌ๊ธฐ์ ๋น์จ์ด ๋ค๋ฅด๋ค. ์ฌ๊ธฐ์ **SSPNet**์ ์ ์ฉํ์ฌ ๊ณ ์ ๋ ํฌ๊ธฐ์ feature vector๋ฅผ ์ถ์ถํ๋ค.
- FC layer๋ฅผ ํต๊ณผ์ํจ๋ค.
- ์์ ์ถ์ถํ ๋ฒกํฐ๋ก ๊ฐ ์ด๋ฏธ์ง ํด๋์ค ๋ณ๋ก SVM์ ํ์ต์ํจ๋ค.
- ๋ง์ฐฌ๊ฐ์ง๋ก ํด๋น ๋ฒกํฐ๋ก bounding box regressor๋ฅผ ํ์ต์ํจ๋ค.
Spatial Pyramid Pooling
๊ทธ๋ ๋ค๋ฉด ์ด๋ค ๋ฐฉ์์ผ๋ก SPP๊ฐ ๋์๊ฐ๋์ง ์ดํดํด์ผ ํ๋ค. ๋จผ์ CNN์ ๊ฑฐ์น feature map์ input์ผ๋ก ๋ฐ๋๋ค. ๊ทธ๋ฆฌ๊ณ ์ด๊ฒ์ ๋ฏธ๋ฆฌ ์ ํด์ ธ ์๋ ์์ฌ๊ธ๋ก ๋๋์ด ์ค๋ค. ์์ ์์์์๋ 4x4, 2x2, 1x1 3๊ฐ์ ์์ญ์ด ์ ์ฉ๋์ด ์๊ณ , ์ด ๊ฐ๊ฐ์ ํ๋์ ํผ๋ผ๋ฏธ๋๋ผ ๋ถ๋ฅธ๋ค. ์ฆ, 3๊ฐ์ ํผ๋ผ๋ฏธ๋๋ฅผ ์ค์ ํ ๊ฒ.
์ด ํผ๋ผ๋ฏธ๋๋ 4x4 ์ง๋ฆฌ ๊ณ ์ ๋ CNN ํํฐ ๊ฐ์ ๊ฒ์ด ์๋๋ค. ์ด๋ ํ input์ด ๋ค์ด์ค๋๋ผ๋ 4x4 ๊ฒฉ์๋ก ๋ง๋ ๋ค๋ ํํ์ด ๋ ๋ง๋ ํํ์ด๋ค. ์๋ฅผ ๋ค์ด ์ ๋ ฅ์ด 64 x 64 x 256 ํฌ๊ธฐ์ ํผ์ณ ๋งต์ด ๋ค์ด์จ๋ค๊ณ ํ์ ๋, 4x4์ ํผ๋ผ๋ฏธ๋์ bin์ ํฌ๊ธฐ๋ 16x16์ด ๋๋ค.
์ด์ ์ด ๊ฐ๊ฐ์ bin์์ ๊ฐ์ฅ ํฐ ๊ฐ๋ง ์ถ์ถํ๋ max pooling์ ์ํํ๊ณ , ๊ทธ ๊ฒฐ๊ณผ๋ฅผ ์ญ ์ด์ด ๋ถ์ธ๋ค. ์
๋ ฅ feature map์ ์ฑ๋ ํฌ๊ธฐ๊ฐ k, bin์ ๊ฐ์๋ฅผ M์ด๋ผ ํ๋ค๋ฉด, ํด๋น SSP์ output์ k x M
์ ํฌ๊ธฐ๋ฅผ ๊ฐ์ง 1์ฐจ์์ ๋ฒกํฐ๊ฐ ๋ ๊ฒ์ด๋ค.
ํ๊ณ
- ์ฌ์ ํ multi stage model์ด๋ค.
- ์ฌ์ ํ SVM, selective search๋ฅผ ์ฌ์ฉํ๋ค.
- feature map์ ๋ง๋ค์ด๋ด๋ network๋ฅผ ํ์ต์ํค์ง ๋ชปํ๋ค.