ํต์ฌ ์์ด๋์ด
Region Proposal๋ Network์์ ํฌํจ์ํค์!
Faster R-CNN์ ํต์ฌ ์์ด๋์ด๋ Resion Proposal Network(์ดํ RPN)์ด๋ค. ๊ธฐ์กด Fast R-CNN๊ตฌ์กฐ๋ฅผ ๊ณ์นํ๋ฉด์ selective search๋ฅผ ์ ๊ฑฐํ๊ณ RPN์ ํตํด์ Roi๋ฅผ ๊ณ์ฐํ๋ค. ์ด๋ฅผ ํตํด์ GPU๋ฅผ ํตํด Roi๋ฅผ ๊ณ์ฐํ ์ ์๊ฒ ๋์๊ณ , ์ด RoI๋ฅผ ์ถ์ถํ๋ ๊ฒ ์ญ์ ํ์ต์์ผ ์ ํ๋๋ฅผ ๋์ผ ์ ์๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก selective search๊ฐ 2000๊ฐ RoI๋ฅผ ๊ณ์ฐํ๋๋ฐ ๋ฐํด, 800๊ฐ ์ ๋๋ก ๋ ๋์ ์ ํ๋๋ฅผ ๊ฐ์ง๋ค.

๊ทธ๋ฆผ์ ๋ณด๋ฉด ์๊ฒ ์ง๋ง, feature map์ผ๋ก ๋ถํฐ selective search๋ฅผ ๊ฑฐ์น์น ์๊ณ ์ด๋ฅผ RPN์ ์ ๋ฌํ์ฌ ๊ณ์ฐ์ ์งํํ๋ค. ์ฌ๊ธฐ์ ์ป์ RoI๋ก RoI Pooling์ ์งํํ ๋ค์ object detection์ ์งํํ๋ค.
Region Proposal Network

์ด ๊ทธ๋ฆผ๋ณด๋ค๋ ์์ฐจ์ ์ผ๋ก ๋ ๊ทธ๋ฆผ์ผ๋ก ์ดํดํ๋ ๊ฒ์ด ์ฝ๋ค.

CNN์ ํตํด ๋ฝ์๋ธ feature map์ ์
๋ ฅ์ผ๋ก ๋ฐ๋๋ค. ์ด๋ค pretrained model์ ์ฌ์ฉํ ์ง ๋ชจ๋ฅด๋ฏ๋ก ์ด๋ฅผ HxWxC๋ก ๋๋ค.
feature map์ (3x3)x256 ๋๋ (3x3)x512 conv ์ฐ์ฐ์ ์ํํ๋ค. ์๋ฐํ ๋งํ๋ฉด C์ 256, 512๋ ๊ฐ์์ผ ํ๋ค. ์ผ๋จ ์ฐ์ฐ์ด ๊ฐ๋ฅํ๋ค๊ณ ๊ฐ์ ํ์. ์ด ๋, HxW๊ฐ ๋ณด์กด๋ ์ ์๊ฒ padding์ 1๋ก ์ค์ ํ๋ค.
์ ๊ณผ์ ์์ ๋์จ feature map์ ๊ฐ์ง๊ณ classification์ ์ํ ํ๋ฅ ๊ฐ๊ณผ, bounding box regression ๊ฐ์ ๋ฝ์๋ธ๋ค. ์ด ๊ณผ์ ์์ ๋๋ฌด ๋ง์ ์ฐ์ฐ์ ์งํํ๊ฒ ๋๋ฉด ๋ชจ๋ธ์ด ์ง๋์น๊ฒ ๋ฌด๊ฑฐ์ ์ง๋ค. ์ ์๋ค์ 1 x 1 conv๋ง์ ์ํํ์ฌ ์์ธก๊ฐ์ ๋ฝ์๋ด๊ณ ์ ํ์๋ค.
๋จผ์ Classification์ ๊ฒฝ์ฐ, ๋์ฑ ๊ฐ๋ณ๊ฒ ์งํํ๊ธฐ ์ํด ๋ฌผ์ฒด์ธ์ง ์๋์ง๋ฅผ ๊ตฌ๋ถํ๋ binary classification์ ์งํํ๊ณ ์ ํ์๋ค. ํ์ง๋ง ์ด ๋ฌธ์ ๋ bounding box์ ์ฎ์ด์ ์ด๋ฅผ ์๊ฐํด์ผ ํ๋๋ฐ, ์ ์๋ค์ ์ด ๋จ๊ณ์์ Anchor๋ผ๋ ๊ฐ๋
์ ๋์
ํ์ฌ ์ด๋ฅผ ์งํํ์๋ค. Anchor๋ ๊ฐ๋จํ๊ฒ ์ฌ์ ์ ์ ์ํด ๋ Box๋ค์ด๋ค. ์ด 9๊ฐ๋ฅผ ์ฌ์ฉํ์๋ค.
์ด ๋ชจ๋ ๋ด์ฉ์ ์ ๋ฆฌํ๋ฉด, classification์ ๊ฒฐ๊ณผ๋ ์ด (HxW)์ ๊ฐ๊ฐ์ ์์น์ ์ ์๋ Anchor(9๊ฐ)์ ๋ํด ๋ฌผ์ฒด์ ์ฌ๋ถ(2)๋ฅผ ๋ํ๋ด๋ ์ด 18๊ฐ์ Node๋ฅผ ๊ฐ์ ธ์ผ ํ๋ค. ๊ทธ๋ฌ๊ธฐ ์ํด (1x1)x(2x9)์ conv ์ฐ์ฐ์ ์งํํ์๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก (HxW)x(2x9)์ Feature map์ด ๋์ค๊ณ , ๊ฐ๊ฐ์ ๋
ธ๋๋ ์์๋๋ก (h, w) ์์น์ ์๋ 1๋ฒ anchor๊ฐ ๋ฌผ์ฒด์ผ logit, (h, w) ์์น์ ์๋ 1๋ฒ anchor๊ฐ ๋ฌผ์ฒด๊ฐ ์๋ logit โฆ ๋ก ์ ์๋๋ค. ์ต์ข
์ ์ผ๋ก ์ด๋ฅผ ํ๋ฅ ๊ฐ์ผ๋ก ๋ณ๊ฒฝํด์ฃผ๊ธฐ ์ํด ์ ์ ํ reshape ํด์ค ๋ค์ Softmax๋ฅผ ์ ์ฉํ๋ค.
๋๋ฒ์งธ๋ก Bounding Box Regression์ ์งํํ๋ค. ๊ฐ์ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ๋ค. ์ด๋ฒ์๋ 9๊ฐ anchor์ ๋ํด ์ด 4๊ฐ์ ์ขํ๋ฅผ ์์ ํ๊ธฐ ์ํ ์กฐ์ ๊ฐ์ ์์ธกํด์ผ ํ๋ฏ๋ก (H W)x(4x9)์ ๊ฒฐ๊ณผ๋ฅผ ์ป์ด์ผ ํ๋ค. ์ด๋ฒ์๋ regression์ด๊ธฐ ๋๋ฌธ์ ๊ทธ๋๋ก ๊ฒฐ๊ณผ๊ฐ์ผ๋ก ์ฌ์ฉํ๋ฉด ๋๋ค.
์์ ๊ณผ์ ์ ์์ฐจ์ ์ผ๋ก ์งํ๋๋ค. ์ฆ, classification์ ๋จผ์ ์งํํ๊ณ , ์ด ๊ฒฐ๊ณผ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ฌผ์ฒด์ผ ํ๋ฅ ์ sortingํ๋ค. ์ด ์ค ๋์ ์์ผ๋ก K๊ฐ์ anchor๋ฅผ ํ๋ณด๊ตฐ์ผ๋ก ์ ์ ํ๋ค. ์ด ํ๋ณด๊ตฐ์ ๊ฐ๊ฐ bounding Box Regression์ ์งํํ๋ค. ๋ง์ง๋ง์ผ๋ก Non-Maximum-Suppression์ ์ ์ฉํ๊ณ , ์ด๊ฒ์ ๊ธฐ๋ฐ์ผ๋ก RoI๋ฅผ ์ ์ํ๋ค.
์ด๋ฌํ ๋ฐฉ๋ฒ์ ํตํด์ RoI๋ฅผ ์ ์ํ๋ Network๋ฅผ ๋ง๋ค์๋ค. ์ด ํ ๊ณผ์ ์, ์ด๋ ๊ฒ ๋ง๋ค์ด์ง RoI๋ฅผ ์ฒซ๋ฒ์งธ Feature map (HxWxC) ์ ํฌ์ํ๋ ๊ณผ์ ์ ๊ฑฐ์น๋ค. ์ด ๋ถ๋ถ์ Fast R-CNN ๊ตฌ์กฐ์ ๊ฐ๋ค.
RPNโs Loss function
RPN์ ์์์ Classification๊ณผ Bouding Box Regression์ ์ํํ๋ค. ๋ก์ค ํ์ ์ ์ด ๋ ๊ฐ์ง ํ ์คํฌ์์ ์ป์ ๋ก์ค๋ฅผ ์ฎ์ ํํ๋ฅผ ์ทจํ๊ณ ์๋ค.
์ฌ๊ธฐ์ i๋ ํ๋์ anchor๋ฅผ ๋งํ๋ค. ๋ classification์ ํตํด์ ์ป์ ํด๋น anchor๊ฐ object์ผ ํ๋ฅ ์ ์๋ฏธํ๋ค. ๋ bounding box regression์ ํตํด์ ์ป์ ๋ฐ์ค ์กฐ์ ๊ฐ ๋ฒกํฐ๋ฅผ ์๋ฏธํ๋ค. *์ด ๋ถ์ ๋ณ์๋ ground truth label์ ํด๋น๋๋ค.
classification์ binary cross entropy, regression์ smooth L1 loss๋ฅผ ์ฌ์ฉํ๋ค.
์ฃผ๋ชฉํด์ผ ํ ์ ์ ๊ฐ๊ฐ ์ ๋ฅผ ๊ฐ์ง๋ค๋ ์ ์ด๋ค. ๋ minibatch ์ฌ์ด์ฆ์ด๋ฉฐ ๋
ผ๋ฌธ์์๋ 256์
๋๋ค. ๋ ์ฅ์ปค ๊ฐ์์ ํด๋นํ๋ฉฐ ์ฝ 2400๊ฐ (256 x 9)์ ํด๋นํ๋ค. ์ค์ ์คํ์ ์งํํ์ ๋ ์ด๋ถ๋ถ์ด ํฐ ๋ถ๋ถ์ ๋ด๋นํ์ง๋ ์๋๋ค๊ณ ๋งํ๋ค. ๋ Classifiaction Loss์ Regression Loss ์ฌ์ด์ ๊ฐ์ค์น๋ฅผ ์กฐ์ ํด์ฃผ๋ ๋ถ๋ถ์ธ๋ฐ ๋
ผ๋ฌธ์์๋ 10์ผ๋ก ์ค์ ๋์ด ์์ด, ์ฌ์ค์ ๋ ๋ก์ค๋ ๋์ผํ๊ฒ ๊ฐ์ค์น๊ฐ ๋งค๊ฒจ์ง๋ค. ์ดํ๋ Fast R-CNN ๊ตฌ์กฐ์ ๊ฐ๋ค. ์ด์ ๋จ์ ๊ฒ์ ์ด๋ป๊ฒ ์ด ๋ ๋คํธ์ํฌ๋ฅผ ํ์ต์ํค๋๋์ ๋ํ ๊ฒ์ด๋ค.
Training Method
ํ์ง๋ง ์ ์ฒด ๋ชจ๋ธ์ ํ๋ฒ์ ํ์ต์ํค๊ธฐ๋ ๋งค์ฐ ์ด๋ ค์ด ์์ ์ด๋ค. RPN์ด ์ ๋๋ก RoI๋ฅผ ๊ณ์ฐํด๋ด์ง ๋ชปํ๋๋ฐ ๋ท ๋จ์ Classification ๋ ์ด์ด๊ฐ ํ์ต๋ ๋ฆฌ๊ฐ ์๋ค. ์ฌ๊ธฐ์ ์ ์๋ค์ 4๋จ๊ณ์ ๊ฑธ์ณ์ ๋ชจ๋ธ์ ๋ฒ๊ฐ์์ ํ์ต์ํค๋ Alternating Training ๊ธฐ๋ฒ์ ์ทจํ๋ค. ๋ง์ด ์ด๋ ต์ง ๊ทธ๋ฅ ๋ฐ๋ก ํ๊ณ ์ง์ง๊ณ ๋ณถ์ผ๋ฉด์ ํ์ต์ํจ๊ฑฐ๋ค.
ImageNet pretrained๋ชจ๋ธ์ ๋ถ๋ฌ์จ ๋ค์,RPN์ ํ์ต์ํจ๋ค.- 1 ๋จ๊ณ์์ ํ์ต์ํจ
RPN์์ ๊ธฐ๋ณธ CNN์ ์ ์ธํRegion Proposal ๋ ์ด์ด๋ง ๊ฐ์ ธ์จ๋ค. ์ด๋ฅผ ํ์ฉํ์ฌ Fast RCNN์ ํ์ต์ํจ๋ค. ์ด ๋ , ์ฒ์ ํผ์ณ๋งต์ ์ถ์ถํ๋ CNN๊น์งfine tune์ํจ๋ค. - ์์ ํ์ต์ํจ
Fast RCNN๊ณผRPN์ ๋ถ๋ฌ์จ ๋ค์, ๋ค๋ฅธ ์จ์ดํธ๋ค์ ๊ณ ์ ํ๊ณRPN์ ํด๋นํ๋ ๋ ์ด์ด๋ค๋งfine tune์ํจ๋ค. ์ฌ๊ธฐ์๋ถํฐRPN๊ณผFast RCNN์ด ์ปจ๋ณผ๋ฃจ์ ์จ์ดํธ๋ฅผ ๊ณต์ ํ๊ฒ ๋๋ค. - ๋ง์ง๋ง์ผ๋ก ๊ณต์ ํ๋ CNN๊ณผ
RPN์ ๊ณ ์ ์ํจ ์ฑ,Fast R-CNN์ ํด๋นํ๋ ๋ ์ด์ด๋งfine tune์ํจ๋ค.
์์
region proposal์ ํ๋ฒ์ ์ํ
ํ๊ณ
- ์ฌ์ ํ
real time์ด๋ผ๊ณ ํ๊ธฐ์๋ ๋ฌด๋ฆฌ๊ฐ ์์ - ์ฌ์ ํ ํ์ต๊ณผ์ ์ด ๋ณต์กํ๊ณ 2step ์