ํต์ฌ ์์ด๋์ด
Region Proposal๋ Network์์ ํฌํจ์ํค์!
Faster R-CNN์ ํต์ฌ ์์ด๋์ด๋ Resion Proposal Network(์ดํ RPN)์ด๋ค. ๊ธฐ์กด Fast R-CNN๊ตฌ์กฐ๋ฅผ ๊ณ์นํ๋ฉด์ selective search
๋ฅผ ์ ๊ฑฐํ๊ณ RPN์ ํตํด์ Roi
๋ฅผ ๊ณ์ฐํ๋ค. ์ด๋ฅผ ํตํด์ GPU๋ฅผ ํตํด Roi
๋ฅผ ๊ณ์ฐํ ์ ์๊ฒ ๋์๊ณ , ์ด RoI
๋ฅผ ์ถ์ถํ๋ ๊ฒ ์ญ์ ํ์ต์์ผ ์ ํ๋๋ฅผ ๋์ผ ์ ์๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก selective search
๊ฐ 2000๊ฐ RoI
๋ฅผ ๊ณ์ฐํ๋๋ฐ ๋ฐํด, 800๊ฐ ์ ๋๋ก ๋ ๋์ ์ ํ๋๋ฅผ ๊ฐ์ง๋ค.
๊ทธ๋ฆผ์ ๋ณด๋ฉด ์๊ฒ ์ง๋ง, feature map
์ผ๋ก ๋ถํฐ selective search
๋ฅผ ๊ฑฐ์น์น ์๊ณ ์ด๋ฅผ RPN์ ์ ๋ฌํ์ฌ ๊ณ์ฐ์ ์งํํ๋ค. ์ฌ๊ธฐ์ ์ป์ RoI
๋ก RoI Pooling
์ ์งํํ ๋ค์ object detection์ ์งํํ๋ค.
Region Proposal Network
์ด ๊ทธ๋ฆผ๋ณด๋ค๋ ์์ฐจ์ ์ผ๋ก ๋ ๊ทธ๋ฆผ์ผ๋ก ์ดํดํ๋ ๊ฒ์ด ์ฝ๋ค.
CNN์ ํตํด ๋ฝ์๋ธ feature map
์ ์
๋ ฅ์ผ๋ก ๋ฐ๋๋ค. ์ด๋ค pretrained model์ ์ฌ์ฉํ ์ง ๋ชจ๋ฅด๋ฏ๋ก ์ด๋ฅผ HxWxC
๋ก ๋๋ค.
feature map
์ (3x3)x256
๋๋ (3x3)x512
conv ์ฐ์ฐ์ ์ํํ๋ค. ์๋ฐํ ๋งํ๋ฉด C์ 256, 512๋ ๊ฐ์์ผ ํ๋ค. ์ผ๋จ ์ฐ์ฐ์ด ๊ฐ๋ฅํ๋ค๊ณ ๊ฐ์ ํ์. ์ด ๋, HxW
๊ฐ ๋ณด์กด๋ ์ ์๊ฒ padding์ 1๋ก ์ค์ ํ๋ค.
์ ๊ณผ์ ์์ ๋์จ feature map
์ ๊ฐ์ง๊ณ classification
์ ์ํ ํ๋ฅ ๊ฐ๊ณผ, bounding box regression
๊ฐ์ ๋ฝ์๋ธ๋ค. ์ด ๊ณผ์ ์์ ๋๋ฌด ๋ง์ ์ฐ์ฐ์ ์งํํ๊ฒ ๋๋ฉด ๋ชจ๋ธ์ด ์ง๋์น๊ฒ ๋ฌด๊ฑฐ์ ์ง๋ค. ์ ์๋ค์ 1 x 1 conv
๋ง์ ์ํํ์ฌ ์์ธก๊ฐ์ ๋ฝ์๋ด๊ณ ์ ํ์๋ค.
๋จผ์ Classification
์ ๊ฒฝ์ฐ, ๋์ฑ ๊ฐ๋ณ๊ฒ ์งํํ๊ธฐ ์ํด ๋ฌผ์ฒด์ธ์ง ์๋์ง๋ฅผ ๊ตฌ๋ถํ๋ binary classification
์ ์งํํ๊ณ ์ ํ์๋ค. ํ์ง๋ง ์ด ๋ฌธ์ ๋ bounding box์ ์ฎ์ด์ ์ด๋ฅผ ์๊ฐํด์ผ ํ๋๋ฐ, ์ ์๋ค์ ์ด ๋จ๊ณ์์ Anchor
๋ผ๋ ๊ฐ๋
์ ๋์
ํ์ฌ ์ด๋ฅผ ์งํํ์๋ค. Anchor
๋ ๊ฐ๋จํ๊ฒ ์ฌ์ ์ ์ ์ํด ๋ Box๋ค์ด๋ค. ์ด 9๊ฐ๋ฅผ ์ฌ์ฉํ์๋ค.
์ด ๋ชจ๋ ๋ด์ฉ์ ์ ๋ฆฌํ๋ฉด, classification
์ ๊ฒฐ๊ณผ๋ ์ด (HxW)
์ ๊ฐ๊ฐ์ ์์น์ ์ ์๋ Anchor
(9๊ฐ)์ ๋ํด ๋ฌผ์ฒด์ ์ฌ๋ถ(2)๋ฅผ ๋ํ๋ด๋ ์ด 18๊ฐ์ Node๋ฅผ ๊ฐ์ ธ์ผ ํ๋ค. ๊ทธ๋ฌ๊ธฐ ์ํด (1x1)x(2x9)
์ conv ์ฐ์ฐ์ ์งํํ์๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก (HxW)x(2x9)
์ Feature map
์ด ๋์ค๊ณ , ๊ฐ๊ฐ์ ๋
ธ๋๋ ์์๋๋ก (h, w)
์์น์ ์๋ 1๋ฒ anchor
๊ฐ ๋ฌผ์ฒด์ผ logit, (h, w)
์์น์ ์๋ 1๋ฒ anchor
๊ฐ ๋ฌผ์ฒด๊ฐ ์๋ logit โฆ ๋ก ์ ์๋๋ค. ์ต์ข
์ ์ผ๋ก ์ด๋ฅผ ํ๋ฅ ๊ฐ์ผ๋ก ๋ณ๊ฒฝํด์ฃผ๊ธฐ ์ํด ์ ์ ํ reshape ํด์ค ๋ค์ Softmax๋ฅผ ์ ์ฉํ๋ค.
๋๋ฒ์งธ๋ก Bounding Box Regression
์ ์งํํ๋ค. ๊ฐ์ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ๋ค. ์ด๋ฒ์๋ 9๊ฐ anchor
์ ๋ํด ์ด 4๊ฐ์ ์ขํ๋ฅผ ์์ ํ๊ธฐ ์ํ ์กฐ์ ๊ฐ์ ์์ธกํด์ผ ํ๋ฏ๋ก (H W)x(4x9)
์ ๊ฒฐ๊ณผ๋ฅผ ์ป์ด์ผ ํ๋ค. ์ด๋ฒ์๋ regression
์ด๊ธฐ ๋๋ฌธ์ ๊ทธ๋๋ก ๊ฒฐ๊ณผ๊ฐ์ผ๋ก ์ฌ์ฉํ๋ฉด ๋๋ค.
์์ ๊ณผ์ ์ ์์ฐจ์ ์ผ๋ก ์งํ๋๋ค. ์ฆ, classification์ ๋จผ์ ์งํํ๊ณ , ์ด ๊ฒฐ๊ณผ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ฌผ์ฒด์ผ ํ๋ฅ ์ sortingํ๋ค. ์ด ์ค ๋์ ์์ผ๋ก K๊ฐ์ anchor
๋ฅผ ํ๋ณด๊ตฐ์ผ๋ก ์ ์ ํ๋ค. ์ด ํ๋ณด๊ตฐ์ ๊ฐ๊ฐ bounding Box Regression
์ ์งํํ๋ค. ๋ง์ง๋ง์ผ๋ก Non-Maximum-Suppression์ ์ ์ฉํ๊ณ , ์ด๊ฒ์ ๊ธฐ๋ฐ์ผ๋ก RoI๋ฅผ ์ ์ํ๋ค.
์ด๋ฌํ ๋ฐฉ๋ฒ์ ํตํด์ RoI๋ฅผ ์ ์ํ๋ Network๋ฅผ ๋ง๋ค์๋ค. ์ด ํ ๊ณผ์ ์, ์ด๋ ๊ฒ ๋ง๋ค์ด์ง RoI๋ฅผ ์ฒซ๋ฒ์งธ Feature map
(HxWxC)
์ ํฌ์ํ๋ ๊ณผ์ ์ ๊ฑฐ์น๋ค. ์ด ๋ถ๋ถ์ Fast R-CNN ๊ตฌ์กฐ์ ๊ฐ๋ค.
RPNโs Loss function
RPN์ ์์์ Classification๊ณผ Bouding Box Regression์ ์ํํ๋ค. ๋ก์ค ํ์ ์ ์ด ๋ ๊ฐ์ง ํ ์คํฌ์์ ์ป์ ๋ก์ค๋ฅผ ์ฎ์ ํํ๋ฅผ ์ทจํ๊ณ ์๋ค.
์ฌ๊ธฐ์ i
๋ ํ๋์ anchor
๋ฅผ ๋งํ๋ค. ๋ classification
์ ํตํด์ ์ป์ ํด๋น anchor
๊ฐ object
์ผ ํ๋ฅ ์ ์๋ฏธํ๋ค. ๋ bounding box regression
์ ํตํด์ ์ป์ ๋ฐ์ค ์กฐ์ ๊ฐ ๋ฒกํฐ๋ฅผ ์๋ฏธํ๋ค. *
์ด ๋ถ์ ๋ณ์๋ ground truth label
์ ํด๋น๋๋ค.
classification
์ binary cross entropy
, regression
์ smooth L1 loss
๋ฅผ ์ฌ์ฉํ๋ค.
์ฃผ๋ชฉํด์ผ ํ ์ ์ ๊ฐ๊ฐ ์ ๋ฅผ ๊ฐ์ง๋ค๋ ์ ์ด๋ค. ๋ minibatch
์ฌ์ด์ฆ์ด๋ฉฐ ๋
ผ๋ฌธ์์๋ 256์
๋๋ค. ๋ ์ฅ์ปค ๊ฐ์์ ํด๋นํ๋ฉฐ ์ฝ 2400๊ฐ (256 x 9)์ ํด๋นํ๋ค. ์ค์ ์คํ์ ์งํํ์ ๋ ์ด๋ถ๋ถ์ด ํฐ ๋ถ๋ถ์ ๋ด๋นํ์ง๋ ์๋๋ค๊ณ ๋งํ๋ค. ๋ Classifiaction Loss
์ Regression Loss
์ฌ์ด์ ๊ฐ์ค์น๋ฅผ ์กฐ์ ํด์ฃผ๋ ๋ถ๋ถ์ธ๋ฐ ๋
ผ๋ฌธ์์๋ 10์ผ๋ก ์ค์ ๋์ด ์์ด, ์ฌ์ค์ ๋ ๋ก์ค๋ ๋์ผํ๊ฒ ๊ฐ์ค์น๊ฐ ๋งค๊ฒจ์ง๋ค. ์ดํ๋ Fast R-CNN ๊ตฌ์กฐ์ ๊ฐ๋ค. ์ด์ ๋จ์ ๊ฒ์ ์ด๋ป๊ฒ ์ด ๋ ๋คํธ์ํฌ๋ฅผ ํ์ต์ํค๋๋์ ๋ํ ๊ฒ์ด๋ค.
Training Method
ํ์ง๋ง ์ ์ฒด ๋ชจ๋ธ์ ํ๋ฒ์ ํ์ต์ํค๊ธฐ๋ ๋งค์ฐ ์ด๋ ค์ด ์์ ์ด๋ค. RPN์ด ์ ๋๋ก RoI๋ฅผ ๊ณ์ฐํด๋ด์ง ๋ชปํ๋๋ฐ ๋ท ๋จ์ Classification ๋ ์ด์ด๊ฐ ํ์ต๋ ๋ฆฌ๊ฐ ์๋ค. ์ฌ๊ธฐ์ ์ ์๋ค์ 4๋จ๊ณ์ ๊ฑธ์ณ์ ๋ชจ๋ธ์ ๋ฒ๊ฐ์์ ํ์ต์ํค๋ Alternating Training ๊ธฐ๋ฒ์ ์ทจํ๋ค. ๋ง์ด ์ด๋ ต์ง ๊ทธ๋ฅ ๋ฐ๋ก ํ๊ณ ์ง์ง๊ณ ๋ณถ์ผ๋ฉด์ ํ์ต์ํจ๊ฑฐ๋ค.
ImageNet pretrained
๋ชจ๋ธ์ ๋ถ๋ฌ์จ ๋ค์,RPN
์ ํ์ต์ํจ๋ค.- 1 ๋จ๊ณ์์ ํ์ต์ํจ
RPN
์์ ๊ธฐ๋ณธ CNN์ ์ ์ธํRegion Proposal ๋ ์ด์ด
๋ง ๊ฐ์ ธ์จ๋ค. ์ด๋ฅผ ํ์ฉํ์ฌ Fast RCNN์ ํ์ต์ํจ๋ค. ์ด ๋ , ์ฒ์ ํผ์ณ๋งต์ ์ถ์ถํ๋ CNN๊น์งfine tune
์ํจ๋ค. - ์์ ํ์ต์ํจ
Fast RCNN
๊ณผRPN
์ ๋ถ๋ฌ์จ ๋ค์, ๋ค๋ฅธ ์จ์ดํธ๋ค์ ๊ณ ์ ํ๊ณRPN
์ ํด๋นํ๋ ๋ ์ด์ด๋ค๋งfine tune
์ํจ๋ค. ์ฌ๊ธฐ์๋ถํฐRPN
๊ณผFast RCNN
์ด ์ปจ๋ณผ๋ฃจ์ ์จ์ดํธ๋ฅผ ๊ณต์ ํ๊ฒ ๋๋ค. - ๋ง์ง๋ง์ผ๋ก ๊ณต์ ํ๋ CNN๊ณผ
RPN
์ ๊ณ ์ ์ํจ ์ฑ,Fast R-CNN
์ ํด๋นํ๋ ๋ ์ด์ด๋งfine tune
์ํจ๋ค.
์์
region proposal
์ ํ๋ฒ์ ์ํ
ํ๊ณ
- ์ฌ์ ํ
real time
์ด๋ผ๊ณ ํ๊ธฐ์๋ ๋ฌด๋ฆฌ๊ฐ ์์ - ์ฌ์ ํ ํ์ต๊ณผ์ ์ด ๋ณต์กํ๊ณ 2step ์