Descripter
์ด๋ฏธ์ง๋ฅผ ๋น๊ตํ๊ธฐ ์ํด ๋์ผํ ๋ฐฉ๋ฒ์ ํตํด ํ๋์ ๋น๊ต ๋์์ผ๋ก ๋ง๋๋ ๊ฒ
๋ ๊ฐ์ง ์ด๋ฏธ์ง๊ฐ ์๋ค. ์ด ๋๊ฐ์ง ์ด๋ฏธ์ง๊ฐ ๋น์ทํ์ง ์๋์ง๋ฅผ ๊ตฌ๋ถํ๊ธฐ ์ํด ๋ง๋ ๊ฒ์ด descripter์ด๋ค. ์์ ๊ทธ๋ฆผ์์๋ ํฝ์
์ ๊ฐ๋ค์ ๊ธฐ๋ฐ์ผ๋ก gradients
๋ฅผ ๊ตฌํด ์ด๋ฅผ grid์ plotํ์ฌ ํํํ์๋ค. ์ฌ๊ธฐ์ ์ด gradients
๋ฅผ descripter๋ก ์ฌ์ฉํ๋ค๊ณ ๋งํ๋ค.
์๋ฅผ ๋ค์ด HOG ์๊ณ ๋ฆฌ์ฆ์ ๊ฐ pixel์์ gradient๋ฅผ ๊ตฌํ๊ณ ์ด ๊ฐ๋ค์ ์ด 8๊ฐ์ง ๋ฐฉํฅ์ผ๋ก ๋งคํํ ํ, ํ์คํ ๊ทธ๋จ์ ์์ฑํ๋ค. ์ด๋ ๊ฒ ์ถ์ถ๋ Feature vector๋ keypoint์ด๊ณ ์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก bounding box๋ฑ์ ๋ง๋๋๋ฐ ํ์ฉํ๋ค. ์์ฆ์ ์ด feature mapCNN์ ํตํด ์์ฑํ๋ค.
Region Proposal
์ด๋ฏธ์ง๋ก๋ถํฐ ์์ญ์ ์ ํํ๊ธฐ ์ํด ์ฌ์ฉ๋๋ ์๊ณ ๋ฆฌ์ฆ
๊ธฐ์กด์ sliding window
๋ฐฉ์์ ๋งค์ฐ ๋นํจ์จ์ ์ด์๊ณ , ์ด๋ฅผ ๊ฐ์ ํ ๋ฐฉ๋ฒ์ด๋ค. โ๋ฌผ์ฒด๊ฐ ์์ ๋ฒํโ ์์ญ์ ๋น ๋ฅธ ์๋๋ก ์ฐพ์๋ด๋ ์๊ณ ๋ฆฌ์ฆ์ด๋ค. ๋ณดํธ์ ์ผ๋ก selective search
, edge box algorithm
์ด ์๋ค. ํ์ง๋ง ์ด ์ญ์๋ ์ถํ์ end-to-end
๋ฐฉ์์ผ๋ก ๊ฐ์ ๋๋ค.
RoI(Region of Interest)
์ด๋ฏธ์ง๋ด์์์ ๊ด์ฌ ์์ญ
์๋ input์์ ์๋ผ๋ธ ๊ด์ฌ ์์ญ๋ค์ RoI
๋ผ ํ๋ค.
Caption generation
์ด๋ฏธ์ง๋ก ๋ถํฐ ๋ฌธ์ฅ์ ์์ฑํ๋ ๊ฒ
์ด ์ฐ๊ตฌ๋ Human-object interaction์ ๊ธฐ์ดํ์ฌ ์ฐ๊ตฌ๋๊ณ ์๋ค.
Smooth L1 Loss
smooth\_{L_1}(x) = \\begin{cases} 0.5x^2 & \mbox {if }\left| x \right| \< 1 \mbox{ is even} \\ \\left| x \right|-0.5 & otherwise \\end{cases}L1, L2 Loss๋ ์๋ตํ์๋ค. ์์์์์ x๋ ๋ก ์ ๋ต label๊ณผ ์ฐจ์ด์ด๋ค. ์ค์ฐจ๊ฐ ์์ ๋ถ๋ถ์ ์ ๊ณฑ์ ์ฌ์ฉํ๊ณ , ๊ทธ๋ ์ง ์์ ๋ถ๋ถ์์๋ ์ง์ ์ ์ฌ์ฉํ๋ค. ์ด๋ฌํ ๋ฐฉ์์ L1 Loss
์ L2 Loss
์ ์ฅ์ ์ ๊ฒฐํฉํ ํํ์ด๋ค. ์ฆ, error
๊ฐ ํด๊ฒฝ์ฐ ์์ ์ ์ผ๋ก loss๋ฅผ ๊ฐ์์ํค๊ณ ()
, ์์ ๊ฒฝ์ฐ์๋ L2 Loss๋ฅผ ์ฌ์ฉํ์ฌ ์
๋ฐ์ดํธ ๊ณผ์ ์ค ์ง๋์ ๊ฐ์์ํจ๋ค.
IOU (Intersection over union)
์์ธกํ bounding box์ ground truth box๊ฐ์ ๊ฒน์น๋ ๋์ด ๋น์จ
์ด๊ฒ์ ์ฌ์ง์ผ๋ก ์ง๊ด์ ์ผ๋ก ์ดํดํ ์ ์๋ค.
Ablation study
๊ธฐ์กด ๋ชจ๋ธ์์ feature๋ฅผ ์ ๊ฑฐํ๋ฉด์ ์ํฅ๋ ฅ์ ํ์ธํ๋ ๊ฒ
์ฌ๊ธฐ์ feature
๋ ๋ณ์๋ณด๋ค๋ network
, layer
๋ฑ์ ๋งํ๋ค.
Jittered examples
IoU๋ฅผ ๊ธฐ์ค์ผ๋ก ์ฌ์ฉํ๊ฒ ๋ค๊ณ ํ๋จํ bounding box
bounding box regression
์ ์งํํ ํ์ ๊ฐ๊ฐ์ proposal
์ ๋ํด ์์ธกํ ๊ฒฐ๊ณผ ์ค ํ์ต์ ์ฌ์ฌ์ฉํ๊ธฐ ์ํ ์ํ์ ๊ฑธ๋ฌ๋ผ ๋ ์ฌ์ฉ๋๋ ๊ฐ๋
์ด๋ค. ์๋ฅผ ๋ค์ด IoU
๊ฐ 0.5์ด์ ์ธ ์ํ์ positive sample
์ด๋ผ ์ ์ํ ๊ฒฝ์ฐ, ์ด ์ํ์ Jittered examples
์ด๋ผ ํ๋ค.
Non-maximum suppression (NMS)
๋์ผํ ํด๋์ค๋ผ ํ๋ช ๋ bounding box๋ค ์ค ์ค๋ณต์ ์ ๊ฑฐํ๋ ๋ฐฉ๋ฒ
์๊ณ ๋ฆฌ์ฆ์ ๋ค์๊ณผ ๊ฐ๋ค.
- ๋์ผํ ํด๋์ค์ ๋ํด ๊ฒ์ถ๋ bounding box๋ค์ confidence ์์๋ก ์ ๋ ฌํ๋ค.
- ๊ฐ์ฅ confidence๊ฐ ๋์ bounding box์ IoU๊ฐ ์ผ์ ์ด์์ธ bounding box๋ ๋์ผ ๋ฌผ์ฒด๋ฅผ detectํ๋ค ํ๋จํ์ฌ ์ง์ด๋ค.
- ๊ฐ์ฅ confidence๋์๊ฒ๋ง ๋จ๊ธฐ๊ณ ๋ณดํต 0.5์ด์ box๋ค์ ์ง์ด๋ค.
OHEM (Online Hard Example Mining)
๋จผ์ , Hard Example
๊ณผ Easy Example
์ ๊ฐ๋
๋ถํฐ ์์๋ณด์. ์ฌ๋์ธ์ง ์๋์ง๋ฅผ ๋ถ๋ฅํ๋ ๋ชจ๋ธ์ด ์๋ค๊ณ ํ์. ์ฐ๋ฆฌ์ ๋ชฉ์ ์ ์ด ๋ชจ๋ธ์ ํ๋ จ์ํค๋ ๊ฒ์ด๋ค. ๋๋ถ๋ถ์ ์ฌ๋ ์ด๋ฏธ์ง๋ ๋ถ๋ฅํ๋๋ก ๋ง๋ค์๋ค. ํ์ง๋ง ์ฌ๋ ๋์๊ณผ ๊ฐ์ ์ํ์ ๋ํด์๋ ๋ชจ๋ธ์ด ๊ตฌ๋ถํ๊ธฐ ์ด๋ ค์ธ ๊ฒ์ด๋ค. ์ด๋ฌํ ์ํฉ์์ ์ผ๋ฐ์ ์ผ๋ก ์ ๋์ํ๋ ์ํ์ Easy Example
, ์ฌ๋ ๋์ ์ด๋ฏธ์ง๋ฅผ Hard Example
์ด๋ผ ํ๋ค. ์ด๋ฐ ๊ฒ๋ค์ ์ ๋๋ก ํ๋ จํ๊ธฐ ์ํด์๋ Hard Example
์ ๋ํด ๊ฐ์ค์น๋ฅผ ์ฃผ๊ฑฐ๋ ํด์ ๋ชจ๋ธ์ ํ๋ จ์์ผ์ผ ํ ๊ฒ์ด๋ค.
๋ค์์ positive
์ negative
์ ๋ํ ๊ฐ๋
์ด๋ค. positive
๋ ๋ฌธ์ ์์ ๋ด๊ฐ ์ํ๋ ํด๋์ค๋ฅผ ์๋ฏธํ๋ค. positive sample
์ bounding box์ label์ด ์ฌ๋์ธ ๊ฒ์ ์๋ฏธํ๊ณ , negative sample
์ ๋ฐฐ๊ฒฝ์์ ์๋ฏธํ๋ค.
๊ทธ๋ ๋ค๋ฉด hard negative
๋, ์ค์ ๋ก๋ ๋ฐฐ๊ฒฝ์ธ๋ฐ, ์ฌ๋์ด๋ผ๊ณ ์์ธกํ sample์ด๋ค. ๋ฐ๋๋ก easy negative
๋ ์ค์ ๋ก ๋ฐฐ๊ฒฝ์ด๋ฉฐ ๋ฐฐ๊ฒฝ์ผ๋ก ์์ธกํ์์ ์๋ฏธํ๋ค.
์ฆ, hard negative sample
์, ๋ค๊ฑฐํฐ๋ธ ์ํ์ด๋ผ๊ณ ๋ณด๊ธฐ ์ด๋ ต๋ค๋ผ๋ ์๋ฏธ์ด๋ค. ํด๋น ์ํ์ ๋ํด ๋ฐฐ๊ฒฝ์ด๋ผ๊ณ ๋งํด์ผ ํ๋๋ฐ, confidence๋ ๋๊ฒ ๋์ค๋ ์ํฉ์ ๋งํ๋ค.
์ฐ๋ฆฌ๊ฐ ์์๋ณผ object detection
๋ฌธ์ ์์๋ resion proposal
์ ํตํด ์ฌ๋ฌ๊ฐ์ง ํ๋ณด๋ฅผ ์ ํํ๊ฒ ๋๋ค. ์ด ํ๋ณด๊ตฐ์ ๋๋ถ๋ถ์ ๋ฐฐ๊ฒฝ์ด๋ผ๊ณ ๋งํด์ผ ํ๋ easy negative sample
์ด ์ฐจ์งํ๊ณ ์๋ค. ๋ํ ์ฌ๋์ด๋ผ๊ณ ๋งํด์ผ ํ๋ positive sample
์ ๊ฐ์๋ ๋งค์ฐ ๋ถ์กฑํ๋ค. ๋ณดํต ์ด๋ฌํ ์ํฉ์์๋ ๋ชจ์ง๋จ์ balance
๋ฅผ ๋ง์ถ๋ resampling
์ ์งํํ๊ฑฐ๋, boosting
์๊ณ ๋ฆฌ์ฆ์ผ๋ก ์งํํ๊ฒ ๋๋ค. ํ์ง๋ง ์ด๊ฒ์ label
์ ๋ถ๊ท ํ์ ์๊ณ ์๊ณ , ์ด๋ฅผ ์ฒ๋ฆฌํ ์ ์์ ๋ ๊ฐ๋ฅํ๋ค. detection
๋ฌธ์ ๋ ํ๋ณด๊ตฐ์ label์ ๋ชจ๋ฅด๊ธฐ ๋๋ฌธ์ ์ด ๋ฐฉ๋ฒ์ ์ฌ์ฉํ ์ ์๋ค. ๊ทธ๋ ๋ค๋ฉด ๋ง์ฝ ์ด ์ํฉ์์ ๊ทธ๋๋ก ํ๋ จ์ ์งํํ๊ฒ ๋๋ฉด, easy negative sample
์ ์์ด ๋๋ฌด ๋ง๊ธฐ ๋๋ฌธ์ **๋ฐฐ๊ฒฝ์ ๋ฐฐ๊ฒฝ์ด๋ผ ํ๋ ์์ธก**๋ง์ด ๋๋ค์๋ฅผ ์ด๋ฃจ๊ณ , ์ด์ ๋ํด์๋ง ํ์ต์ ์งํํ๊ฒ ๋๋ค.
์ผ๋ฐ์ ์ผ๋ก Classification์์ ์ฌ์ฉํ๋ Loss ํจ์๋ Cross Entropy ์ด๋ค. ์ด๋ฌํ imbalance
๋ฅผ ๊ณ ๋ คํ์ฌ ์
๋ฐ์ดํธ๋ฅผ ํ์ง ์๊ธฐ ๋๋ฌธ์, ๊ธฐ์กด์ ๋ฐฉ์์ ์ฌ์ฉํ ๊ฒฝ์ฐ, background
๋ง ์ ๋ง์ถ๋ ์์ํ ๋ชจ๋ธ์ด ๊ฒฐ๊ณผ๋ก ๋์ถ๋๋ค.
์ฐ๋ฆฌ๋ ๊ฒฐ๊ณผ์ ์ผ๋ก ๋ฐฐ๊ฒฝ์ ๋ฐฐ๊ฒฝ์ด๋ผํ๊ณ , ์ฌ๋์ ์ฌ๋์ด๋ผ๊ณ ํ๋ ์ข์ ๋ชจ๋ธ์ ์ ์ํด์ผ ํ๋ค. ๊ทธ๋ฌ๊ธฐ ์ํด์๋ ํ๋ณด๊ตฐ์ ๋๋ถ๋ถ์ ์ฐจ์งํ๊ณ ์๋ easy negative sample
์ ๋ํด์ ์
๋ฐ์ดํธ๋ ์ค์ด๊ณ , ๋ฐฐ๊ฒฝ์ธ๋ฐ ๋ฐฐ๊ฒฝ์ด ์๋๋ผ๊ณ ํ๋ hard negative sample
์ ๋ํด ์ฃผ๋ ์
๋ฐ์ดํธ๋ฅผ ์งํํด์ผ ํ๋ค. ์ด๋ฅผ ์ํด ์ ์๋ ๋ฐฉ๋ฒ์ด OHEM (Online Hard Example Mining)
์ด๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก positive sample
๊ณผ hard negative sample
์ ๊ฐ์ง๊ณ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ค. ์ด์ ๊ฐ์ ๋ถ๊ท ํ ๋ฌธ์ ๋ฅผ Class Imbalance
๋ผ ํ๋ค.
Focal Loss
์์ OHEM
๊ณผ ๋น์ทํ๊ฒ class Imbalance
๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ ๋ฐฉ๋ฒ์ด๋ค. loss function
์ ์์ ํ์ฌ ์ด๋ฅผ ํด๊ฒฐํ๋ค.
์ด๋ฐ loss funtion
์ ์ดํดํ๋ ๊ฐ์ฅ ์ข์ ๋ฐฉ๋ฒ์ ์ ๊ทน๋จ์น๋ฅผ ๋ฃ์ด๋ณด๋ ๊ฒ์ด๋ค. y=1
์ผ ๊ฒฝ์ฐ, ground truth๊ฐ ์ฌ๋์ธ ๊ฒฝ์ฐ์๋ ํด๋น class๊ฐ ๋์ฌ ํ๋ฅ ์ ๊ทธ๋๋ก ๋ฃ์ด์ค๋ค. ์ฆ ์ด๋ค. ๊ทธ๋ ๋ค๋ฉด ๋ง์ฝ ์ ๋ง์ท์ ๊ฒฝ์ฐ์๋ loss๊ฐ 0์ ๊ฐ๊น์์ง๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก postitive
์ ๋ํด ์ ์์ธกํ ๊ฒฝ์ฐ loss๋ฅผ ์๊ฒ ์ฃผ๊ณ , ๊ทธ๋ ์ง ์์ ๊ฒฝ์ฐ loss๋ฅผ ํฌ๊ฒ ์ค๋ค.
y!=1
์ธ ๊ฒฝ์ฐ, ์ด๊ณ , ๊ทธ๋ ๊ฒ ๋ ๊ฒฝ์ฐ ์ด๋ค. cross entropy์์์ ์ํญ๊ณผ ๋ค ํญ์ ๋ณํ์ ํตํด logํจ์๊ฐ ๊ฐ์ง๋ ํน์ง์ ์ฌ์ฉํ๋ค. ์ ์์ธกํ ๊ฒฝ์ฐ loss๋ฅผ ํฌ๊ฒ ์ฃผ๊ณ , ๊ทธ๋ ์ง ์์ ๊ฒฝ์ฐ loss๋ฅผ ์๊ฒ์ค๋ค. ๋ค๋ง log ํจ์์ ์ฎ์ฌ ์๋ ๋ถ๋ถ์ ์ ์์ธกํ์ ๊ฒฝ์ฐ์ ๋ ํฐ loss๊ฐ์ ์ฃผ๊ฒ ๋๋ฏ๋ก, ์ด ์์ ์๋๋, ๋๋ฌด ์ ์์ธกํ๋ ๋ฐ์ดํฐ(p๊ฐ ๊ณ์ ๋๋ฌด ๋๊ฒ ๋์ด)์ ์ํฅ๋ ฅ์ ์ค์ด๊ธฐ ์ํ ๊ฒ์ด ๊ฐํ๋ค. ์ค์ ๋ก OHEM ๋ณด๋ค ์ฑ๋ฅ์ด ๋ ์ข๋ค๊ณ ํ๋ค.
Contextual feature
2d image์์ contextual based classification
์ pixel
์ ์ฃผ๋ณ neighborhood
๊ณผ์ relationship
์ ์ด์ ์ ๋ง์ถ approach๋ฅผ ๋ปํ๋ค. ์ฆ, ์ด๋ค ํน์ pixel์ contextual feature
๋ ์ฃผ๋ณ pixel๋ค๊ณผ์ relationship
์ ๊ธฐ๋ฐํด์ ์ถ์ถํ feature๋ฅผ ๋ปํ๋ค.