๊ฐ์
Noh, H., Hong, S., and Han, B. Learning Deconvolution Network for Semantic Segmentation. ICCV, 2015.
์ด๋ฒ ๋ ผ๋ฌธ์ ์์ ๋ค๋ค๋ Fully Convolutional Networks์ ๊ฐ์ ๋ ๋(2015)์ ๋ค๋ฅธ ํํ(FCN์ CVPR, ๋ณธ ๋ ผ๋ฌธ์ ICCV)์ ๋ฐํ๋ ๋ ผ๋ฌธ์ด๋ค. FCN์ด๋ ์ดํ์ ๋ค๋ฃฐ UNet๋ณด๋ค๋ ๋ค์ ์ธ๊ธฐ๊ฐ ์ ์์ง๋ง, FCN์ด ๊ฐ์ง ํ๊ณ๋ฅผ ์ ์ง์ด์ฃผ์ จ๋ค๋ ์ ์์ ์์๊ฐ ์๋ค.
ํต์ฌ ์์ด๋์ด
ํฌ๊ธฐ, ๋ํ ์ผ์ ์ฝํด? โ layer ๋ฅผ ์ถ๊ฐํ์. (Upconvolution)
ํฌ๊ธฐ์ ๋ฌธ์ ์
์์ ์์๋ค์ฒ๋ผ FCN์ ์ถ๋ก ๊ฒฐ๊ณผ๋ฅผ ๋ณด๋ฉด, ๋์ ๋ฌผ์ฒด๊ฐ ๋๋ฌด ํฐ ๊ฒฝ์ฐ(a)์๋ ํํธํ๋๊ณ , ๋๋ฌด ์์ ๊ฒฝ์ฐ(b)์๋ ๋ฐฐ๊ฒฝ์ผ๋ก ๋ฌด์๋๋ ๊ฒฝํฅ์ด ์๋ค. FCN์์๋ receptive field(์์ ๋ ์ด์ด์ ํ ์ง์ ์์ ์ฐธ์กฐํ๋ ํ์ ๋ ์ด์ด์ ์์ญ)์ ํฌ๊ธฐ๊ฐ ๊ณ ์ ๋์ด, ๋จ์ผ ๋ฐฐ์จ(scale)๋ง์ ํ์ตํ๋ ๊ฒ์ด ์ด ๋ฌธ์ ์ ์์ธ์ด๋ผ๊ณ ๋ณธ ๋ ผ๋ฌธ์ ์ง์ ํ๋ค. ์ฌ๋ฌ ๋ ์ด์ด์ ๊ฒฐ๊ณผ๋ฅผ ์กฐํฉํ๋ skip ๊ตฌ์กฐ๊ฐ ์ด๋ฌํ ํ์์ ์ํ์์ผ์ฃผ๊ธฐ๋ ํ์ง๋ง, ๊ทผ๋ณธ์ ์ธ ํด๋ฒ์ ์๋๋ผ๋ ์ฃผ์ฅํ๋ค.
๋ํ ์ผ์ ๋ฌธ์ ์
FCN์ด ๋น๋ก ๊ธฐ์กด ๊ธฐ๋ฒ๋ค์ ๋นํด ํฐ ๋ฐ์ ์ ์ด๋ฃจ์์ง๋ง, ์ธ๋ถ์ ์ธ ์์ญ์ ์ฐพ์๋ด๋ ๋ฐ์์๋ ์์ง ๊ฐ์ ์ ์ฌ์ง๊ฐ ์๋ค๊ณ ์ด ๋ ผ๋ฌธ์ ๋ณด๊ณ ์๋ค. FCN์์๋ deconvolution์ ๋ค์ด๊ฐ๋ ์ ๋ ฅ๋ถํฐ ์ด๋ฏธ ์ธ๋ถ ๋ฌ์ฌ๊ฐ ๋จ์ด์ง๊ณ , deconvolution ๊ณผ์ ์์ฒด๋ ์ถฉ๋ถํ ๊น์ง ์๊ณ ๋๋ฌด ๋จ์ํ๋ค๊ณ ๋งํ๋ค.
๋คํธ์ํฌ ๊ตฌ์กฐ์ ๋ณ๊ฒฝ
๋ถ์กฑํ๋ฉด ๋ ๋ฃ์ผ๋ฉด ๋๋ค. FCN์์๋ CNN์ ๊ฒฐ๊ณผ๋ฅผ ์
๋ ฅ์ด๋ฏธ์ง์ ์๋ ์ฐจ์์ผ๋ก ํ๋(upsampling)ํ๋๋ฐ ์์ด์ deconvolution
์ ์ฌ์ฉํ์ง๋ง, ์ด ๋
ผ๋ฌธ์์๋ deconvolution์ ์ฐจ์์ ์ ์งํ๋ ๋ฐฉ๋ฒ์ผ๋ก, CNN์ layer๋งํผ ๋ ์ด์ด ์ซ์๋ฅผ ๋๋ ธ๋ค. ์ฆ, ์์ ํ ๋์นญ ๋ชจ์์ด๋ค.
uppooling
CNN์ผ๋ก ์ธํด ์๋ ์ด๋ฏธ์ง๋ณด๋ค ์ถ์๋ ์ฐจ์ ํฌ๊ธฐ๋ uppooling
์ผ๋ก ๋ณต์ํฉ๋๋ค. ์ฌ๊ธฐ์ unpooling์ด๋ CNN์ max pooling ์์ ์์น ์ ๋ณด๋ฅผ ๊ธฐ์ตํ๋ค๊ฐ, ์๋ ์์น๋ก ๊ทธ๋๋ก ๋ณต์ํด์ฃผ๋ ์์
์ด๋ค.
uppooling ๊ณผ์ (aโb)
๊ทธ ํจ๊ณผ๋ ์์ ๊ทธ๋ฆผ๊ณผ ๊ฐ๋ค. (b)์์ (c)๋ก ๊ฐ ๋์ unpooling์ ์ํด, ํด์๋๊ฐ ์ปค์ง๋ ๋์ ์ ํธ๊ฐ ํฉ์ด์ ธ์ ํฌ์(sparse)ํด์ง๋ค. ์ด๊ฒ์ (c)์์ (d)๋ก deconvolution์ ๊ฑฐ์น๋ฉด, ๋ํ ์ผ์ ์ด๋ ค๋ด๋ฉด์ ์ ํธ๊ฐ ๊ณ ๋ฅด๊ฒ ๋ฐ์ง(dense)๋๋ค. ์ด๋ฌํ ๊ณผ์ ์ด ๋ฐ๋ณต๋์ ๋ ธ์ด์ฆ๋ ์ ์ฐจ ์์ฐ์ค๋ฝ๊ฒ ์ฌ๋ผ์ง๋ ๊ฒ์ ๋ณผ ์ ์๋ค.
ํ์ต ๋ฐฉ๋ฒ
edge-box
๋จ์ผ ๋ฐ์ดํฐ์
์์ ๋ค์ํ ํฌ๊ธฐ์ ์ฌ๋ก๋ค์ ํ์ตํ๊ธฐ ์ํด, ๋
ผ๋ฌธ์์๋ edge-box
๋ผ๋ object proposal
์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํ์ฌ ๋ฌด์ธ๊ฐ ์์๋งํ ์์ญ์ ๋ค์ํ ํฌ๊ธฐ์ ์์๋ก ๊ณจ๋ผ๋ธ๋ค. ํ์ต ์์๋ ์ฐ์ ์ค์ ์ ๋ต์ด ๊ฐ์ด๋ฐ์ ๋ค์ด๊ฐ๋๋ก ์๋ผ๋ธ(crop) ์ด๋ฏธ์ง๋ค๋ก 1์ฐจ ํ์ต์, ๊ทธ ๋ค์ edge-box
์ ๊ฒฐ๊ณผ๋ฌผ ์ค ์ค์ ์ ๋ต๊ณผ ์ ๊ฒน์น๋ ๊ฒ๋ค์ ํ์ฉํ์ฌ ์กฐ๊ธ ๋ ์ฌ๋์๋ 2์ฐจ ํ์ต์ ์งํํ๋ค.
edge-box inference
์ด๋ ๊ฒ ํ์ต์ ์ฌ์ฉ๋ edge-box๋ ์ถ๋ก ์์๋ ์ฌ์ฉ๋๋๋ฐ, ์ถ๋ก ์ ์ฌ์ฉํ๋ object proposal์ ์(์์ ์)๋ฅผ ์ฆ๊ฐ์ํฌ ์๋ก ์ฑ๋ฅ์ ์ข์์ง๋ค๊ณ ํ๋ค. ๋ฌผ๋ก ๊ทธ๋งํผ ๊ณ์ฐ๋๊ณผ ์๊ฐ์ ๋์ด๋๋ค.
๊ฒฐ๊ณผ
result
์ด๋ ๊ฒ ์ธ์ฌํ๊ฒ ์ค๊ณ๋๊ณ ํ์ต๋ ๊ฒฐ๊ณผ๋ FCN์ด ์ค์ํ๋ ๋ฌผ์ฒด๋ค๋ ๋ณด๋ค ์ธ๋ฐํ๊ฒ ์ ์ฐพ์๋ด๋ ๋ชจ์ต์ ๋ณด์ธ๋ค. ๋ค๋ง FCN์ด ์ ๋ง์ถ๋ ๊ณณ์์ ์ค์๋ฅผ ํ ๋๋ ์๋๋ฐ, ๊ฒฐ๊ตญ ๋์ ์์๋ธํ์ฌ conditional random field๋ก ํ์ฒ๋ฆฌํ๋ฉด ๋ ๊ฐ์ง ๋ชจ๋ธ์ ๋ชจ๋ ๋ฐ์ด๋๊ฒ ๋์ด, FCN๊ณผ ์ํธ ๋ณด์์ ์ธ ๊ด๊ณ์ ์๋ค๊ณ ๋ ผ๋ฌธ์ ๋งบ๋๋ค.