๊ฐ์
์์ ์์๋ณธ, FCN์์ ๋ฐ์ํ๋ ๋ฌธ์ ๋ฅผ Dilated Convolution์ผ๋ก ํด๊ฒฐํ๊ฒ ๋ค๋ ๋
ผ์ง์ด๋ค.
ํต์ฌ ์์ด๋์ด
Dilated Convolution์ผ๋ก parameter ์๋ฅผ ์ ์งํ๋ฉด์ Pooling์ ํจ๊ณผ๋ฅผ ๋๋ฆฌ๊ณ , Resoultion์ด ์ค์ด๋๋ ๊ฒ์ ๋ง๋๋ค.(
์ผ์์ผ์กฐ)
๊ธฐ์กด์ FCN์์๋ pooling์ผ๋ก ์ธํ ํด์๋ ๊ฐ์๋ฌธ์ ๋ฅผ skip connection์ผ๋ก ํด๊ฒฐํ์๋ค. ์ฌ๊ธฐ์, ๊ทผ๋ณธ์ ์ผ๋ก pooling์ ๋ํด ํด๊ฒฐํ๋ณด๋ ค๋ ์์ง๊ฐ ์ฟ๋ณด์ธ๋ค. ์ฐ๋ฆฌ๊ฐ Pooling์ ํ๋ ์ด์ ๋ global feature๋ฅผ multi-scale๋ก ๋ณด๊ธฐ ์ํด์์ด๋ค. ํ์ง๋ง ์ด๋ฐ ๊ด์ ์ classification์ ๊ด์ ์์ ๋ง๋ ๋ง์ด๋ค.
segementation์ ์ํด์๋ ๊ฒฐ๊ตญ dense prediction์ ์ป์ด๋ด์ผ ํ๋๋ฐ, ์ด๋ up-convolutions์ multi-scale inputs๋ฅผ ํตํด ๊ฐ๋ฅํ๋ค. up-convolutions๋ ์ด์ ๊ธ์์ ์ฐพ์๋ณผ ์ ์๋ค. multi sclae inputs์ ์ด๋ฆ์์๋ ์ ์ถ๊ฐ ๊ฐ๋ฅํ๋ฏ์ด ํ๋์ ์ด๋ฏธ์ง์ ๋ํด์ ์ฌ๋ฌ scale์์ test๋ฅผ ํ๋ ๋ฐฉ๋ฒ์ ์๋ฏธํ๋ค.
multi scale inputs ์์
Dilated Convolution์ ์ ์ด์ pooling์ ํด์ผ๋ผ? ๋ผ๋ ์ง๋ฌธ์์ ์ถ๋ฐํ๋ค.
Dilated Convolution
Dilated Convolution์ ํํฐ ๋ด๋ถ์ zero padding์ ์ถ๊ฐํด ๊ฐ์ ๋ก receptive field๋ฅผ ๋๋ฆฌ๋ ๋ฐฉ๋ฒ์ด๋ค. ์ ๊ทธ๋ฆผ์ ํ๋์์ด ์ธํ, ์ด๋ก์์ด ์์ํ์ธ๋ฐ, ์งํ ํ๋ ๋ถ๋ถ์๋ง weight๊ฐ ์๊ณ ๋๋จธ์ง ๋ถ๋ถ์ 0์ผ๋ก ์ฑ์์ง๋ค. receptive field๋ ํํฐ๊ฐ ํ ๋ฒ์ ๋ณด๋ ์์์ผ๋ก ๋ณผ ์ ์๋๋ฐ, ๊ฒฐ๊ตญ ํํฐ๋ฅผ ํตํด ์ด๋ค ์ฌ์ง์ ์ ์ฒด์ ์ธ ํน์ง์ ์ก์๋ด๊ธฐ ์ํด์๋ receptive field๋ ๋์ผ๋ฉด ๋์ ์๋ก ์ข๋ค. ๊ทธ๋ ๋ค๊ณ ํํฐ์ ํฌ๊ธฐ๋ฅผ ํฌ๊ฒํ๋ฉด ์ฐ์ฐ์ ์์ด ํฌ๊ฒ ๋์ด๋๊ณ , ์ค๋ฒํผํ
์ ์ฐ๋ ค๊ฐ์๋ค.
๊ทธ๋์ ์ผ๋ฐ์ ์ธ CNN์์๋ ์ด๋ฅผ conv-pooling์ ๊ฒฐํฉ์ผ๋ก ํด๊ฒฐํ๋ค. pooling์ ํตํด dimension์ ์ค์ด๊ณ ๋ค์ ์์ ํฌ๊ธฐ์ filter๋ก conv๋ฅผ ํ๋ฉด, ์ ์ฒด์ ์ธ ํน์ง์ ์ก์๋ผ ์ ์๋ค. ํ์ง๋ง pooling์ ์ํํ๋ฉด ๊ธฐ์กด ์ ๋ณด์ ์์ค์ด ์ผ์ด๋๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ๊ฒ์ด Dilated Convolution์ผ๋ก Pooling์ ์ํํ์ง ์๊ณ ๋ receptive field์ ํฌ๊ธฐ๋ฅผ ํฌ๊ฒ ๊ฐ์ ธ๊ฐ ์ ์๊ธฐ ๋๋ฌธ์ spatial dimension์ ์์ค์ด ์ ๊ณ , ๋๋ถ๋ถ์ weight๊ฐ 0์ด๊ธฐ ๋๋ฌธ์ ์ฐ์ฐ์ ํจ์จ๋ ์ข๋ค.
Structure
Structure of using Dilated Convolution
์ฒซ๋ฒ์งธ ๊ทธ๋ฆผ์ classification์ ์ํ CNN VGG-16์ ์ํคํ
์ณ์ด๋ค. conv-pooling์ ๋ฐ๋ณต์ ์ผ๋ก ์ํํ ํ, ๋ง์ง๋ง์ผ๋ก Fully Connected Layer์ ํต๊ณผํ์ฌ ์ต์ข
classification ๊ฒฐ๊ณผ๋ฅผ ์ป๋ ๊ณผ์ ์ ๋ณด์ฌ์ฃผ๊ณ ์๋ค. ๊ทธ ์๋์ ๊ทธ๋ฆผ์ Dilated Convolution์ ํตํ์ฌ ์ด๋ฏธ์ง๋ฅผ segmentationํ๋ ์๋ฅผ ๋ณด์ฌ์ฃผ๊ณ ์๋ค. ์ด ์ํคํ
์ณ์ ์์ํ์ ์ฌ์ด์ฆ๋ 28x28xN ์ด๋ฉฐ, (N์ segmentation ์ํ๋ ํด๋์ค์ ์) ์ด๋ฅผ ๋ค์ upsamplingํ์ฌ ์๋์ ํฌ๊ธฐ๋ก ๋ณต์ํ๋ค. (์ด๋ถ๋ถ์์ ๊ณต๊ฐ์ ์ ๋ณด์ ์์ค์ด ์๋ค.)
์ด ์ํคํ
์ณ์ classification ์ํคํ
์ณ์ ๋ค๋ฅธ์ ์ ์ฐ์ ๋ค์ด์๋ชฌ๋ ๋ชจ์์ผ๋ก ํ์ํ dilated convolution์ผ ํตํด ๊ณต๊ฐ์ ์ ๋ณด์ ์์ค์ ์ต์ํํ์๋ค. ๊ทธ๋ฆฌ๊ณ dilated convolution 2๋ฒ์ ์ ์ฉํ ๋ค ๋์จ 28x28x4096 ์ ๋ํ์ฌ 1x1 convolution์ผ๋ก channel์ dimension reduction์ ์ํํ๋ค. ์ต์ข
์ ์ผ๋ก 28x28xN์ด ๋์ค๊ณ ์ด๋ฅผ 8x upsamplingํ์ฌ ์ต์ข
์ ์ธ segmention ๊ฒฐ๊ณผ๋ฅผ output์ผ๋ก ๋ด๋๋๋ค. ์ด ๋ 1x1 convolution ์ ๊ณต๊ฐ์ ์ธ ์ ๋ณด๋ฅผ ์์ง ์๊ธฐ ์ํด ์ฌ์ฉ๋๋ฉฐ, classification์ Fully Connected Layer(FC)์ ๋น์ทํ ์ญํ ์ ํ๋ค. ํ์ง๋ง classification์์๋ ๊ณต๊ฐ์ ์ธ ์ ๋ณด๋ ์ค์ํ์ง ์๊ธฐ ๋๋ฌธ์ Flattenํ์ฌ ์ฌ์ฉํ๋ ๊ฒ์ด๋ค. ์ด๋ ์์ ๊ธ์์ ์์ธํ๊ฒ ๋ค๋ค๋ณด์๋ค.
๊ฒฐ๊ณผ
comparison of whether using dilated conv
์ด ๊ทธ๋ฆผ์ ํตํด pooling-convํ upsampling์ ํ๋ ๊ฒ๊ณผ dilated convolution(astrous convolution)์ ํ๋ ๊ฒ์ ์ฐจ์ด๋ฅผ ๋ณผ ์ ์๋ค. ์ ๊ทธ๋ฆผ์์ ๋ณผ ์ ์๋ฏ ๊ณต๊ฐ์ ์ ๋ณด์ ์์ค์ด ์๋ ๊ฒ์ upsampling ํ๋ฉด ํด์๋๊ฐ ๋จ์ด์ง๋ค. ํ์ง๋ง dilated convolution์ ๊ทธ๋ฆผ์ ๋ณด๋ฉด receptive field๋ฅผ ํฌ๊ฒ ๊ฐ์ ธ๊ฐ๋ฉด์ convolution์ ํ๋ฉด ์ ๋ณด์ ์์ค์ ์ต๋ํํ๋ฉด์ ํด์๋๋ ํฐ output์ ์ป์ ์ ์๋ค.