๊ฐ์
์์ ์์๋ณธ, FCN์์ ๋ฐ์ํ๋ ๋ฌธ์ ๋ฅผ Dilated Convolution
์ผ๋ก ํด๊ฒฐํ๊ฒ ๋ค๋ ๋
ผ์ง์ด๋ค.
ํต์ฌ ์์ด๋์ด
Dilated Convolution์ผ๋ก parameter ์๋ฅผ ์ ์งํ๋ฉด์ Pooling์ ํจ๊ณผ๋ฅผ ๋๋ฆฌ๊ณ , Resoultion์ด ์ค์ด๋๋ ๊ฒ์ ๋ง๋๋ค.(
์ผ์์ผ์กฐ)
๊ธฐ์กด์ FCN์์๋ pooling์ผ๋ก ์ธํ ํด์๋ ๊ฐ์๋ฌธ์ ๋ฅผ skip connection์ผ๋ก ํด๊ฒฐํ์๋ค. ์ฌ๊ธฐ์, ๊ทผ๋ณธ์ ์ผ๋ก pooling์ ๋ํด ํด๊ฒฐํ๋ณด๋ ค๋ ์์ง๊ฐ ์ฟ๋ณด์ธ๋ค. ์ฐ๋ฆฌ๊ฐ Pooling์ ํ๋ ์ด์ ๋ global feature๋ฅผ multi-scale๋ก ๋ณด๊ธฐ ์ํด์์ด๋ค. ํ์ง๋ง ์ด๋ฐ ๊ด์ ์ classification์ ๊ด์ ์์ ๋ง๋ ๋ง์ด๋ค.
segementation์ ์ํด์๋ ๊ฒฐ๊ตญ dense prediction์ ์ป์ด๋ด์ผ ํ๋๋ฐ, ์ด๋ up-convolutions
์ multi-scale inputs
๋ฅผ ํตํด ๊ฐ๋ฅํ๋ค. up-convolutions
๋ ์ด์ ๊ธ์์ ์ฐพ์๋ณผ ์ ์๋ค. multi sclae inputs
์ ์ด๋ฆ์์๋ ์ ์ถ๊ฐ ๊ฐ๋ฅํ๋ฏ์ด ํ๋์ ์ด๋ฏธ์ง์ ๋ํด์ ์ฌ๋ฌ scale์์ test๋ฅผ ํ๋ ๋ฐฉ๋ฒ์ ์๋ฏธํ๋ค.
multi scale inputs ์์
Dilated Convolution
์ ์ ์ด์ pooling์ ํด์ผ๋ผ? ๋ผ๋ ์ง๋ฌธ์์ ์ถ๋ฐํ๋ค.
Dilated Convolution
Dilated Convolution
์ ํํฐ ๋ด๋ถ์ zero padding
์ ์ถ๊ฐํด ๊ฐ์ ๋ก receptive field
๋ฅผ ๋๋ฆฌ๋ ๋ฐฉ๋ฒ์ด๋ค. ์ ๊ทธ๋ฆผ์ ํ๋์์ด ์ธํ, ์ด๋ก์์ด ์์ํ์ธ๋ฐ, ์งํ ํ๋ ๋ถ๋ถ์๋ง weight
๊ฐ ์๊ณ ๋๋จธ์ง ๋ถ๋ถ์ 0์ผ๋ก ์ฑ์์ง๋ค. receptive field
๋ ํํฐ๊ฐ ํ ๋ฒ์ ๋ณด๋ ์์์ผ๋ก ๋ณผ ์ ์๋๋ฐ, ๊ฒฐ๊ตญ ํํฐ๋ฅผ ํตํด ์ด๋ค ์ฌ์ง์ ์ ์ฒด์ ์ธ ํน์ง์ ์ก์๋ด๊ธฐ ์ํด์๋ receptive field
๋ ๋์ผ๋ฉด ๋์ ์๋ก ์ข๋ค. ๊ทธ๋ ๋ค๊ณ ํํฐ์ ํฌ๊ธฐ๋ฅผ ํฌ๊ฒํ๋ฉด ์ฐ์ฐ์ ์์ด ํฌ๊ฒ ๋์ด๋๊ณ , ์ค๋ฒํผํ
์ ์ฐ๋ ค๊ฐ์๋ค.
๊ทธ๋์ ์ผ๋ฐ์ ์ธ CNN์์๋ ์ด๋ฅผ conv-pooling
์ ๊ฒฐํฉ์ผ๋ก ํด๊ฒฐํ๋ค. pooling
์ ํตํด dimension์ ์ค์ด๊ณ ๋ค์ ์์ ํฌ๊ธฐ์ filter๋ก conv๋ฅผ ํ๋ฉด, ์ ์ฒด์ ์ธ ํน์ง์ ์ก์๋ผ ์ ์๋ค. ํ์ง๋ง pooling
์ ์ํํ๋ฉด ๊ธฐ์กด ์ ๋ณด์ ์์ค์ด ์ผ์ด๋๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ๊ฒ์ด Dilated Convolution
์ผ๋ก Pooling
์ ์ํํ์ง ์๊ณ ๋ receptive field
์ ํฌ๊ธฐ๋ฅผ ํฌ๊ฒ ๊ฐ์ ธ๊ฐ ์ ์๊ธฐ ๋๋ฌธ์ spatial dimension์ ์์ค์ด ์ ๊ณ , ๋๋ถ๋ถ์ weight
๊ฐ 0์ด๊ธฐ ๋๋ฌธ์ ์ฐ์ฐ์ ํจ์จ๋ ์ข๋ค.
Structure
Structure of using Dilated Convolution
์ฒซ๋ฒ์งธ ๊ทธ๋ฆผ์ classification์ ์ํ CNN VGG-16์ ์ํคํ
์ณ์ด๋ค. conv-pooling
์ ๋ฐ๋ณต์ ์ผ๋ก ์ํํ ํ, ๋ง์ง๋ง์ผ๋ก Fully Connected Layer
์ ํต๊ณผํ์ฌ ์ต์ข
classification
๊ฒฐ๊ณผ๋ฅผ ์ป๋ ๊ณผ์ ์ ๋ณด์ฌ์ฃผ๊ณ ์๋ค. ๊ทธ ์๋์ ๊ทธ๋ฆผ์ Dilated Convolution
์ ํตํ์ฌ ์ด๋ฏธ์ง๋ฅผ segmentation
ํ๋ ์๋ฅผ ๋ณด์ฌ์ฃผ๊ณ ์๋ค. ์ด ์ํคํ
์ณ์ ์์ํ์ ์ฌ์ด์ฆ๋ 28x28xN ์ด๋ฉฐ, (N์ segmentation
์ํ๋ ํด๋์ค์ ์) ์ด๋ฅผ ๋ค์ upsampling
ํ์ฌ ์๋์ ํฌ๊ธฐ๋ก ๋ณต์ํ๋ค. (์ด๋ถ๋ถ์์ ๊ณต๊ฐ์ ์ ๋ณด์ ์์ค์ด ์๋ค.)
์ด ์ํคํ
์ณ์ classification ์ํคํ
์ณ์ ๋ค๋ฅธ์ ์ ์ฐ์ ๋ค์ด์๋ชฌ๋ ๋ชจ์์ผ๋ก ํ์ํ dilated convolution
์ผ ํตํด ๊ณต๊ฐ์ ์ ๋ณด์ ์์ค์ ์ต์ํํ์๋ค. ๊ทธ๋ฆฌ๊ณ dilated convolution
2๋ฒ์ ์ ์ฉํ ๋ค ๋์จ 28x28x4096 ์ ๋ํ์ฌ 1x1 convolution
์ผ๋ก channel์ dimension reduction
์ ์ํํ๋ค. ์ต์ข
์ ์ผ๋ก 28x28xN์ด ๋์ค๊ณ ์ด๋ฅผ 8x upsampling
ํ์ฌ ์ต์ข
์ ์ธ segmention ๊ฒฐ๊ณผ๋ฅผ output์ผ๋ก ๋ด๋๋๋ค. ์ด ๋ 1x1 convolution ์ ๊ณต๊ฐ์ ์ธ ์ ๋ณด๋ฅผ ์์ง ์๊ธฐ ์ํด ์ฌ์ฉ๋๋ฉฐ, classification
์ Fully Connected Layer(FC)
์ ๋น์ทํ ์ญํ ์ ํ๋ค. ํ์ง๋ง classification
์์๋ ๊ณต๊ฐ์ ์ธ ์ ๋ณด๋ ์ค์ํ์ง ์๊ธฐ ๋๋ฌธ์ Flattenํ์ฌ ์ฌ์ฉํ๋ ๊ฒ์ด๋ค. ์ด๋ ์์ ๊ธ์์ ์์ธํ๊ฒ ๋ค๋ค๋ณด์๋ค.
๊ฒฐ๊ณผ
comparison of whether using dilated conv
์ด ๊ทธ๋ฆผ์ ํตํด pooling-conv
ํ upsampling
์ ํ๋ ๊ฒ๊ณผ dilated convolution(astrous convolution)
์ ํ๋ ๊ฒ์ ์ฐจ์ด๋ฅผ ๋ณผ ์ ์๋ค. ์ ๊ทธ๋ฆผ์์ ๋ณผ ์ ์๋ฏ ๊ณต๊ฐ์ ์ ๋ณด์ ์์ค์ด ์๋ ๊ฒ์ upsampling
ํ๋ฉด ํด์๋๊ฐ ๋จ์ด์ง๋ค. ํ์ง๋ง dilated convolution์ ๊ทธ๋ฆผ์ ๋ณด๋ฉด receptive field
๋ฅผ ํฌ๊ฒ ๊ฐ์ ธ๊ฐ๋ฉด์ convolution
์ ํ๋ฉด ์ ๋ณด์ ์์ค์ ์ต๋ํํ๋ฉด์ ํด์๋๋ ํฐ output
์ ์ป์ ์ ์๋ค.