Task
Segmentation
semantic segmentation์ ์ด๋ฏธ์ง ๋ด์ ์๋ ๋ฌผ์ฒด๋ค์ ์๋ฏธ ์๋ ๋จ์๋ก ๋ถํ ํด๋ด๋ ๊ฒ์ด๋ค. ์ข ๋ ๊ตฌ์ฒด์ ์ผ๋ก ์ด์ผ๊ธฐํ๋ฉด, ์ด๋ฏธ์ง์ ๊ฐ ํฝ์ ์ด ์ด๋ ํด๋์ค์ ์ํ๋์ง ์์ธกํ๋ ๊ฒ์ด๋ค. ์ด๋ ๊ฒ ์ด๋ฏธ์ง ๋ด ๋ชจ๋ ํฝ์ ์ ๋ํด์ ์์ธก์ ์งํํ๊ธฐ ๋๋ฌธ์ ์ด ๊ณผ์ ๋ฅผ dense prediction์ด๋ผ๊ณ ๋ถ๋ฅด๊ธฐ๋ ํ๋ค. ์ด๋ค ์ด๋ฏธ์ง ๋ด์๋ ์ฌ๋, ์๋์ฐจ, ๊ฐ์์ง, ๊ณ ์์ด, ๋ ธํธ๋ถ, ์ ํ๊ธฐ ๋ฑ ์ฌ๋ฌ ์ข ๋ฅ์ ๋ฌผ์ฒด๊ฐ ํฌํจ๋์ด ์์ ์ ์๋ค. ์ด๋ ๊ฒ ์๋ก ๋ค๋ฅธ ์ข ๋ฅ์ ๋ฌผ์ฒด๋ค์ ๊น๋ํ๊ฒ ๋ถํ ํด๋ด๋ ๊ฒ์ด semantic segmentation์ ๋ชฉ์ ์ด๋ค.
์ด ์ค์์ ์๋ฏธ๋ก ์ ์ธ ๊ตฌ๋ถ์ ํ๋ Sementic Segmentation
์ค์์ Deep Lab์ ๋ํด ์์๋ณผ ๊ฒ์ด๋ค. ๋ค์์ผ๋ก๋ U-Net
, ๋ง์ง๋ง์ผ๋ก instance ๋จ์๋ก segmentation์ ์งํํ๋ instance segmentation
์ ์์๋ณผ ๊ฒ์ด๋ค.
์์๋์ด์ผ ํ ๊ฒ
- ํ๊ฐ metric
- IoU(intersection over Union)
- ์ฌ์ฉ ๋ฐ์ดํฐ์
Fully Convolutional Networks
Fully connected ๋์ Fully convolution!
- Baseline
- Fully Convolutional Networks for Semantic Segmentationโ, 2014
Sematic Segmentation = Pixel level Calssification??
CNN์ image classification์ ์ํ๋ค. ๊ทธ๋ ๋ค๋ฉด Sememtation์ pixel ๋จ์๋ก classification์ ์งํํ๋ฉด ๋์ง ์์๊น? ํ์ง๋ง ๊ต์ฅํ ๋นํจ์จ์ ์ด๋ค. ๊ทธ๋ ๋ค๋ฉด, ์ต๋ํ ๊ธฐ์กด network์ ๊ตฌ์กฐ๋ฅผ ๋ณ๊ฒฝํ์ง ์์ผ๋ฉด์ ์ด๊ฑธ ๊ฐ๋ฅํ๊ฒ ํ ๋ฐฉ๋ฒ์?
AlexNet, VGGNet ๋ฑ ์ด๋ฏธ์ง ๋ถ๋ฅ(image classification)์ฉ CNN ์๊ณ ๋ฆฌ์ฆ๋ค์ ์ผ๋ฐ์ ์ผ๋ก ์ปจ๋ณผ๋ฃจ์ ์ธต๋ค๊ณผ fully connected ์ธต๋ค๋ก ์ด๋ค์ ธ์๋ค. ์ ๋ ฅ์ด๋ฏธ์ง์ ์์กด๋๊ฐ ํฌ๊ธฐ ๋๋ฌธ์ ํญ์ ์ ๋ ฅ์ด๋ฏธ์ง๋ฅผ ๋คํธ์ํฌ์ ๋ง๋ ๊ณ ์ ๋ ์ฌ์ด์ฆ๋ก ์๊ฒ ๋ง๋ค์ด์ ์ ๋ ฅํด์ค๋ค. ๊ทธ๋ฌ๋ฉด ๋คํธ์ํฌ๋ ๊ทธ ์ด๋ฏธ์ง๊ฐ ์ํ ํด๋์ค๋ฅผ ์์ธกํด์ ์๋ ค์ค๋ค. ์๋ ๊ทธ๋ฆผ์์ ๋คํธ์ํฌ๋ ์ ๋ ฅ๋ ์ด๋ฏธ์ง์ ํด๋์ค๋ฅผ ์ผ๋ฃฉ๋ฌด๋ฌ ๊ณ ์์ด(tabby cat)๋ผ๊ณ ์์ธกํด๋๋ค.
์ด ๋ถ๋ฅ์ฉ CNN ์๊ณ ๋ฆฌ์ฆ๋ค์ ์ด๋ฏธ์ง์ ์๋ ๋ฌผ์ฒด๊ฐ ์ด๋ค ํด๋์ค์ ์ํ๋์ง๋ ์์ธกํด๋ผ ์ ์์ง๋ง, ๊ทธ ๋ฌผ์ฒด๊ฐ ์ด๋์ ์กด์ฌํ๋์ง๋ ์์ธกํด๋ผ ์ ์๋ค. ์๋ํ๋ฉด ๋คํธ์ํฌ ํ๋ฐ๋ถ์ fully connected ์ธต์ ๋ค์ด์๋ฉด์ ์์น์ ๋ณด๊ฐ ์์ค๋์๊ธฐ ๋๋ฌธ์ด๋ค. ๋ฐ๋ผ์ AlexNet, VGGNet ๋ฑ๊ณผ ๊ฐ์ ์๊ณ ๋ฆฌ์ฆ๋ค์ ์์ ํจ์์ด Semantic segmentation ๊ณผ์ ์ ๊ทธ๋๋ก ์ฌ์ฉํ๋ ๊ฒ์ ๋ถ๊ฐ๋ฅํ๋ค.
๊ทธ๋์ ์ ์๋ค์ 1x1 filter
๋ฅผ ์ฌ์ฉํ์ฌ ์์น์ ๋ณด๋ฅผ ์ด๋ ธ๋ค. ๋ง์ง๋ง ๋จ์๋ 7x7 heatmap
์ output์ผ๋ก ๋ด๊ณ , ์ด๋ฅผ ์๋ image size๋ก upsampling์ ์งํํ์ฌ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ณ ์ ํ์๋ค.
๊ฒฐ๊ณผ์ ์ผ๋ก ๋คํธ์ํฌ ์ ์ฒด๊ฐ ์ปจ๋ณผ๋ฃจ์ ์ธต๋ค๋ก ์ด๋ค์ง๊ฒ ๋์๋ค. fully connected ์ธต๋ค์ด ์์ด์ก์ผ๋ฏ๋ก ๋ ์ด์ ์ ๋ ฅ ์ด๋ฏธ์ง์ ํฌ๊ธฐ์ ์ ํ์ ๋ฐ์ง ์๊ฒ ๋์๋ค.
์ ์๋ค์ Fully Convolutional Network
๋ 1x1 filter
๋ฅผ ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์ input image์ ๋ํ dependency๊ฐ ์์ ๊ฒ๋ ์ฅ์ ์ด๋ผ ํ๋ค. 1x1 conv
๋ Width, Height์ ๋ํด ์์กด๋๊ฐ ์๊ธฐ ๋๋ฌธ์ channel ์๋ฅผ ๋ง์๋๋ก ์กฐ์ ํ์ฌ ์ํ๋ output ๋ชจ์์ ๋ง์ถ ์ ์๋ค. ์ฌ๋ฌ ์ธต์ ์ปจ๋ณผ๋ฃจ์
์ธต๋ค์ ๊ฑฐ์น๊ณ ๋๋ฉด ํน์ฑ๋งต(feature map)์ ํฌ๊ธฐ๊ฐ H/32 x W/32๊ฐ ๋๋๋ฐ, ๊ทธ ํน์ฑ๋งต์ ํ ํฝ์
์ด ์
๋ ฅ์ด๋ฏธ์ง์ 32 x 32 ํฌ๊ธฐ๋ฅผ ๋ํํ๋ค. ์ฆ, ์
๋ ฅ์ด๋ฏธ์ง์ ์์น ์ ๋ณด๋ฅผ โ๋๋ต์ ์ผ๋กโ ์ ์งํ๊ณ ์๋ ๊ฒ์ด๋ค.
Upsampling
feature map์ ํค์์ image size๋ก ๋ง๋ค์!
Heatmap๊ณผ Upsampling
์
๋ ฅ์ด๋ฏธ์ง์ ์์น ์ ๋ณด๋ฅผ ๊ฐ์ง๊ณ ์๋ Heapmap์ ์์ง ๋๋ต์ ์ธ ์ ๋ณด(Coarse)์ผ ๋ฟ์ด๋ค. ์ด๋ฌํ ์ ๋ณด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์๋ ์ด๋ฏธ์ง์ Pixel Size์์ class๋ฅผ ์์ธกํ๋ dense Prediction์ ์ํํด์ผ ํ๋ค. ์ด ๊ณผ์ ์์ Heat map์ ์๋ image size๋ก ํฌ๊ธฐ๋ฅผ ํค์์ฃผ๋ ๊ณผ์ ์ upsampling
์ด๋ผ ํ๋ค.
FCN-32s ๋ชจ๋ธ์ ์ ์ฒด ๊ณผ์
ํ์ง๋ง ๋จ์ํ upsampling
์ ์งํํ๋ฉด ์์ํ๊ฒ ์ง๋ง ์ฌ์ ํ Coarse
ํ segmentation map
์ ์ป๊ฒ ๋๋ค. ๋จ์จ์ 32๋ฐฐ ํ๋ค๋ฉด coarse
ํ ์ ๋ฐ์ ์๋ค. ์ด๋ ๊ฒ ๋จ์จ์ 32๋ฐฐ upsampling
ํ ๋คํธ์ํฌ๋ฅผ FCN-32s
๋ผ ์๊ฐํ๊ณ ์๋ค. ํ์คํ ์ ํ๋๊ฐ ๋ง์ด ๋จ์ด์ง๋ค.
FCN-32s : Coarse Output
Skip Combining
์ด์ ๋จ๊ณ์ ์ปจ๋ณผ๋ฃจ์ ์ธต๋ค์ ํน์ฑ๋งต์ ์ฐธ๊ณ ํ์ฌ upsampling์ ํด์ฃผ์!
FCN-16s
์ปจ๋ณผ๋ฃจ์ ๊ณผ ํ๋ง ๋จ๊ณ๋ก ์ด๋ค์ง ์ด์ ๋จ๊ณ์ ์ปจ๋ณผ๋ฃจ์ ์ธต๋ค์ ํน์ฑ๋งต์ ์ฐธ๊ณ ํ์ฌ upsampling์ ํด์ฃผ๋ฉด ์ข ๋ ์ ํ๋๋ฅผ ๋์ผ ์ ์์ง ์๊ฒ ๋๋ ์๊ฐ์์ Skip combining์ด๋ผ๋ ๋ฐฉ๋ฒ์ ์ ์ํ๋ค. ์๋ํ๋ฉด ์ด์ ์ปจ๋ณผ๋ฃจ์ ์ธต๋ค์ ํน์ฑ๋งต๋ค์ด ํด์๋ ๋ฉด์์๋ ๋ ๋ซ๊ธฐ ๋๋ฌธ์ด๋ค. ์ด๋ ๊ฒ ๋ฐ๋ก ์ ์ปจ๋ณผ๋ฃจ์ ์ธต์ ํน์ฑ๋งต(pool4)๊ณผ ํ์ฌ ์ธต์ ํน์ฑ๋งต(conv7)์ 2๋ฐฐ upsamplingํ ๊ฒ์ ๋ํ๋ค. ๊ทธ ๋ค์ ๊ทธ๊ฒ(pool + 2x conv7)์ 16๋ฐฐ upsampling์ผ๋ก ์ป์ ํน์ฑ๋งต๋ค๋ก segmentation map์ ์ป๋ ๋ฐฉ๋ฒ์ FCN-16s๋ผ๊ณ ๋ถ๋ฅธ๋ค.
FCN-8s
๋ ๋ ๋์๊ฐ์ ์ ์ ์ปจ๋ณผ๋ฃจ์ ์ธต์ ๊ฒฐ๊ณผ๋ ์ฐธ๊ณ ํด์ ํน์ฑ๋งต๋ค์ ์ป๊ณ , ๋ ๊ทธ ํน์ฑ๋งต๋ค๋ก segmentation map์ ๊ตฌํ ์๋ ์๋ค. ์ด ๋ฐฉ๋ฒ์ FCN-8s๋ผ๊ณ ๋ถ๋ฅธ๋ค. ์ข ๋ ๊ตฌ์ฒด์ ์ผ๋ก ์ด์ผ๊ธฐํ๋ฉด, ๋จผ์ ์ ์ ๋จ๊ณ์ ํน์ฑ๋งต(pool3)๊ณผ ์ ๋จ๊ณ์ ํน์ฑ๋งต(pool4)์ 2๋ฐฐ upsamplingํ ๊ฒ๊ณผ ํ ๋จ๊ณ์ ํน์ฑ๋งต(conv7)์ 4๋ฐฐ upsampling ํ ๊ฒ์ ๋ชจ๋ ๋ํ ๋ค์์ 8๋ฐฐ upsampling์ ์ํํ๋ฏ๋ก ํน์ฑ๋งต๋ค์ ์ป๋๋ค. ์ด๊ฒ์ ๋ชจ๋ ์ข ํฉํด์ ์ต์ข segmentation map์ ์ฐ์ถํ๋ค.
skip combining์ depth์ ๋ฐ๋ฅธ ๊ฒฐ๊ณผ ๋น๊ต