Task
Segmentation

semantic segmentation์ ์ด๋ฏธ์ง ๋ด์ ์๋ ๋ฌผ์ฒด๋ค์ ์๋ฏธ ์๋ ๋จ์๋ก ๋ถํ ํด๋ด๋ ๊ฒ์ด๋ค. ์ข ๋ ๊ตฌ์ฒด์ ์ผ๋ก ์ด์ผ๊ธฐํ๋ฉด, ์ด๋ฏธ์ง์ ๊ฐ ํฝ์ ์ด ์ด๋ ํด๋์ค์ ์ํ๋์ง ์์ธกํ๋ ๊ฒ์ด๋ค. ์ด๋ ๊ฒ ์ด๋ฏธ์ง ๋ด ๋ชจ๋ ํฝ์ ์ ๋ํด์ ์์ธก์ ์งํํ๊ธฐ ๋๋ฌธ์ ์ด ๊ณผ์ ๋ฅผ dense prediction์ด๋ผ๊ณ ๋ถ๋ฅด๊ธฐ๋ ํ๋ค. ์ด๋ค ์ด๋ฏธ์ง ๋ด์๋ ์ฌ๋, ์๋์ฐจ, ๊ฐ์์ง, ๊ณ ์์ด, ๋ ธํธ๋ถ, ์ ํ๊ธฐ ๋ฑ ์ฌ๋ฌ ์ข ๋ฅ์ ๋ฌผ์ฒด๊ฐ ํฌํจ๋์ด ์์ ์ ์๋ค. ์ด๋ ๊ฒ ์๋ก ๋ค๋ฅธ ์ข ๋ฅ์ ๋ฌผ์ฒด๋ค์ ๊น๋ํ๊ฒ ๋ถํ ํด๋ด๋ ๊ฒ์ด semantic segmentation์ ๋ชฉ์ ์ด๋ค.

์ด ์ค์์ ์๋ฏธ๋ก ์ ์ธ ๊ตฌ๋ถ์ ํ๋ Sementic Segmentation ์ค์์ Deep Lab์ ๋ํด ์์๋ณผ ๊ฒ์ด๋ค. ๋ค์์ผ๋ก๋ U-Net, ๋ง์ง๋ง์ผ๋ก instance ๋จ์๋ก segmentation์ ์งํํ๋ instance segmentation์ ์์๋ณผ ๊ฒ์ด๋ค.
์์๋์ด์ผ ํ ๊ฒ
- ํ๊ฐ metric
- IoU(intersection over Union)
- ์ฌ์ฉ ๋ฐ์ดํฐ์
Fully Convolutional Networks
Fully connected ๋์ Fully convolution!
- Baseline
- Fully Convolutional Networks for Semantic Segmentationโ, 2014
Sematic Segmentation = Pixel level Calssification??
CNN์ image classification์ ์ํ๋ค. ๊ทธ๋ ๋ค๋ฉด Sememtation์ pixel ๋จ์๋ก classification์ ์งํํ๋ฉด ๋์ง ์์๊น? ํ์ง๋ง ๊ต์ฅํ ๋นํจ์จ์ ์ด๋ค. ๊ทธ๋ ๋ค๋ฉด, ์ต๋ํ ๊ธฐ์กด network์ ๊ตฌ์กฐ๋ฅผ ๋ณ๊ฒฝํ์ง ์์ผ๋ฉด์ ์ด๊ฑธ ๊ฐ๋ฅํ๊ฒ ํ ๋ฐฉ๋ฒ์?

AlexNet, VGGNet ๋ฑ ์ด๋ฏธ์ง ๋ถ๋ฅ(image classification)์ฉ CNN ์๊ณ ๋ฆฌ์ฆ๋ค์ ์ผ๋ฐ์ ์ผ๋ก ์ปจ๋ณผ๋ฃจ์ ์ธต๋ค๊ณผ fully connected ์ธต๋ค๋ก ์ด๋ค์ ธ์๋ค. ์ ๋ ฅ์ด๋ฏธ์ง์ ์์กด๋๊ฐ ํฌ๊ธฐ ๋๋ฌธ์ ํญ์ ์ ๋ ฅ์ด๋ฏธ์ง๋ฅผ ๋คํธ์ํฌ์ ๋ง๋ ๊ณ ์ ๋ ์ฌ์ด์ฆ๋ก ์๊ฒ ๋ง๋ค์ด์ ์ ๋ ฅํด์ค๋ค. ๊ทธ๋ฌ๋ฉด ๋คํธ์ํฌ๋ ๊ทธ ์ด๋ฏธ์ง๊ฐ ์ํ ํด๋์ค๋ฅผ ์์ธกํด์ ์๋ ค์ค๋ค. ์๋ ๊ทธ๋ฆผ์์ ๋คํธ์ํฌ๋ ์ ๋ ฅ๋ ์ด๋ฏธ์ง์ ํด๋์ค๋ฅผ ์ผ๋ฃฉ๋ฌด๋ฌ ๊ณ ์์ด(tabby cat)๋ผ๊ณ ์์ธกํด๋๋ค.
์ด ๋ถ๋ฅ์ฉ CNN ์๊ณ ๋ฆฌ์ฆ๋ค์ ์ด๋ฏธ์ง์ ์๋ ๋ฌผ์ฒด๊ฐ ์ด๋ค ํด๋์ค์ ์ํ๋์ง๋ ์์ธกํด๋ผ ์ ์์ง๋ง, ๊ทธ ๋ฌผ์ฒด๊ฐ ์ด๋์ ์กด์ฌํ๋์ง๋ ์์ธกํด๋ผ ์ ์๋ค. ์๋ํ๋ฉด ๋คํธ์ํฌ ํ๋ฐ๋ถ์ fully connected ์ธต์ ๋ค์ด์๋ฉด์ ์์น์ ๋ณด๊ฐ ์์ค๋์๊ธฐ ๋๋ฌธ์ด๋ค. ๋ฐ๋ผ์ AlexNet, VGGNet ๋ฑ๊ณผ ๊ฐ์ ์๊ณ ๋ฆฌ์ฆ๋ค์ ์์ ํจ์์ด Semantic segmentation ๊ณผ์ ์ ๊ทธ๋๋ก ์ฌ์ฉํ๋ ๊ฒ์ ๋ถ๊ฐ๋ฅํ๋ค.

๊ทธ๋์ ์ ์๋ค์ 1x1 filter๋ฅผ ์ฌ์ฉํ์ฌ ์์น์ ๋ณด๋ฅผ ์ด๋ ธ๋ค. ๋ง์ง๋ง ๋จ์๋ 7x7 heatmap ์ output์ผ๋ก ๋ด๊ณ , ์ด๋ฅผ ์๋ image size๋ก upsampling์ ์งํํ์ฌ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ณ ์ ํ์๋ค.
๊ฒฐ๊ณผ์ ์ผ๋ก ๋คํธ์ํฌ ์ ์ฒด๊ฐ ์ปจ๋ณผ๋ฃจ์ ์ธต๋ค๋ก ์ด๋ค์ง๊ฒ ๋์๋ค. fully connected ์ธต๋ค์ด ์์ด์ก์ผ๋ฏ๋ก ๋ ์ด์ ์ ๋ ฅ ์ด๋ฏธ์ง์ ํฌ๊ธฐ์ ์ ํ์ ๋ฐ์ง ์๊ฒ ๋์๋ค.

์ ์๋ค์ Fully Convolutional Network๋ 1x1 filter๋ฅผ ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์ input image์ ๋ํ dependency๊ฐ ์์ ๊ฒ๋ ์ฅ์ ์ด๋ผ ํ๋ค. 1x1 conv๋ Width, Height์ ๋ํด ์์กด๋๊ฐ ์๊ธฐ ๋๋ฌธ์ channel ์๋ฅผ ๋ง์๋๋ก ์กฐ์ ํ์ฌ ์ํ๋ output ๋ชจ์์ ๋ง์ถ ์ ์๋ค. ์ฌ๋ฌ ์ธต์ ์ปจ๋ณผ๋ฃจ์
์ธต๋ค์ ๊ฑฐ์น๊ณ ๋๋ฉด ํน์ฑ๋งต(feature map)์ ํฌ๊ธฐ๊ฐ H/32 x W/32๊ฐ ๋๋๋ฐ, ๊ทธ ํน์ฑ๋งต์ ํ ํฝ์
์ด ์
๋ ฅ์ด๋ฏธ์ง์ 32 x 32 ํฌ๊ธฐ๋ฅผ ๋ํํ๋ค. ์ฆ, ์
๋ ฅ์ด๋ฏธ์ง์ ์์น ์ ๋ณด๋ฅผ โ๋๋ต์ ์ผ๋กโ ์ ์งํ๊ณ ์๋ ๊ฒ์ด๋ค.
Upsampling
feature map์ ํค์์ image size๋ก ๋ง๋ค์!
Heatmap๊ณผ Upsampling
์
๋ ฅ์ด๋ฏธ์ง์ ์์น ์ ๋ณด๋ฅผ ๊ฐ์ง๊ณ ์๋ Heapmap์ ์์ง ๋๋ต์ ์ธ ์ ๋ณด(Coarse)์ผ ๋ฟ์ด๋ค. ์ด๋ฌํ ์ ๋ณด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์๋ ์ด๋ฏธ์ง์ Pixel Size์์ class๋ฅผ ์์ธกํ๋ dense Prediction์ ์ํํด์ผ ํ๋ค. ์ด ๊ณผ์ ์์ Heat map์ ์๋ image size๋ก ํฌ๊ธฐ๋ฅผ ํค์์ฃผ๋ ๊ณผ์ ์ upsampling์ด๋ผ ํ๋ค.
FCN-32s ๋ชจ๋ธ์ ์ ์ฒด ๊ณผ์
ํ์ง๋ง ๋จ์ํ upsampling์ ์งํํ๋ฉด ์์ํ๊ฒ ์ง๋ง ์ฌ์ ํ Coarseํ segmentation map์ ์ป๊ฒ ๋๋ค. ๋จ์จ์ 32๋ฐฐ ํ๋ค๋ฉด coarse ํ ์ ๋ฐ์ ์๋ค. ์ด๋ ๊ฒ ๋จ์จ์ 32๋ฐฐ upsamplingํ ๋คํธ์ํฌ๋ฅผ FCN-32s๋ผ ์๊ฐํ๊ณ ์๋ค. ํ์คํ ์ ํ๋๊ฐ ๋ง์ด ๋จ์ด์ง๋ค.
FCN-32s : Coarse Output
Skip Combining
์ด์ ๋จ๊ณ์ ์ปจ๋ณผ๋ฃจ์ ์ธต๋ค์ ํน์ฑ๋งต์ ์ฐธ๊ณ ํ์ฌ upsampling์ ํด์ฃผ์!
FCN-16s
์ปจ๋ณผ๋ฃจ์ ๊ณผ ํ๋ง ๋จ๊ณ๋ก ์ด๋ค์ง ์ด์ ๋จ๊ณ์ ์ปจ๋ณผ๋ฃจ์ ์ธต๋ค์ ํน์ฑ๋งต์ ์ฐธ๊ณ ํ์ฌ upsampling์ ํด์ฃผ๋ฉด ์ข ๋ ์ ํ๋๋ฅผ ๋์ผ ์ ์์ง ์๊ฒ ๋๋ ์๊ฐ์์ Skip combining์ด๋ผ๋ ๋ฐฉ๋ฒ์ ์ ์ํ๋ค. ์๋ํ๋ฉด ์ด์ ์ปจ๋ณผ๋ฃจ์ ์ธต๋ค์ ํน์ฑ๋งต๋ค์ด ํด์๋ ๋ฉด์์๋ ๋ ๋ซ๊ธฐ ๋๋ฌธ์ด๋ค. ์ด๋ ๊ฒ ๋ฐ๋ก ์ ์ปจ๋ณผ๋ฃจ์ ์ธต์ ํน์ฑ๋งต(pool4)๊ณผ ํ์ฌ ์ธต์ ํน์ฑ๋งต(conv7)์ 2๋ฐฐ upsamplingํ ๊ฒ์ ๋ํ๋ค. ๊ทธ ๋ค์ ๊ทธ๊ฒ(pool + 2x conv7)์ 16๋ฐฐ upsampling์ผ๋ก ์ป์ ํน์ฑ๋งต๋ค๋ก segmentation map์ ์ป๋ ๋ฐฉ๋ฒ์ FCN-16s๋ผ๊ณ ๋ถ๋ฅธ๋ค.
FCN-8s
๋ ๋ ๋์๊ฐ์ ์ ์ ์ปจ๋ณผ๋ฃจ์ ์ธต์ ๊ฒฐ๊ณผ๋ ์ฐธ๊ณ ํด์ ํน์ฑ๋งต๋ค์ ์ป๊ณ , ๋ ๊ทธ ํน์ฑ๋งต๋ค๋ก segmentation map์ ๊ตฌํ ์๋ ์๋ค. ์ด ๋ฐฉ๋ฒ์ FCN-8s๋ผ๊ณ ๋ถ๋ฅธ๋ค. ์ข ๋ ๊ตฌ์ฒด์ ์ผ๋ก ์ด์ผ๊ธฐํ๋ฉด, ๋จผ์ ์ ์ ๋จ๊ณ์ ํน์ฑ๋งต(pool3)๊ณผ ์ ๋จ๊ณ์ ํน์ฑ๋งต(pool4)์ 2๋ฐฐ upsamplingํ ๊ฒ๊ณผ ํ ๋จ๊ณ์ ํน์ฑ๋งต(conv7)์ 4๋ฐฐ upsampling ํ ๊ฒ์ ๋ชจ๋ ๋ํ ๋ค์์ 8๋ฐฐ upsampling์ ์ํํ๋ฏ๋ก ํน์ฑ๋งต๋ค์ ์ป๋๋ค. ์ด๊ฒ์ ๋ชจ๋ ์ข ํฉํด์ ์ต์ข segmentation map์ ์ฐ์ถํ๋ค.
skip combining์ depth์ ๋ฐ๋ฅธ ๊ฒฐ๊ณผ ๋น๊ต