๊ฐ์
์์ ๋ฐฐ์ด Dilated Convolution
(atrous convolution
) ์ ์ ๊ทน์ ์ผ๋ก ํ์ฉํ ๊ฒ์ ์ ์ํ์ฌ segmentation
์ ํด๊ฒฐํ์๋ ๋
ผ๋ฌธ์ด๋ค.
๋ฐ์ ๋ฐฉํฅ
- DeepLab V1 :
Atrous convolution
์ ์ฒ์ ์ ์ฉ - DeepLab V2 :
multi-scale context
๋ฅผ ์ ์ฉํ๊ธฐ ์ํAtrous Spatial Pyramid Pooling (ASPP)
๊ธฐ๋ฒ์ ์ ์ - DeepLab V3 : ๊ธฐ์กด
ResNet
๊ตฌ์กฐ์Atrous Convolution
์ ํ์ฉํด ์ข ๋ Denseํ feature map์ ์ป๋ ๋ฐฉ๋ฒ์ ์ ์ - DeepLab V3+ :
Depthwise Separable Convolution
๊ณผAtrous Convolution
์ ๊ฒฐํฉํAtrous Separable Convolution
์ ํ์ฉ์ ์ ์
DeepLab V3+ ๋ ผ๋ฌธ์ 2018๋ 8์ ๊ฒฝ, ๊ตฌ๊ธ์์ ์์ฑ๋ ๋ ผ๋ฌธ์ด๋ค.
Semantic Segmentation์ ํด๊ฒฐํ๊ธฐ ์ํ ๋ฐฉ๋ฒ๋ก ์ ์ฌ๋ฌ๊ฐ์ง๊ฐ ์กด์ฌํ๋ค. ๊ทธ ์ค DeepLab ์๋ฆฌ์ฆ๋ ์ฌ๋ฌ segmentation model ์ค ์ฑ๋ฅ์ด ์์๊ถ์ ๋ง์ด ํฌ์ง๋์ด ์๋ model๋ค์ด๋ค. ๊ทธ ์ค์์๋ ๊ฐ์ฅ ์ฑ๋ฅ์ด ๋์ผ๋ฉฐ DeepLab ์๋ฆฌ์ฆ ์ค ๊ฐ์ฅ ์ต๊ทผ์ ๋์จ DeepLab V3+์ ๋ํด ์ดํด๋ณด์. ํด๋น ๋ ผ๋ฌธ์ ์์ ์์ฑ๋ V1, V2, V3์ ๋ํ ๋ด์ฉ์ ๊ณ์นํ๊ณ ์๋ค. ๋ฐ๋ผ์ V3+๋ฅผ ๋ฆฌ๋ทฐํ๋ฉฐ ์ด ๋ด์ฉ๋ค์ ๋ชจ๋ ์์๋ณด์ ํ๋ค.
์ฌ์ฉ ๊ฐ๋
Atrous Convolution
Atrous
์์ trous๋ ๊ตฌ๋ฉ(hole)์ ์๋ฏธํจ์ผ๋ก์จ, Atrous Convolution
์ ๊ธฐ์กด Convolution
๊ณผ ๋ค๋ฅด๊ฒ ํํฐ ๋ด๋ถ์ ๋น ๊ณต๊ฐ์ ๋ ์ฑ ์๋ํ๊ฒ ๋๋ค.
์ ๊ทธ๋ฆผ์์ ์ผ๋ง๋ ๋น ๊ณต๊ฐ์ ๋์ง ๊ฒฐ์ ํ๋ ํ๋ผ๋ฏธํฐ๊ฐ r(rate์ ์ฝ์)์ด 1์ธ ๊ฒฝ์ฐ, ๊ธฐ์กด Convolution
๊ณผ ๋์ผํ๊ณ r์ด ์ปค์ง์๋ก ๋น ๊ณต๊ฐ์ด ๋์ด์ง๊ฒ ๋๋ ๊ฒ์ด๋ค.
์ด๋ฌํ Atrous Convolution
์ ํ์ฉํจ์ผ๋ก์จ ์ป์ ์ ์๋ ์ด์ ์ ๊ธฐ์กด convolution
๊ณผ ๋์ผํ ์์ ํ๋ผ๋ฏธํฐ์ ๊ณ์ฐ๋์ ์ ์งํ๋ฉด์๋, field of view(ํ ํฝ์
์ด ๋ณผ ์ ์๋ ์์ญ)๋ฅผ ํฌ๊ฒ ๊ฐ์ ธ๊ฐ ์ ์๊ฒ ๋๋ค๋ ๊ฒ์ด๋ค.
๋ณดํต Semantic Segmentation
์์ ๋์ ์ฑ๋ฅ์ ๋ด๊ธฐ ์ํด์๋ CNN์ ๋ง์ง๋ง์ ์กด์ฌํ๋ ํ ํฝ์
์ด ์
๋ ฅ๊ฐ์์ ์ด๋ ํฌ๊ธฐ์ ์์ญ์์ ์ปค๋ฒํ ์ ์๋์ง๋ฅผ ๊ฒฐ์ ํ๋ receptive field
ํฌ๊ธฐ๊ฐ ์ค์ํ๊ฒ ์์ฉํ๋ค.
์ฆ, ์ฌ๋ฌ convolution
๊ณผ pooling ๊ณผ์ ์์ ๋ํ
์ผํ ์ ๋ณด๊ฐ ์ค์ด๋ค๊ณ ํน์ฑ์ด ์ ์ ์ถ์ํ๋๋ ๊ฒ์ ์ด๋์ ๋ ๋ฐฉ์งํ ์ ์๊ธฐ ๋๋ฌธ์ DeepLab series
์์๋ ์ด๋ฅผ ์ ๊ทน์ ์ผ๋ก ํ์ฉํ๋ ค ๋
ธ๋ ฅํ๋ค.
Atrous Spatial Pyramid Pooling(ASPP)
Semantic segmentaion
์ ์ฑ๋ฅ์ ๋์ด๊ธฐ ์ํ ๋ฐฉ๋ฒ ์ค ํ๋๋ก, spatial pyramid pooling
๊ธฐ๋ฒ์ด ์์ฃผ ํ์ฉ๋๊ณ ์๋ ์ถ์ธ์ด๋ค.
DeepLab V2์์ feature map์ผ๋ก๋ถํฐ rate๊ฐ ๋ค๋ฅธ Atrous Convolution
์ ๋ณ๋ ฌ๋ก ์ ์ฉํ ๋ค, ์ด๋ฅผ ๋ค์ ํฉ์ณ์ฃผ๋ ASPP๊ธฐ๋ฒ์ ํ์ฉํ ๊ฒ์ ์ ์ํ์๋ค. ์ต๊ทผ ๋ฐํ๋ PSPNet์์๋ Atrous Convolution
์ ํ์ฉํ์ง ์์์ง๋ง ์ด์ ๋น์ทํ Pyramid Pooling
๊ธฐ๋ฒ์ ํ์ฉํ์๋ค.
์ด๋ฌํ ์ด๋ฌํ ๋ฐฉ๋ฒ๋ค์ multi-scale context
๋ฅผ ๋ชจ๋ธ ๊ตฌ์กฐ๋ก ๊ตฌํํ์ฌ ๋ณด๋ค ์ ํํ Semantic Segmentation
์ ์ํํ ์ ์๋๋ก ๋์ฐ๋ฉฐ, DeepLab V3๋ถํฐ๋ ASPP
๋ฅผ ๊ธฐ๋ณธ ๋ชจ๋๋ก ๊ณ์ ์ฌ์ฉํ๊ณ ์๋ค.
Depthwise separable convolution
์ผ๋ฐ์ ์ผ๋ก ์ฌ์ฉ๋๋ Convolution ๋ชจ์ต
์ ๊ทธ๋ฆผ์ ์ผ๋ฐ์ ์ผ๋ก ์ฌ์ฉ๋๋ Convolution
์ ๋ํ๋ธ ์ฌ์ง์ด๋ค. **์
๋ ฅ ์ด๋ฏธ์ง๊ฐ 883(HWC)**์ด๊ณ , Convolution
**ํํฐ ํฌ๊ธฐ๊ฐ 33(FF)**์ด๋ผ๊ณ ํ ๋, ํํฐ ํ๊ฐ๊ฐ ๊ฐ์ง๋ ํ๋ผ๋ฏธํฐ ๊ฐ์๋ 333(FFC)=27์ด ๋๋ค. ๋ง์ฝ ํํฐ๊ฐ 4๊ฐ๋ผ๋ฉด, ํด๋น Convolution
์ ์ด ํ๋ผ๋ฏธํฐ ์๋ 3*3*3*4(F*F*C*N)
๋งํผ ์ง๋๊ฒ ๋๋ค.
Depthwise Convolution ๋ชจ์ต
Convolution ์ฐ์ฐ์์ Channel ์ถ์ ํํฐ๊ฐ ํ ๋ฒ์ ์ฐ์ฐํ๋ ๋์ ์ ์ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ด ์
๋ ฅ ์์์ Channel ์ถ์ ๋ชจ๋ ๋ถ๋ฆฌ์ํจ ๋ค, Channel ์ถ ๊ธธ์ด๋ฅผ ํญ์ 1๋ก ๊ฐ์ง๋ ์ฌ๋ฌ ๊ฐ์ Convolution ํํฐ๋ก ๋์ฒด์ํจ ์ฐ์ฐ์ Depthwise Convolution
์ด๋ผ๊ณ ํ๋ค.
Depthwise Separable Convolution ๋ชจ์ต
์์ Depthwise Convolution
์ผ๋ก ๋์จ ๊ฒฐ๊ณผ์ ๋ํด 11C ํฌ๊ธฐ์ Convolution
ํํฐ๋ฅผ ์ ์ฉํ ๊ฒ์ Depthwise Separable Convolution
์ด๋ผ ํ๋ค.
์ด์ฒ๋ผ ๋ณต์กํ ์ฐ์ฐ์ ์ํํ๋ ์ด์ ๋ ๊ธฐ์กด Convolution
๊ณผ ์ ์ฌํ ์ฑ๋ฅ์ ๋ณด์ด๋ฉด์๋ ์ฌ์ฉํ๋ ํ๋ผ๋ฏธํฐ ์์ ์ฐ์ฐ๋์ ํ๊ธฐ์ ์ผ๋ก ์ค์ผ ์ ์๊ธฐ ๋๋ฌธ์ด๋ค.
์๋ฅผ ๋ค์ด, ์
๋ ฅ๊ฐ์ด 883์ด๊ณ 16๊ฐ์ 3*3 Convolution
ํํฐ๋ฅผ ์ ์ฉํ ๋ ์ฌ์ฉ๋๋ ํ๋ผ๋ฏธํฐ ๊ฐ์๋
- Convolution : 33316(HWCN) = 432
- Depth Separable Convolution : 333(HWC1) + 316(113*N) = 27+48 = 75
์์ ํ์ธ ํ ์ ์๋ค.
Depthwise Separable Convolution
์ ๊ธฐ์กด Convolution
ํํฐ๊ฐ Sepatial Dimension
๊ณผ Channel Dimension
์ ๋์์ ์ฒ๋ฆฌํ๋ ๊ฒ์ ๋ฐ๋ก ๋ถ๋ฆฌ์์ผ ๊ฐ๊ฐ ์ฒ๋ฆฌํ๋ค๊ณ ๋ณผ ์ ์๋ค. ์ด ๊ณผ์ ์์, ์ฌ๋ฌ ๊ฐ์ ํํฐ๊ฐ Spatial Dimension
์ฒ๋ฆฌ์ ํ์ํ ํ๋ผ๋ฏธํฐ๋ฅผ ํ๋๋ก ๊ณต์ ํจ์ผ๋ก์จ ํ๋ผ๋ฏธํฐ์ ์๋ฅผ ๋ ์ค์ผ ์ ์๊ฒ ๋๋ ๊ฒ์ด๋ค. ์ด ๋ถ๋ถ์ Dilated convolution
์์ ๋ฐฐ์ด ๋ด์ฉ๊ณผ ์๋ฑํ๋ค.
๋ ์ถ์ ๋ถ๋ฆฌ์์ผ ์ฐ์ฐ์ ์ํํ๋๋ผ๋ ์ต์ข
๊ฒฐ๊ณผ๊ฐ์ ๊ฒฐ๊ตญ ๋ ๊ฐ์ง ์ถ ๋ชจ๋๋ฅผ ์ฒ๋ฆฌํ ๊ฒฐ๊ณผ๊ฐ์ ์ป์ ์ ์์ผ๋ฏ๋ก, ๊ธฐ์กด convolution filter
๊ฐ ์ํํ๋ ์ญํ ์ ์ถฉ๋ถํ ๋์ฒดํ ์ ์๊ฒ ๋๋ค.
Encoder-Decoder
DeepLab V3+๋ ์์์ ์ค๋ช ํ ๋ชจ๋์ Encoder-Decoder๋ก ๊ตฌ์กฐํ์์ผฐ๋ค.
U-net๊ตฌ์กฐ
๋์
๋ฏธ๋ฆฌ ๋ณด๊ธฐ
DeepLab V3 ๊ตฌ์กฐ
DeepLab V3๋ ๊ธฐ๋ณธ์ ์ผ๋ก ResNet์ Backbone์ผ๋ก ์ฌ์ฉํ์์ผ๋ฉฐ ๊ตฌ์กฐ๋ ๋ค์๊ณผ ๊ฐ๋ค.
- Encoder : ResNet with Atrous Convolution
- ASPP
- Decoder : Bilinear Upsampling
DeepLab V3+ ๊ตฌ์กฐ
์ฌ๊ธฐ์ DeepLab V3+๊ฐ ๋ณ๊ฒฝ๋ ๋ถ๋ถ์ ๋ค์๊ณผ ๊ฐ๋ค.
- Encoder : ResNet with Atrous Convolution๋ฅผ Xception์ผ๋ก ๋ณ๊ฒฝ
- ASP์ ASSPP (Atrous Separable Spatial Pyramid Pooling)๋ก ๋ณ๊ฒฝ
- Decoder : Bilinear Upsampling์ Simplified U-Net style decoder์ผ๋ก ๋ณ๊ฒฝ
์ธ๋ถ ์ค๋ช
DeepLab V3+ ์ธ๋ถ ๊ตฌ์กฐ
Encoder with Atrous Convolution
DCNN์์ Atrous Convolution
์ ํตํด ์์์ resolution
์ผ๋ก feature map์ ๋ฝ์๋ผ ์ ์๋๋ก ํ๋ค.
์ฌ๊ธฐ์ Output Stride
์ ๊ฐ๋
์ด ์ฐ์ด๋๋ฐ โinput image์ resolution
๊ณผ ์ต์ข
output์ ๋นโ๋ก ์๊ฐํ๋ฉด ๋๋ค. ์ฆ, ์ต์ข
feature map์ด input image์ ๋นํด 32๋ฐฐ ์ค์ด๋ค์๋ค๋ฉด output stride
๋ 32๊ฐ ๋๋ ๊ฒ์ด๋ค.
Semantic Segmentation
์์๋ ๋์ฑ ๋ํ
์ผํ ์ ๋ณด๋ฅผ ์ป์ด๋ด๊ธฐ ์ํด ๋ง์ง๋ง ๋ถ๋ถ์ Layer์ 1๊ฐ ํน์ 2๊ฐ๋ฅผ ์ญ์ ํ Atrous Convolution
ํด์ค์ผ๋ก์จ Output Stride
๋ฅผ 16 ํน์ 8๋ก ์ค์ธ๋ค.
๊ทธ๋ฆฌ๊ณ ์๋ ์ฌ์ง๊ณผ ๊ฐ์ด ๋ค์ํ ํฌ๊ธฐ์ ๋ฌผ์ฒด ์ ๋ณด๋ฅผ ์ก์๋ด๊ธฐ ์ํด ๋ค์ํ rate์ Atrous Convolution
์ ์ฌ์ฉํ๋ ASPP(Atrous Spatial Pyramid Pooling
)์ ์ฌ์ฉํ๋ค.
Decoder
์ด์ ์ DeepLab V3์์๋ Decoder ๋ถ๋ถ์ ๋จ์ํ bilinear upsampling
ํด์ฃผ์์ผ๋, V3+์์๋ Encoder์ ์ต์ข
Output์ 1*1 Convolution
์ ํ์ฌ Channel์ ์ค์ด๊ณ bilinear upsampling
ํด์ค ํ Concat
ํ๋ ๊ณผ์ ์ด ์ถ๊ฐ๋์๋ค.
ํ์ง๋ง ์ด๋ฌํ ๊ณผ์ ์ ๊ฑฐ์น๋๋ผ๋ bilinear interpolation
๋ง์ผ๋ก ์ ํํ๊ฒ ๊ฐ์ฒด์ ํฝ์
๋จ์๊น์ง ์์น๋ฅผ ์ ๊ตํ segmentationํ๋๊ฒ ๋ถ๊ฐ๋ฅํ๋ค. ์ ์๋ค์ ๋ท๋ถ๋ถ์ CRF(Conditional Random Field)
๋ฅผ ์ด์ฉํ์ฌ post-processing
(ํ์ฒ๋ฆฌ)์ ์ํํ๋๋ก ํ๋ค. ์ด์ ๋ํ ์์ธํ ์ค๋ช
์ ๋ฐ์ ํ๋๋ก ํ๊ฒ ๋ค.
Backbone
DeepLab V3+์์๋ Xception
์ backbone
์ผ๋ก ์ฌ์ฉํ์ง๋ง MSRA์ Aligned Xception
๊ณผ ๋ค๋ฅธ 3๊ฐ์ง ๋ณํ๋ฅผ ์ฃผ์๋ค.
์ผ์ชฝ : ์๋์ Xception ๋ชจ๋ธ, ์ค๋ฅธ์ชฝ : ๋ ผ๋ฌธ์์ ์ฌ์ฉ๋ ๋ณํ Xception ๋ชจ๋ธ
- ๋น ๋ฅธ ์ฐ์ฐ๊ณผ ๋ฉ๋ชจ๋ฆฌ ํจ์จ์ ์ํด
Entry Flow Structure
๋ฅผ ์์ ํ์ง ์์๋ค. Atrous Separable Convolution
์ ์ ์ฉํ๊ธฐ ์ํด ๋ชจ๋ Pooling Opearation
์Depthwise Separable Convolution
์ผ๋ก ๋์ฒดํ์๋ค.- ๊ฐ๊ฐ์
3*3 Depthwise Convolution
์ดํ์ ์ถ๊ฐ์ ์ผ๋กBatch-norm
๊ณผReLU
ํ์ฑํ ํจ์๋ฅผ ์ถ๊ฐํด์ฃผ์๋ค.
Fully Connected CRF
CRF ์ฌ์ฉ ํ ์ ๋ช ๋์ ๊ฐ์
์ผ๋ฐ์ ์ผ๋ก 1/8ํฌ๊ธฐ ํด์๋๋ฅผ ๊ฐ๋ DCNN ๊ฒฐ๊ณผ๋ฅผ bilinear interpolation
์ ํตํด ์์์ ํฌ๊ธฐ๋ก ํ๋ํ๋ฉด ์๋์ฒ๋ผ ํด์๋๊ฐ ๋จ์ด์ง๋ ๋ฌธ์ ๊ฐ ์๋ค. DeepLab
๊ตฌ์กฐ์์๋ ์ด ๋ฌธ์ ํด๊ฒฐ์ ์ํด CRF(Conditional Random Field)
๋ฅผ ์ฌ์ฉํ๋ ํ์ฒ๋ฆฌ๋ฅผ ์ด์ฉํด ์ฑ๋ฅ์ ํฅ์์์ผฐ๋ค.
CRF ๋ฐ๋ณต ํ์์ ๋ฐ๋ฅธ ๊ฒฐ๊ณผ ์์
์ CRF(Conditional Random Field)๊ฐ ํ์ํ๊ฐ?
Classification๊ณผ ๊ฐ์ด object-centricํ ๊ฒฝ์ฐ ๊ฐ๋ฅํ ๋์ ์์ค์ ๊ณต๊ฐ์ ์ธ ๋ถ๋ณ์ฑ(spatial invariance)๋ฅผ ์ป๊ธฐ ์ํด ์ฌ๋ฌ ๋จ๊ณ์ conv+pooling์ ํตํด ์์ ์์ ์กด์ฌํ๋ฉฐ ๋ณํ์ ์ํฅ์ ํฌ๊ฒ ๋ฐ์ง ์์ ๊ฐ์ธํ ํน์ง์ ์ถ์ถํด์ผํ๋ฉฐ, ์ด๋ก์ธํด detailํ ์ ๋ณด๋ณด๋จ globalํ ์ ๋ณด์ ์ง์คํ๊ฒ ๋๋ค.
๋ฐ๋ฉด semantic segmenation์ ํฝ์ ๋จ์์ ์กฐ๋ฐํ ์์ธก์ด ํ์ํด classification ๋คํธ์ํฌ ๊ธฐ๋ฐ์ผ๋ก segmentation ๋ง์ ๊ตฌ์ํ๊ฒ ๋๋ค๋ฉด ๊ณ์ feature map์ ํฌ๊ธฐ๊ฐ ์ค์ด๋ค๊ฒ๋๋ ํน์ฑ์ detailํ ์ ๋ณด๋ค์ ์๊ฒ ๋๋ค.
์ด ๋ฌธ์ ์ ๋ํ ํด๊ฒฐ์ฑ
์ผ๋ก FCN์์ skip connection์ ์ฌ์ฉํ์๊ณ , dilated conv๋ DeepLab์์๋ ๋ง์ง๋ง์ ์ค๋ pooling layer 2๊ฐ๋ฅผ ์์ ๊ณ dilated/atrous conv๋ฅผ ์ฌ์ฉํ๋ค. ํ์ ์์ฑํ Mask RCNN์์๋ Roi align
์ ์ฌ์ฉํด์ ์ด๋ฅผ ํด๊ฒฐํ๊ณ ์ ํ๋ค.
ํ์ง๋ง ์ด๋ฌํ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ๋๋ผ๋ ๋ถ๋ช ํ ํ๊ณ๋ ์กด์ฌํ๊ธฐ์ DeepLab์์๋ atrous conv์ ๊ทธ์น์ง ์๊ณ CRF๋ฅผ ํ์ฒ๋ฆฌ ๊ณผ์ ์ผ๋ก ์ฌ์ฉํ์ฌ ํฝ์ ๋จ์ ์์ธก์ ์ ํ๋๋ฅผ ๋ ๋์ผ ์ ์๊ฒ ๋์๋ค.
๊ฐ๋
์ด์ ๋ ธ๋(pixel)๊ฐ์ ๊ด๊ณ(์กฐ๊ฑด๋ถ ํ๋ฅ ๊ฐ์)๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ์ฌ ๋ ธ๋์ ๊ฐ์ ์ถ๋ก ํ๋ค.
์ผ๋ฐ์ ์ผ๋ก ์ข์ ๋ฒ์(short-range)์ CRF๋ segmentation์ ์ํํ ๋ค ์๊ธฐ๋ segmentation noise๋ฅผ ์์ ๋ ์ฉ๋๋ก ๋ง์ด ์ฌ์ฉ๋๋ค. ํ์ง๋ง ์์ ์ดํด๋ณธ ๊ฒ์ฒ๋ผ DCNN์์๋ ์ฌ๋ฌ ๋จ๊ณ conv+pooling์ ๊ฑฐ์น๋ฉฐ feature map์ ํฌ๊ธฐ๊ฐ ์์์ง๊ฒ ๋๊ณ ์ด๋ฅผ upsampling์ ํตํด ์ ์์ ํฌ๊ธฐ๋ก ํ๋ํ๊ธฐ์ ์ด๋ฏธ ์ถฉ๋ถํ smoothen๋์ด์๋ ์ํ์ด๋ฉฐ, ์ฌ๊ธฐ์ ๊ธฐ์กด์ฒ๋ผ short-range CRF๋ฅผ ์ ์ฉํ๋ฉด ๊ฒฐ๊ณผ๊ฐ ๋ ๋๋น ์ง๊ฒ ๋๋ค.
Noise ์ฑ๋ถ๋ ๊ฐ์ด upsampling ๋๋ฏ๋ก ์ธ๋ถํ๋ segmentation ๊ฒฐ๊ณผ๋ฅผ ์ป๊ธฐ ์ด๋ ต๋ค. ์ด์ ๋ํ ํด๊ฒฐ์ฑ ์ผ๋ก Efficient Inference in Fully Connected CRFs with Gaussian Edge Potentials (Philipp Karahenbuhl)๋ผ๋ ๋ ผ๋ฌธ์ด ๋ฐํ๋์์ผ๋ฉฐ, ํด๋น ๋ ผ๋ฌธ์์ ๊ธฐ์กด์ ์ฌ์ฉ๋๋ short-range CRF๋์ ์ ์ฒด ํฝ์ ์ ๋ชจ๋ ์ฐ๊ฒฐํ (fully connected) CRF ๋ฐฉ๋ฒ์ ๊ฐ๋ฐํด ๋๋ผ์ด ์ฑ๋ฅ ํฅ์์ ์ป์ด๋ด์๊ณ ์ด ํ ๋ง์ ์ฌ๋๋ค์ด fully connected CRF๋ฅผ ํ์ฒ๋ฆฌ์์ ์ฌ์ฉํ๊ฒ ๋๋ค.
๊ธฐ์กด์ ์ฌ์ฉ๋๋ short-range CRF๋ ์๋ ๊ทธ๋ฆผ์ฒ๋ผ local connection ์ ๋ณด๋ง์ ์ฌ์ฉํ๋ค. ์ด๋ ๊ฒ ๋๋ฉด detail ์ ๋ณด๊ฐ ๋๋ฝ๋๊ฒ ๋๋ค.
short range CRF ์ ์ฉ
๋ฐ๋ฉด fully connected CRF๋ฅผ ์ฌ์ฉํ๋ฉด ์๋์ฒ๋ผ detail ์ ๋ณด๋ค์ด ์ด์์๋ ๊ฒฐ๊ณผ๋ฅผ ์ป์ ์ ์๋ค. ๋ฌผ๋ก ๋ชจ๋ ๋ ธ๋(pixel)์ ์ฐ๊ฒฐํ์ฌ ์ฒ๋ฆฌํ๊ธฐ ๋๋ฌธ์ ๊ต์ฅํ ์ค๋ ์๊ฐ์ด ๊ฑธ๋ฆฐ๋ค๋ ๊ฒ์ ์ ์ ์๋ค.
Fully connected CRF ์ ์ฉ
์์ฒ๋ผ MCMC(Markov Chain Monte Carlo) ๋ฐฉ์์ ์ฌ์ฉํ ๊ฒฝ์ฐ ์ข์ ๊ฒฐ๊ณผ๊ฐ ๋์ค์ง๋ง ์ฐ์ฐ๋์ด ๋ง๋ค๋ ๋จ์ ์ด ์์ด ์ ์ฉ์ด ๋ถ๊ฐํ๋ค. ํ์ง๋ง Philipp Karahenbuhl์ ๋ ผ๋ฌธ์์ ์ด๋ฅผ 0.2์ด๋ง์ ํจ๊ณผ์ ์ผ๋ก ์ฐ์ฐ๊ฐ๋ฅํ๊ฒ ํ๋ค.
Philipp Karahenbuhl๋ ์ผ๋ช mean field approximation ๋ฐฉ๋ฒ์ ์ ์ฉํด message passing์ ์ฌ์ฉํ iteration ๋ฐฉ๋ฒ์ ์ ์ฉํ์ฌ ํจ๊ณผ์ ์ผ๋ก ๋น ๋ฅธ fully connected CRF๋ฅผ ์ํ ๊ฐ๋ฅํ๋๋ก ํ๋ค.
์ฌ๊ธฐ์ mean field approximation์ด๋ ๋ฌผ๋ฆฌํ์ด๋ ํ๋ฅ ์ด๋ก ์์ ๋ง์ด ์ฌ์ฉ๋๋ ๋ฐฉ๋ฒ์ผ๋ก, ๋ณต์กํ ๋ชจ๋ธ์ ์ค๋ช ํ๊ธฐ ์ํด ๋ ๊ฐ๋จํ ๋ชจ๋ธ์ ์ ํํ๋ ๋ฐฉ์์ ์๋ฏธํ๋ค. ์๋ง์ ๋ณ์๋ค๋ก ์ด๋ฃจ์ด์ง ๋ณต์กํ ๊ด๊ณ๋ฅผ ๊ฐ๋ ์ํฉ์์ ํน์ ๋ณ์์ ๋ค๋ฅธ ๋ณ์๋ค์ ๊ด๊ณ์ ํ๊ท ์ ์ทจํ๊ฒ ๋๋ฉด, ํ๊ท ์ผ๋ก๋ถํฐ ๋ณํ(fluctuation)๋ฅผ ํด์ํ๋๋ฐ๋ ์ฉ์ดํ๊ณ , ํ๊ท ์ผ๋ก ๋จ์ํ/๊ทผ์ฌํ๋ ๋ชจ๋ธ์ ์ฌ์ฉํ๋ฉด ์ ์ฒด๋ฅผ ์กฐ๋งํ๊ธฐ์ ์ข๋ค.
์์
Conditional Random Field
CRF์ ์์์ ๋ณด๋ฉด unary term๊ณผ pairwise term์ผ๋ก ๊ตฌ์ฑ๋จ. ์๋์ ์์์ x๋ ๊ฐ ํฝ์ ์ ์์น์ ํด๋นํ๋ ํฝ์ ์ label์ด๋ฉฐ, i์ j๋ ํฝ์ ์ ์์น์ขํ๋ฅผ ๋ํ๋ธ๋ค. Unary term์ CNN ์ฐ์ฐ์ํตํด ์ป์ด์ง ์ ์์ผ๋ฉฐ, ํฝ์ ๊ฐ์ detailํ ์์ธก์์ pairwise term์ด ์ค์ํ ์ญํ ์ ํ๋ค. Pairwise term์์๋ ๋ง์น bi-lateral filter์์ ๊ทธ๋ฌ๋ฏ์ด ํฝ์ ๊ฐ์ ์ ์ฌ๋์ ์์น์ ์ธ ์ ์ฌ๋๋ฅผ ํจ๊ป ๊ณ ๋ คํ๋ค.(ํํฐ์ ๋ํด์๋ [Learn opencv by examples] 6. Gaussian ํํฐ, Bilateral ํํฐ, Median ํํฐ๋ฅผ ์ฝ์ด๋ณด์.)
Conditional Random Field
์ CRF ์์ ๋ณด๋ฉด, 2๊ฐ์ ๊ฐ์ฐ์์ ์ปค๋๋ก ๊ตฌ์ฑ๋ ๊ฒ์ ๋ณผ ์ ์์ผ๋ฉฐ ํ์คํธ์ฐจ ๋ฅผ ํตํด scale์ ์กฐ์ ํ ์ ์๋ค. ์ฒซ ๋ฒ์งธ ๊ฐ์ฐ์์ ์ปค๋์ ๋น์ทํ ์ปฌ๋ฌ๋ฅผ ๊ฐ๋ ํฝ์ ๋ค์ ๋ํด ๋น์ทํ label์ด ๋ถ์ ์ ์๋๋ก ํ๋ฉฐ, ๋ ๋ฒ์งธ ๊ฐ์ฐ์์ ์ปค๋์ ์๋ ํฝ์ ์ ๊ทผ์ ๋์ ๋ฐ๋ผ smooth ์์ค์ ๊ฒฐ์ ํ๋ค. ์ ์์์ ๋ ํฝ์ ์ ์์น(position)๋ฅผ ๋ํ๋ด๋ฉฐ ๋ ํฝ์ ์ ์ปฌ๋ฌ๊ฐ(intensity)์ด๋ค.
์ด๊ฒ์ ๊ณ ์์ฒ๋ฆฌํ๊ธฐ ์ํด Philipp Krahenbuhl ๋ฐฉ์์ ์ฌ์ฉํ๊ฒ ๋๋ฉด feature space์์๋ Gaussian convolution์ผ๋ก ํํ ํ ์ ์๊ฒ๋์ด ๊ณ ์ ์ฐ์ฐ์ด ๊ฐ๋ฅํด์ง๋ค. (์ ์ด๋ถ๋ถ์ ๋์ ํ..)
CRF๊ฐ ์ ์ฉ๋ ๋์ ๋ฐฉ์
CRF๊น์ง ์ ์ฉ๋ ๋์ ๋ฐฉ์
- DCNN์ ํตํด 1/8 ํฌ๊ธฐ์
coarse score-map
์ ๊ตฌํ๋ค. - ์ด๊ฒ์
bilinear interpolation
์ ํตํด ์์์ ํฌ๊ธฐ๋ก ํ๋์ํด. Bilinear interpolation
์ ํตํด ์ป์ด์ง ๊ฒฐ๊ณผ๋ ๊ฐ ํฝ์ ์์น์์์ label์ ๋ํ ํ๋ฅ ์ด ๋๋ฉฐ ์ด๊ฒ์CRF
์unary term
์ ํด๋นํจ.- ์ต์ข
์ ์ผ๋ก ๋ชจ๋ ํฝ์
์์น์์ p
airwise term
๊น์ง ๊ณ ๋ คํCRF
ํ๋ณด์ ์์ ์ ํด์ฃผ๋ฉด ์ต์ข ์ ์ธ ์ถ๋ ฅ ๊ฒฐ๊ณผ๋ฅผ ์ป์ ์ ์์
๊ฒฐ๊ณผ
Encoder : Xception
decoder ๋ณ๊ฒฝ ํ ๊ฒฐ๊ณผ
Encoder
๋ฅผ Xception
์ผ๋ก ๊ต์ฒด ํ ์คํํ์์ ๋๋ ์ฝ 2% ๊ฐ๋์ ์ฑ๋ฅ ํฅ์์ ๊ฐ์ ธ์๋ค.
ASPP ๋ถ๋ถ๊ณผ Decoder ๋ถ๋ถ์ ์ฌ์ฉ๋๋ Convolution
๋ค์ ๋ชจ๋ Separable Convolution
์ผ๋ก ๋์ฒดํ ๊ฒฝ์ฐ ์ฑ๋ฅ์ ๊ธฐ์กด Convolution
์ ์ฌ์ฉํ ๋์ ๊ฑฐ์ ๋น์ทํ์์ง๋ง, ๋ชจ๋ธ์ด ์ฌ์ฉํ๋ ์ฐ์ฐ๋ ์์ฒด๊ฐ ํ๊ธฐ์ ์ผ๋ก ์ค์ด๋ค์์์ ํ์ธ ํ ์ ์์๋ค.
Decoder : U-Net ์ฌ์ฉ
decoder ๋ณ๊ฒฝ ํ ๊ฒฐ๊ณผ
๋ค์ํ ํ๋ผ๋ฏธํฐ์ ์ธํ
์ ๋ํด์ ์คํ์ ์งํํ์๋๋ฐ, ์ฐ์ ResNet-101
๊ตฌ์กฐ๋ฅผ Encoder
๋ก ์ฌ์ฉํ์์ ๋, ์ฑ๋ฅ์ ์ธก์ ํ ๊ฒ์ด๋ค. Decoder
๋ถ๋ถ์ bilinear upsampling
๋์ , ๋จ์ํ๋ U-Net
๊ตฌ์กฐ๋ก ๋ณ๊ฒฝํ ๊ฒฝ์ฐ ๊ธฐ์กด ๋๋น mIOU 1.64% ํฅ์์ด ์์์ ํ์ธ ํ ์ ์๋ค.
Pascal VOC 2012 validation set์์์ visualization ๊ฒฐ๊ณผ
์ Visualization
๊ฒฐ๊ณผ๋ฅผ ๋ณด๋ฉด ์๋นํ ์์ ์ ์ด๊ณ ์ ํํ๊ฒ ๊ฐ๊ฐ์ ํฝ์
์ ๋ํด ํด๋์ค๋ฅผ ์์ธกํ๊ณ ์์์ ํ์ธํ ์ ์๋ค. Xception
๊ธฐ๋ฐ์ encoder
๋ก ์์ง์ high level semantic
์ ๋ณด๋ฅผ ๊ฐ์ง๋ feature๋ฅผ ์ถ์ถํ ์ ์๊ณ , ASPP ๋ชจ๋์ ํตํด ๊ฐ ํฝ์
์ด ์ฌ๋ฌ ์ค์ผ์ผ์ context
์ ๋ณด๋ฅผ ์ทจํด ๋ณด๋ค ์ ํํ ์ถ๋ก ์ด ๊ฐ๋ฅํ๋ฉฐ, U-Net ๊ตฌ์กฐ์ decoder
๋ฅผ ํตํด ๊ฐ ๋ฌผ์ฒด์ ํด๋นํ๋ ์ ๊ตํ boundary
๋ฅผ ๊ทธ๋ ค๋ผ ์ ์๊ธฐ์ ์์ ๊ฐ์ visualization
๊ฒฐ๊ณผ๋ฅผ ์ป์ด๋ผ ์ ์๋ค๊ณ ํด์ํด ๋ณผ ์ ์๋ค.