Logistic Regression ์˜ ๊ทธ๋ž˜ํ”„

ํ•จ์ˆ˜๋ฅผ ํ†ต๊ณผํ•˜๊ธฐ ์ „์˜ ๊ฐ’์„ Score(Logit) ์ด๋ผ ๋ถ€๋ฅธ๋‹ค. ํ†ต๊ณผํ•œ ๋‚œ ๋’ค์˜ ๊ฐ’์€ ํ™•๋ฅ ์ด๋‹ค.

์‚ฌ์‹ค ์ด ์ž‘์—…์€, ๋ฐ์ดํ„ฐ๋ฅผ ๊ทธ๋ž˜ํ”„์— ๋ฟŒ๋ ค๋†จ์„ ๋•Œ, ๋‘ ๊ฐ€์ง€ ํด๋ž˜์Šค๋กœ ๊ตฌ๋ถ„ํ•  ์ˆ˜ ์žˆ๋Š” ๊ตฌ๋ถ„์„  ์„ ์ฐพ๋Š” ๊ฒƒ๊ณผ ๊ฐ™์€ ์ž‘์—…์ด๋‹ค!!

0.5์˜ ํ™•๋ฅ ์„ ๊ธฐ์ค€์œผ๋กœ ๋‘ ํด๋ž˜์Šค๋กœ ๋‚˜๋ˆ„๊ณ  ์žˆ์œผ๋ฏ€๋กœ, ๊ทธ 0.5๋ฅผ ๋งŒ์กฑํ•˜๋Š” ์ ๋“ค์˜ ์ง‘ํ•ฉ์ด ๋ฐ”๋กœ ๊ตฌ๋ถ„์„ ์ด๋‹ค.

Softmax function

๊ทธ๋ ‡๋‹ค๋ฉด ์—ฌ๋Ÿฌ ๊ฐœ์˜ ํด๋ž˜์Šค๋ฅผ ๋ถ„๋ฅ˜ํ•ด์•ผ ํ•œ๋‹ค๋ฉด ์–ด๋–ป๊ฒŒ ํ•ด์•ผํ• ๊นŒ?

์œ„์˜ Logistic regression์˜ ์•„์ด๋””์–ด๋ฅผ ์ด์šฉํ•  ์ˆ˜ ์žˆ๋Š”๋ฐ, ๋งŒ์•ฝ A, B, C ์„ธ ๊ฐœ์˜ ํด๋ž˜์Šค๊ฐ€ ์žˆ๋‹ค๋ฉด

์„ธ ๊ฐœ์˜ ๋…๋ฆฝ์ ์ธ logistic regression์„ ์‚ฌ์šฉํ•˜๋ฉด, ์ €๋ ‡๊ฒŒ 3๊ฐœ์˜ ์„ ์ด ๊ทธ์–ด์งˆ ์ˆ˜ ์žˆ๋‹ค.

๊ทธ๋ฆฌ๊ณ  3๊ฐœ์˜ ๋ชจ๋ธ์„ ๋Œ๋ฆฐ ํ›„ ๊ฒฐ๊ณผ๋Š”, ํ•ด๋‹น ํฌ์ธํŠธ์˜ ์ ์ด A, B, C ๊ฐ๊ฐ์— ํฌํ•จ๋  ํ™•๋ฅ ์ด ๋‚˜์˜ฌ ๊ฒƒ์ด๋‹ค.

๊ทธ๋Ÿฐ๋ฐ ์ด๊ฑธ ๊ตฌํ˜„ํ•˜๋ ค๊ณ  ๋ณด๋‹ˆ ๋„ˆ๋ฌด ๋ณต์žกํ•˜๊ณ  ๊ตฌํ˜„ํ•˜๊ธฐ ํž˜๋“ค์–ด ๋ณด์ธ๋‹ค. ๊ทธ๋ž˜์„œ ํ–‰๋ ฌ์„ ์‚ฌ์šฉํ•œ๋‹ค.

\\begin{pmatrix} w\_{A1} & w\_{A2} & w\_{A3} \\ w\_{B1} & w\_{B2} & w\_{B3} \\ w\_{C1} & w\_{C2} & w\_{C3}\end{pmatrix} \cdot \begin{pmatrix} x_1 \\ x_2 \\ x_3\end{pmatrix};=;\begin{pmatrix} x_1w\_{A1}+x_2w\_{A2}+x_3w\_{A3} \\ x_1w\_{B1}+x_2w\_{B2}+x_3w\_{B3} \\ x_1w\_{C1}+x_2w\_{C2}+x_3w\_{C3}\end{pmatrix}=\begin{pmatrix} \hat{y_A} \\ \hat{y_B} \\ \hat{y_C}\end{pmatrix}

์ด๋ ‡๊ฒŒ ๋ฒกํ„ฐ๋กœ ํ•œ๋ฒˆ์— ์ฒ˜๋ฆฌ๊ฐ€ ๊ฐ€๋Šฅํ•˜๋‹ค!

Z ๋ฒกํ„ฐ๋ฅผ sigmoid์— ๋„ฃ์–ด ํ™•๋ฅ  ๋ฒกํ„ฐ๋ฅผ ๋‚˜์˜ค๊ฒŒํ•˜๋ฉด ๋œ๋‹ค.

์ด๊ฑธ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•˜๋Š” ๊ฒƒ์ด Softmax ํ•จ์ˆ˜์ด๋‹ค.

ํšŒ๊ท€๋กœ ๋Œ๋ฆฐ Z๊ฐ’์„ ๋„ฃ๊ฒŒ ๋˜๋ฉด, ํ™•๋ฅ ๋กœ ๋งคํ•‘์‹œ์ผœ ์ค€๋‹ค.

Cost Function

๊ทธ๋Ÿผ ์ด๊ฑธ ํ•™์Šต ์‹œํ‚ค๊ธฐ ์œ„ํ•ด Cost Function์„ ์ •์˜ํ•ด์•ผ ํ•œ๋‹ค.

Logistic ๊ฐ™์€ ๊ฒฝ์šฐ cost function์„ ๋ฏธ๋ถ„ํ•œ ๊ฒƒ์„ gradient descent ํ–ˆ์ง€๋งŒ

์ด๋ฒˆ์—๋Š” ์กฐ๊ธˆ ๋‹ค๋ฅด๋‹ค. Cross-Entropy๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค. ๋ฐ‘์—์„œ ์™œ ์ด ์ง€ํ‘œ๊ฐ€ ๋งž๋Š”์ง€ ์•Œ์•„๋ณด์ž.

Cross-Entropy

์ด ๋•Œ, -log ํ•จ์ˆ˜๋Š” y hat์˜ ๊ฐ’์ด 01์˜ ํ™•๋ฅ  ๊ฐ’์ด๋ฏ€๋กœ ๋ฌดํ•œ๋Œ€0 ๊ฐ’์„ ๊ฐ–๋Š”๋‹ค.

์˜ˆ๋ฅผ ๋“ค์–ด ์ƒ๊ฐํ•ด๋ณด์ž. ๋‘ ๊ฐ€์ง€ ๋ ˆ์ด๋ธ”์„ ๊ฐ€์งˆ ์ˆ˜ ์žˆ๊ณ ,

์ˆœ์„œ๋Œ€๋กœ A ํด๋ž˜์Šค, B ํด๋ž˜์Šค์ธ์ง€ ๋‚˜ํƒ€๋‚ด๋Š” Array ํ˜•ํƒœ๋กœ ๋‹ต์•ˆ์ด ์ œ์ถœ๋œ๋‹ค ํ•˜์ž.

์‹ค์ œ๊ฐ’(y) = [0 1] # Bํด๋ž˜์Šค๊ฐ€ ๋‹ต์ž„
์˜ˆ์ธก๊ฐ’1(y_hat) = [0 1] # Bํด๋ž˜์Šค์ผ ํ™•๋ฅ ์ด 100%๋ผ๊ณ  ์˜ˆ์ธก
์˜ˆ์ธก๊ฐ’2(y_hat) = [1 0] # Aํด๋ž˜์Šค์ผ ํ™•๋ฅ ์ด 100%๋ผ๊ณ  ์˜ˆ์ธก

์šฐ๋ฆฌ๊ฐ€ ํ•˜๊ณ  ์‹ถ์€ ๊ฒƒ์€, ๋งž์•˜์„ ๋•Œ๋Š” cost function์˜ ๊ฐ’์ด ์ž‘๊ฒŒ, ํ‹€๋ ธ์„ ๋•Œ๋Š” cost function์˜ ๊ฐ’์ด ํฌ๊ฒŒ ๋‚˜์˜ค๊ฒŒ ํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ๊ทธ๋ฆฌ๊ณ ๋‚˜์„œ ์ด ํ•จ์ˆ˜๋ฅผ ์ตœ์†Œํ™”ํ•˜๋Š” ๋ฐฉํ–ฅ์˜ ๋ชจ๋ธ์„ ๋งŒ๋“œ๋Š” ๊ฒƒ์ด ๋ชฉ์ ์ด๋‹ค.

๊ทธ๋ ‡๋‹ค๋ฉด, cross-entropy๊ฐ€ ๋‚ด๊ฐ€ ์ƒ๊ฐํ•˜๋Š” ์ด ๊ณผ์ •์ด ๋งž๋Š”์ง€ ์ƒ๊ฐํ•ด๋ณด์ž.

์˜ˆ์ธก๊ฐ’ 1์˜ ๊ฒฝ์šฐ,

\\begin{bmatrix} 0 \\ 1 \end{bmatrix} \cdot -log\begin{bmatrix} 0 \\ 1 \end{bmatrix};=;\begin{bmatrix} 0 \\ 1 \end{bmatrix}\cdot\begin{bmatrix} \infin \\ 0 \end{bmatrix};=;0+0;=;0

์˜ˆ์ธก๊ฐ’์ด ๋งž์•˜์„ ๋•Œ, ๊ฐ’์ด 0์ด ๋œฌ๋‹ค. ์˜ˆ์ธก๊ฐ’ 2์˜ ๊ฒฝ์šฐ,

\\begin{bmatrix} 0 \\ 1 \end{bmatrix} \cdot -log\begin{bmatrix} 1 \\ 0 \end{bmatrix};=;\begin{bmatrix} 0 \\ 1 \end{bmatrix}\cdot\begin{bmatrix} 0 \\ \infin \end{bmatrix};=;0+\infin;=;\infin

๊ฐ’์ด ์ปค์ง„๋‹ค.

์ฆ‰, ํ‹€๋ฆฐ ์˜ˆ์ธก์— ๋Œ€ํ•ด ์•„์ฃผ ํฐ ๊ฐ’์˜ penelty ๋ฅผ ์ฃผ๊ณ  ์žˆ์Œ์„ ์•Œ ์ˆ˜ ์žˆ๋‹ค.

Logistic Regression & Cross Entropy

๋‘ ๊ฐœ์˜ ๋ ˆ์ด๋ธ”์ด ์žˆ๋‹ค๊ณ  ์ƒ๊ฐํ•  ๋•Œ, cross entropy๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

๊ทธ๋Ÿฐ๋ฐ, ๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€๋Š” ๋ ˆ์ด๋ธ”์ด 2๊ฐœ๊ฐ€ ์žˆ๊ณ , ๋˜ ํ•˜๋‚˜๊ฐ€ ๊ฒฐ์ •๋  ๋•Œ, ๋ฐ˜๋Œ€๋Š” 1์—์„œ ๋บ€ ๊ฐ’์ด๋‹ค.

์œ„ ์‹์€ logistic ํšŒ๊ท€์—์„œ ๋น„์šฉํ•จ์ˆ˜์ด๋‹ค.

Reference