ํ ์ค๋ก ๋งํ๋ฉด
Vision-Language-Action, ์ค์ฌ์ VLA ๋ชจ๋ธ์ ๋ก๋ด์ด ๋ณด๋ ๊ฒ, ์ฌ๋์ด ๋งํ ๋ชฉํ, ์ค์ ํ๋์ ํ๋์ ๋ชจ๋ธ ์์์ ์ฐ๊ฒฐํ๋ ค๋ ๋ฐฉ์์ ๋๋ค.
๋น์ ๋ก ์ดํดํ๊ธฐ
์ฌ๋์๊ฒ โ์ ์ปต์ ์ฑํฌ๋์ ๋ฃ์ด์คโ๋ผ๊ณ ๋งํ๋ฉด, ์ฌ๋์ ๋จผ์ ์ปต์ ๋ณด๊ณ , ๋ฌธ์ฅ์ ๋ป์ ์ดํดํ๊ณ , ์๊ณผ ๋ชธ์ ์์ง์ ๋๋ค. ๋, ์ธ์ด ์ดํด, ํ๋์ด ๋ฐ๋ก ๋์ง ์์ต๋๋ค.
VLA ๋ชจ๋ธ์ ๋ก๋ด์๊ฒ ์ด ์ธ ๋จ๊ณ๋ฅผ ์ต๋ํ ํ ํ๋ฆ์ผ๋ก ๋ฌถ์ด์ฃผ๋ ค๋ ์๋์ ๋๋ค.
์ ํํ ์ ์
VLA ๋ชจ๋ธ์ ์๊ฐ ์ ๋ ฅ๊ณผ ์ธ์ด ์ ๋ ฅ์ ๋ฐ์ ๋ก๋ด์ ํ๋ ๋ช ๋ น ๋๋ ํ๋ ์ ์ฑ ์ผ๋ก ๋ณํํ๋ ๋ชจ๋ธ์ ๋๋ค.
- Vision: ์นด๋ฉ๋ผ ์ด๋ฏธ์ง๋ ๋น๋์ค๋ก ํ๊ฒฝ์ ๋ด ๋๋ค.
- Language: ์ฌ๋์ ๋ช ๋ น, ์์ ์ค๋ช , ๋ชฉํ๋ฅผ ์ดํดํฉ๋๋ค.
- Action: ๋ก๋ด ํ, ์, ๋ค๋ฆฌ, ๋ฐํด๊ฐ ์คํํ ํ๋์ผ๋ก ๋ฐ๊ฟ๋๋ค.
Google DeepMind์ RT-2 ๊ฐ์ ์ฐ๊ตฌ๋ ์น ๊ท๋ชจ์ ์๊ฐยท์ธ์ด ํ์ต์ ๋ก๋ด ํ๋์ผ๋ก ์ ์ดํ๋ ค๋ ๋ํ ์ฌ๋ก๋ก ๋ณผ ์ ์์ต๋๋ค. Open X-Embodiment๋ ์ฌ๋ฌ ๋ก๋ด์ ๋ฐ์ดํฐ๋ฅผ ๋ชจ์ ๋ ๋ฒ์ฉ์ ์ธ ํ๋ ๋ชจ๋ธ์ ๋ง๋ค๋ ค๋ ํ๋ฆ์ ๋๋ค.
์ ์ค์ํ๊ฐ
Physical AI์์ ๊ฐ์ฅ ํฐ ์ง๋ฌธ ์ค ํ๋๋ โ๋ก๋ด์ ๋งค๋ฒ ํ๋์ ์์ ์๋ง ๋ง์ถฐ ํ๋ก๊ทธ๋๋ฐํด์ผ ํ๋๊ฐ?โ์ ๋๋ค. VLA ๋ชจ๋ธ์ด ์ ์๋ํ๋ฉด ๋ก๋ด์ ์๋ก์ด ๋ช ๋ น๊ณผ ์๋ก์ด ๋ฌผ์ฒด์ ๋ ์ ์ฐํ๊ฒ ๋์ํ ์ ์์ต๋๋ค.
์ด๊ฒ์ด ๊ฐ๋ฅํด์ง๋ฉด ๋ค์ ๋ณํ๊ฐ ์๊น๋๋ค.
- ์์ ๋ณ ์ฝ๋ฉ ๋น์ฉ์ด ์ค์ด๋ญ๋๋ค.
- ์ฌ๋์ ์์ฐ์ด ์ง์๋ฅผ ๋ก๋ด ์์ ์ผ๋ก ๋ฐ๊พธ๊ธฐ ์ฌ์์ง๋๋ค.
- ์ฌ๋ฌ ํ์ฅ์์ ์์งํ ๋ฐ์ดํฐ๊ฐ ๋ชจ๋ธ ๊ฐ์ ์ ์ฐ์ผ ์ ์์ต๋๋ค.
- Robot-as-a-Service์์ ์ํํธ์จ์ด ์ ๋ฐ์ดํธ ๊ฐ์น๊ฐ ์ปค์ง๋๋ค.
์ค์ ์์
์ฐฝ๊ณ ๋ก๋ด์๊ฒ โ๋นจ๊ฐ ๋ฐ์ค๋ฅผ ์ผ์ชฝ ์ ๋ฐ์ผ๋ก ์ฎ๊ฒจโ๋ผ๊ณ ์ง์ํ๋ค๊ณ ํด๋ด ๋๋ค. VLA ๋ชจ๋ธ์ ๋นจ๊ฐ ๋ฐ์ค๊ฐ ๋ฌด์์ธ์ง ๋ณด๊ณ , ์ผ์ชฝ ์ ๋ฐ์ด๋ผ๋ ๋ชฉํ๋ฅผ ์ดํดํ๊ณ , ํ๊ณผ ์ด๋ ์ฅ์น๊ฐ ์คํํ ํ๋์ ๋ง๋ค์ด์ผ ํฉ๋๋ค.
์ด๋ ์ค์ํ ๊ฒ์ ๋ง๋ป์ ๋งํ๋ ๊ฒ์ด ์๋๋ผ, ์ค์ ๋ฌผ์ฒด๋ฅผ ์์ ํ๊ฒ ์ก๊ณ ์ฎ๊ธฐ๋ ๊ฒ์ ๋๋ค.
ํท๊ฐ๋ฆฌ์ง ๋ง์์ผ ํ ์
VLA ๋ชจ๋ธ์ ๋ก๋ด ๋ฌธ์ ๋ฅผ ์ ๋ถ ํด๊ฒฐํ๋ ๋ง๋ฒ์ด ์๋๋๋ค. ๋ชจ๋ธ์ด ํ๋์ ์ ์ํด๋, ํ๋์จ์ด ์ ์ด, ์์ , ๋ฌผ๋ฆฌ ์ ์ด, ์ผ์ ์ค๋ฅ, ํ์ฅ ์์ธ ์ฒ๋ฆฌ๋ ์ฌ์ ํ ์ด๋ ต์ต๋๋ค.
๋ํ VLA์ โ๋ฒ์ฉ์ฑโ์ ์กฐ์ฌํด์ ๋ด์ผ ํฉ๋๋ค. ์ฐ๊ตฌ ๋ฐ๋ชจ์์ ๊ฐ๋ฅํ ํ๋์ด ๊ณ ๊ฐ ํ์ฅ์ ๋ฐ๋ณต ์์ , ๊ณ ์ฅ๋ฅ , ๋น์ฉ ๊ตฌ์กฐ๊น์ง ๊ณง๋ฐ๋ก ํด๊ฒฐํ๋ค๋ ๋ป์ ์๋๋๋ค.