์ด ๋ ผ๋ฌธ์ ์ฌ๋์ ์์ง์๊ณผ ์์ฐ์ด๋ฅผ ํจ๊ป ๋ค๋ฃจ๋ ์์ด์ ํธ๊ฐ ์ ๋์ ๋ฒ์ฃผ๋ฅผ ์์ฐจ์ ์ผ๋ก ๋ฐฐ์์ผ ํ ๋ ์๊ธฐ๋ ๋ฌธ์ ๋ฅผ ๋ค๋ฃฌ๋ค. ์๋ฅผ ๋ค์ด ๊ฐ์ ์บ๋ฆญํฐ๋ ๋ก๋ด์ด ์ฒ์์๋ ๋ฌ๋ฆฌ๊ธฐ ๋์์ ๋ฐฐ์ฐ๊ณ , ๋์ค์๋ ์๋์์ด๋ ์๊ณ ์๋ ๋์์ ์ถ๊ฐ๋ก ๋ฐฐ์ด๋ค๊ณ ํด๋ณด์. ์ ๊ธฐ์ ์ ๋ฐฐ์ธ ๋ ์ด์ ๊ธฐ์ ์ ์์ด๋ฒ๋ฆฌ๋ฉด ์ค์ ํ๊ฒฝ์์ ์ค๋ ์๋ํ๋ ์์ด์ ํธ๊ฐ ๋๊ธฐ ์ด๋ ต๋ค. ๋ ผ๋ฌธ์ ์ด ๋ฌธ์ ๋ฅผ โ์๋ฐฉํฅ motion-language ์์ด์ ํธโ์ ์ง์ ํ์ต ๋ฌธ์ ๋ก ๋๊ณ , LoRA ๊ธฐ๋ฐ ์ ๋ฌธ๊ฐ๋ฅผ ๋๋์ด ๋ณด๊ดํ๊ณ ๋ผ์ฐํฐ๋ก ์ ํํ๋ ๋ฐฉ๋ฒ์ ์คํํ๋ค.
ํ ์ค๋ก ๋งํ๋ฉด
์ ์ ์ธ motion-language ๋ชจ๋ธ์ ์ ์์ง์ ๋ฒ์ฃผ๋ฅผ ๊ณ์ ๋ฐฐ์ธ ์ ์๋ ์์ด์ ํธ๋ก ๋ง๋ค๊ธฐ ์ํด, ๊ณผ์ ๋ณ LoRA ์ ๋ฌธ๊ฐ์ ์๋ ๋ผ์ฐํ ์ ๊ฒฐํฉํ๋ฉด ๋ง๊ฐ์ ํฌ๊ฒ ์ค์ผ ์ ์๋ค๋ ์คํ ๋ ผ๋ฌธ์ด๋ค.
๋ฐฐ๊ฒฝ: ์ ์ด ๋ฌธ์ ๊ฐ ์ค์ํ๊ฐ
motion-language ๋ชจ๋ธ์ ํฌ๊ฒ ๋ ๋ฐฉํฅ์ ์ผ์ ํ๋ค.
- text-to-motion(T2M): โ์์ผ๋ก ๊ฑธ์ด๊ฐ๋ค๊ฐ ์ค๋ฅธ์์ ๋ ๋คโ ๊ฐ์ ๋ฌธ์ฅ์ ๋ฐ์ ์์ง์ ํ ํฐ์ด๋ ๋ชจ์ ์ ๋ง๋ ๋ค.
- motion-to-text(M2T): ์์ง์ ์ํ์ค๋ฅผ ๋ณด๊ณ โ์ฌ๋์ด ์ ํํ ๋ค ์ฐฉ์งํ๋คโ์ฒ๋ผ ์ค๋ช ํ๋ค.
์ต๊ทผ ๋ชจ๋ธ๋ค์ ์ ํด์ง ๋ฐ์ดํฐ์ ์ ํ ๋ฒ์ ํ์ตํ๋ ํ๊ฒฝ์์๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์ธ๋ค. ํ์ง๋ง ์ค์ ์์ด์ ํธ๋ ์ ์ ๋ฐ์ดํฐ์ ์์์๋ง ์ด์ง ์๋๋ค. ๋ก๋ด, ๋์งํธ ํด๋จผ, AR/VR ์บ๋ฆญํฐ๋ ์๊ฐ์ด ์ง๋๋ฉฐ ์ ๋์, ์ ์ ์ค์ฒ, ๊ฐ์ธํ๋ ํ๋ ์์์ ๋ฐฐ์์ผ ํ๋ค. ์ด๋ ๋ชจ๋ธ ์ ์ฒด๋ฅผ ๋งค๋ฒ ๋ค์ ํ์ตํ๋ ๊ฒ์ ๋น์ฉ์ด ํฌ๊ณ , ๋จ์ํ ์ด์ด์ fine-tuningํ๋ฉด ์ ๊ณผ์ ๊ฐ ์ด์ ๊ณผ์ ๋ฅผ ๋ฎ์ด์ฐ๋ catastrophic forgetting์ด ์๊ธด๋ค.
์ด ๋ ผ๋ฌธ์ด ๋ณด๋ ํต์ฌ ์ํฉ์ โ๊ณผ์ ๋ ์์๋๋ก ๋ค์ด์ค์ง๋ง, ์ถ๋ก ์์ ์๋ ํ์ฌ ์ ๋ ฅ์ด ์ด๋ ๊ณผ์ ์ ์ํ๋์ง ์๋ ค์ฃผ์ง ์๋โ ๊ฒฝ์ฐ๋ค. ๋ ผ๋ฌธ์์๋ ์ด๋ฅผ task-incremental learning๊ณผ task-agnostic inference๊ฐ ๊ฒฐํฉ๋ ๋ฐฐ์น๋ก ๋ค๋ฃฌ๋ค.
ํต์ฌ ์์ด๋์ด
๋ ผ๋ฌธ์ Motion-Agent ๊ณ์ด์ MotionLLM์ ๊ธฐ๋ฐ์ผ๋ก ํ๋ค. Gemma-2-2B LLM ๋ฐฑ๋ณธ๊ณผ VQ-VAE ๊ธฐ๋ฐ ๋ชจ์ ํ ํฌ๋์ด์ /๋์ฝ๋๋ฅผ ์ฌ์ฉํ๊ณ , ๋ชจ์ ์ ํน์ ํ ํฐ ์ํ์ค์ฒ๋ผ ๋ค๋ฃฌ๋ค. ๋ฐฑ๋ณธ์ ํฌ๊ฒ ๊ณ ์ ํ ์ฑ LoRA ์ด๋ํฐ๋ก ๊ณผ์ ๋ณ ๋ณํ๋ฅผ ํ์ตํ๋ค.
ํต์ฌ ์์ด๋์ด๋ ์ธ ๊ฐ์ง๋ค.
-
๊ณผ์ ๋ณ LoRA ์ ๋ฌธ๊ฐ๋ฅผ ๋ฐ๋ก ๋๋ค.
ํ๋์ LoRA ์ด๋ํฐ๋ฅผ ๊ณ์ ๋ฎ์ด์ฐ๋ ๋์ , ์ ๊ณผ์ ๊ฐ ๋ค์ด์ฌ ๋๋ง๋ค ํด๋น ๊ณผ์ ์ LoRA ์ ๋ฌธ๊ฐ๋ฅผ ๋ง๋ ๋ค. ์ด๋ ๊ฒ ํ๋ฉด ์ ํ์ต์ด ์ด์ ์ ๋ฌธ๊ฐ๋ฅผ ์ง์ ์์ ํ์ง ์์ผ๋ฏ๋ก ๊ฐ์ญ์ ์ค์ผ ์ ์๋ค. -
O-LoRA๋ก ์ ๋ฌธ๊ฐ ์ฌ์ด์ ์ ๋ฐ์ดํธ ๋ฐฉํฅ์ ๋ถ๋ฆฌํ๋ค.
O-LoRA๋ ์ LoRA ์ ๋ฐ์ดํธ๊ฐ ์ด์ ๊ณผ์ ์ ์ ๋ฐ์ดํธ์ ๊ฐ๋ฅํ ํ ์ง๊ตํ๋๋ก ์ ์ฝ์ ๋๋ค. ๋ ผ๋ฌธ์ ์ด ์ ์ฝ์ด ๋ชจ๋ ์งํ์์ ํญ์ ์ด๊ธฐ๋ ๊ฒ์ ์๋์ง๋ง, ํนํ ๋ง๊ฐ์ ์ค์ด๋ ๋ฐฉํฅ์์๋ ๋์์ด ๋๋ค๊ณ ๋ณด๊ณ ํ๋ค. -
์คํ ์ธ์ฝ๋ ๋ผ์ฐํฐ๋ก ์ถ๋ก ์ ์ ๋ฌธ๊ฐ๋ฅผ ๊ณ ๋ฅธ๋ค.
์ค์ ์์๋ โ์ด ์ ๋ ฅ์ ๋ฌ๋ฆฌ๊ธฐ ๊ณผ์ ๋คโ ๊ฐ์ ์ ๋ต ๊ณผ์ ๋ผ๋ฒจ์ด ์๋ค. ๋ ผ๋ฌธ์ ๊ฐ ๊ณผ์ ๋ง๋ค ์์ ์คํ ์ธ์ฝ๋ ๋ผ์ฐํฐ๋ฅผ ํ์ต์ํค๊ณ , ์ ๋ ฅ ์๋ฒ ๋ฉ์ ๊ฐ์ฅ ์ ์ฌ๊ตฌ์ฑํ๋ ๋ผ์ฐํฐ์ ์ ๋ฌธ๊ฐ๋ฅผ ์ ํํ๋ค. ์ฆ, ๋ผ์ฐํฐ์ ์ฌ๊ตฌ์ฑ ์ค์ฐจ๋ฅผ ์ด์ฉํด ์ด๋ค LoRA ์ ๋ฌธ๊ฐ๋ฅผ ์ธ์ง ๊ณ ๋ฅธ๋ค.
๋ถ๋ก์ Figure 1์ ์ด ๊ตฌ์กฐ๋ฅผ ๋์ํํ๋ค. ํ์ต ๋จ๊ณ์์๋ ์ ๊ณผ์ ๊ฐ ๋ค์ด์ฌ ๋๋ง๋ค LoRA ์ ๋ฌธ๊ฐ์ ํด๋น ๋ผ์ฐํฐ๋ฅผ ์ถ๊ฐํ๊ณ , ์ถ๋ก ๋จ๊ณ์์๋ ์ ๋ ฅ ์๋ฒ ๋ฉ์ ์ฌ๋ฌ ๋ผ์ฐํฐ์ ๋ฃ์ด ๊ฐ์ฅ ์ ํฉํ ์ ๋ฌธ๊ฐ ํ๋๋ฅผ ๊ณ ๋ฅธ๋ค. ๊ณต๊ฐ ํ์ด์ง์๋ ์๋ณธ ๊ทธ๋ฆผ์ ๊ทธ๋๋ก ์ฃ์ง ์์์ง๋ง, ์ค์ํ ๋ฉ์์ง๋ โ์ ๋ฌธ๊ฐ๋ฅผ ์๊ธฐ๋ณด๋ค ์ํฉ์ ๋ง๋ ํ๋๋ฅผ ๊ณ ๋ฅด๋ ๊ตฌ์กฐโ๋ผ๋ ์ ์ด๋ค.
๋ฐฉ๋ฒ๊ณผ ์คํ ์ค์
๋ ผ๋ฌธ์ HumanML3D ๋ฐ์ดํฐ์ ์์ ์์ฐ์ด ์ค๋ช ์ ์๋ฏธ์ ์ผ๋ก ํด๋ฌ์คํฐ๋งํด 5๊ฐ ๊ณผ์ ๋ฅผ ๋ง๋ ๋ค. ๊ฐ ๊ณผ์ ๋ 1,140๊ฐ ์ํ๋ก ๊ท ํ์ ๋ง์ถ๊ณ , train/validation/test๋ฅผ 800/170/170์ผ๋ก ๋๋๋ค.
์คํ ๊ณผ์ ๋ ๋ค์๊ณผ ๊ฐ๋ค.
| ๊ณผ์ | ๋ฒ์ฃผ | ๋ํ ํค์๋ |
|---|---|---|
| 1 | Running | runs, jogs, forward |
| 2 | Arms/Hands | left, right, hand, raises |
| 3 | Walking | walks, steps, turns |
| 4 | Jumping/Kicking | jumps, kicks, jumping |
| 5 | Sit/Stand | sits, stands, knees |
๋น๊ตํ ๋ฐฉ๋ฒ์ ๋ค์๊ณผ ๊ฐ๋ค.
- Multi-task: ๋ชจ๋ ๊ณผ์ ๋ฐ์ดํฐ๋ฅผ ํ ๋ฒ์ ํ์ตํ๋ ์ํ์ ์ญํ ์ ๊ธฐ์ค.
- Transfer: ํ๋์ LoRA ์ด๋ํฐ๋ฅผ ์์ฐจ์ ์ผ๋ก ๊ณ์ fine-tuningํ๋ ๊ธฐ์ค์ .
- O-LoRA-PM: ๊ณผ์ ๋ง๋ค O-LoRA๋ฅผ ํ์ตํ ๋ค ๋ฐฑ๋ณธ์ ์ ์ง์ ์ผ๋ก ๋ณํฉํ๋ ๋ฐฉ์.
- LORA-MOE / O-LORA-MOE: ๊ณผ์ ๋ณ LoRA ์ ๋ฌธ๊ฐ๋ฅผ ๋๊ณ ๋ผ์ฐํฐ๋ก ํ๋๋ฅผ ๊ณ ๋ฅด๋ ๋ฐฉ์.
- LORA-MOE-K / O-LORA-MOE-K: ํ๋๊ฐ ์๋๋ผ Top-K ์ ๋ฌธ๊ฐ๋ฅผ ์์ด ์ฐ๋ ๋ฐฉ์.
ํ๊ฐ๋ ๋ ์ธต์๋ก ์ด๋ฃจ์ด์ง๋ค. ๋จผ์ teacher-forced token accuracy๋ก ์ง์ ํ์ต์ ACC, BWT, FWT๋ฅผ ๊ณ์ฐํ๋ค. ๊ทธ๋ค์ T2M์๋ FID, R-Precision, Diversity, MM-Dist๋ฅผ ๋ณด๊ณ , M2T์๋ BLEU, ROUGE-L, CIDEr, BERTScore๋ฅผ ๋ณธ๋ค. ๋ ผ๋ฌธ์ ์ด ๋ ์ธต์๊ฐ ํญ์ ๊ฐ์ ๊ฒฐ๋ก ์ ์ฃผ์ง ์๋๋ค๋ ์ ์ ์ค์ํ๊ฒ ๋ค๋ฃฌ๋ค.
์ฃผ์ ๊ฒฐ๊ณผ
1. O-LORA-MOE๋ ๊ฑฐ์ 0์ ๊ฐ๊น์ด ๋ง๊ฐ์ ๋ณด์๋ค
ํ ํฐ ์ ํ๋ ๊ธฐ์ค์์ O-LORA-MOE๋ T2M backward transfer๊ฐ +0.07pp, M2T backward transfer๊ฐ -0.32pp๋ก ๋ณด๊ณ ๋๋ค. ์ด๋ ์์ฐจ ํ์ต ํ ์ด์ ๊ณผ์ ์ฑ๋ฅ์ด ๊ฑฐ์ ๋ฌด๋์ง์ง ์์๋ค๋ ๋ป์ด๋ค. ๋ฐ๋ฉด ๋จ์ Transfer๋ T2M -5.18pp, M2T -8.15pp์๊ณ , O-LoRA-PM๋ T2M -6.00pp, M2T -9.04pp๋ก ์๋นํ ๋ง๊ฐ์ ๋ณด์๋ค.
์ด ๊ฒฐ๊ณผ๋ โ์ ์ง์์ ํ๋์ ๊ณต์ ์ด๋ํฐ์ ๊ณ์ ๋ฎ์ด์ฐ๋ ๋ฐฉ์โ๋ณด๋ค โ์ ๋ฌธ๊ฐ๋ฅผ ๋ณด์กดํ๊ณ ๋ผ์ฐํ ์ผ๋ก ์ ํํ๋ ๋ฐฉ์โ์ด ์์ ์ฑ ์ธก๋ฉด์์ ์ ๋ฆฌํ๋ค๋ ํด์์ ๊ฐ๋ฅํ๊ฒ ํ๋ค.
2. ๋ชจ์ ์์ฑ ํ์ง์์๋ hard routing์ด soft blending๋ณด๋ค ๋์๋ค
T2M ์ต์ข ์์ฑ ํ์ง์์ O-LORA-MOE๋ continual learning ๋ฐฉ๋ฒ ์ค FID 10.39, Diversity 7.19, MM-Dist 4.70์ผ๋ก ๊ฐ์ฅ ์ข์ ๊ฐ์ ๋ณด์๋ค. Multi-task๋ณด๋ค FID์ retrieval ๊ณ์ด ์งํ๋ ๋ฎ์์ง๋ง, ์ง์ ํ์ต ๋ฐฉ๋ฒ๋ผ๋ฆฌ ๋น๊ตํ๋ฉด ๊ฐ์ฅ ์์ ์ ์ธ ์ชฝ์ ๊ฐ๊น์ ๋ค.
ํฅ๋ฏธ๋ก์ด ์ ์ Top-K๋ก ์ฌ๋ฌ ์ ๋ฌธ๊ฐ๋ฅผ ์๋ ๋ฐฉ์์ด ํญ์ ์ข์ง ์์๋ค๋ ๊ฒ์ด๋ค. ํนํ ์์ฑ ํ์ง์์๋ K๊ฐ 2 ์ด์์ผ ๋ ์ฑ๋ฅ์ด ํฌ๊ฒ ํ๋ค๋ ธ๋ค. ๋ ผ๋ฌธ์ ๋ผ์ฐํฐ์ ์ ์๊ฐ โ์ฌ๋ฌ ์ ๋ฌธ๊ฐ๋ฅผ ๋ถ๋๋ฝ๊ฒ ์๋ ๊ฐ์ค์นโ๋ก ์ ๋ณด์ ๋ ๊ฐ์ด ์๋๋ฉฐ, autoregressive decoding์์๋ ์กฐ๊ธ๋ง ์๋ชป ์์ฌ๋ ์ถ๋ ฅ์ด ๋๋ฆฌํํธํ ์ ์๋ค๊ณ ์ค๋ช ํ๋ค.
3. M2T captioning์์๋ LORA-MOE๊ฐ ๊ฐํ๋ค
M2T ์์ฐ์ด ์์ฑ ์งํ์์๋ LORA-MOE๊ฐ BLEU-1 45.93, BLEU-4 11.26, ROUGE-L 37.15, CIDEr 30.77, BERTScore 88.96์ผ๋ก ๊ฐ์ฅ ๊ฐํ ๊ฐ์ ๋ณด์๋ค. ์ด ์งํ๋ค์์๋ Multi-task๋ณด๋ค๋ ๋๊ฒ ๋์จ๋ค.
๋ค๋ง ์ด๊ฒ์ โํญ์ LORA-MOE๊ฐ O-LORA-MOE๋ณด๋ค ๋ซ๋คโ๋ก ์ฝ์ผ๋ฉด ์ ๋๋ค. ๋ ผ๋ฌธ ์ ์ฒด์ ๊ด์ฌ์ ์๋ฐฉํฅ ์ฑ๋ฅ, ๋ง๊ฐ, ๋ผ์ฐํ ์์ ์ฑ, ์์ฑ ํ์ง์ ํจ๊ป ๋ณด๋ ๊ฒ์ด๋ค. O-LoRA๋ ํนํ ๋ง๊ฐ ์ต์ ์ ์ ๋ฌธ๊ฐ ๋ถ๋ฆฌ ์ธก๋ฉด์์ ์ฅ์ ์ด ์์ง๋ง, ํน์ caption ํ์ง ์งํ์์๋ ๋น์ง๊ต LORA-MOE๊ฐ ๋ ๋์ ๊ฒฝ์ฐ๊ฐ ์์๋ค.
4. ๋ผ์ฐํฐ ์ ํ๋๊ฐ ์๋ฒฝํ์ง ์์๋ end-to-end ์ฑ๋ฅ์ ์ ์ง๋๋ค
O-LORA-MOE์ ์ต์ข ๋ผ์ฐํ ์ ํ๋๋ ํ๊ท ์ ์ผ๋ก T2M 75.5%, M2T 78.3% ์์ค์ด์๋ค. ๊ณผ์ ๋ณ๋ก๋ Walking๊ณผ Sit/Stand์ฒ๋ผ ๋ผ์ฐํ ์ด ๋ ์ด๋ ค์ด ๋ฒ์ฃผ๋ ์์๋ค.
๊ทธ๋ฐ๋ฐ๋ ์ ์ฒด ์ฑ๋ฅ์ด ํฌ๊ฒ ๋ฌด๋์ง์ง ์์ ๊ฒ์ ์ค์ํ๋ค. ์ ๋ฌธ๊ฐ ์ ํ์ด ์๋ฒฝํ์ง ์์๋, hard routing๊ณผ fallback ๊ตฌ์กฐ๊ฐ ์ด๋ ์ ๋ ์ค์ฉ์ ์ธ task-agnostic inference๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ๋ค๋ ์ ํธ๋ก ๋ณผ ์ ์๋ค.
5. token accuracy๋ง์ผ๋ก ์์ฑ ํ์ง์ ํ๋จํ๊ธฐ ์ด๋ ต๋ค
๋ ผ๋ฌธ์ token-level continual learning ์งํ์ ์ค์ ์์ฑ ํ์ง์ด ์ด๊ธ๋ ์ ์์์ ๊ฐ์กฐํ๋ค. ์๋ฅผ ๋ค์ด Multi-task๋ M2T token accuracy์์๋ ๊ฐํ์ง๋ง, ์ผ๋ถ M2T ์์ฑ ํ์ง ์งํ์์๋ LORA-MOE์ O-LORA-MOE๊ฐ ๋ ๋์ ๊ฐ์ ๋ณด์ธ๋ค. ๋ฐ๋๋ก Top-K ํผํฉ ๋ฐฉ์์ ์ผ๋ถ token accuracy๋ฅผ ๋์ด์ง๋ง ์ค์ sequence generation์์๋ ํฌ๊ฒ ๋๋น ์ง ์ ์๋ค.
๋ฐ๋ผ์ motion-language ์ง์ ํ์ต์์๋ โ๋ค์ ํ ํฐ์ ์ผ๋ง๋ ์ ๋งํ๋๊ฐโ์ โ์ค์ ๋ก ์ธ ๋งํ ์์ง์์ด๋ ์ค๋ช ์ ์์ฑํ๋๊ฐโ๋ฅผ ๋ถ๋ฆฌํด ํ๊ฐํด์ผ ํ๋ค.
ํ๊ณ
๋ ผ๋ฌธ์ด ์ง์ ๋ฐํ๋ ํ๊ณ๋ ๊ฝค ๋ช ํํ๋ค.
- ์คํ์ HumanML3D์์ ๋ง๋ 5๊ฐ ์๋ฏธ ํด๋ฌ์คํฐ ๊ณผ์ ์ ํ์ ๋๋ค.
- ๊ณผ์ ์์๋ ํด๋ฌ์คํฐ ์ค์ฌ ๊ฐ ๊ฑฐ๋ฆฌ๋ฅผ ์ด์ฉํด ์ ํ ํ๋์ ๊ณ ์ ์์๋ค. ๋ค๋ฅธ ์์์์๋ ๊ฐ์ ๊ฒฐ๋ก ์ด ์ ์ง๋๋์ง๋ ์ถ๊ฐ ์ฐ๊ตฌ๊ฐ ํ์ํ๋ค.
- ๋ผ์ฐํฐ๋ ํ๊ท ํ๋ง๋ ์ ๋ ฅ ์๋ฒ ๋ฉ์ ์ฌ์ฉํ๋ค. ๋ ํ๋ถํ ๋ผ์ฐํ ์ ํธ๋ ํ์ต๋ task descriptor๋ฅผ ์ฐ๋ฉด ๊ฒฐ๊ณผ๊ฐ ๋ฌ๋ผ์ง ์ ์๋ค.
- ์๋ฏธ ๊ธฐ๋ฐ ํด๋ฌ์คํฐ๋ ํด์ํ๊ธฐ ์ฝ์ง๋ง, ์ค์ ์ด๋ํ์ ๋์ ๋ฒ์ฃผ์ ์์ ํ ์ผ์นํ์ง ์์ ์ ์๋ค.
- ์ ์๋ค์ ์ฝ๋์ ๋ฒค์น๋งํฌ ๊ตฌ์ฑ์ ๊ณต๊ฐํ ์์ ์ด๋ผ๊ณ ์ฐ์ง๋ง, ์ด ๋ฌธ์๋ฅผ ์์ฑํ ์์ ์ ๋ ผ๋ฌธ ๋ณธ๋ฌธ ๊ธฐ์ค์ผ๋ก๋ โupon publicationโ์ด๋ผ๊ณ ๋์ด ์๋ค.
์ ์ค์ํ๊ฐ
์ด ๋ ผ๋ฌธ์ ๊ฐ์น๋ ๋จ์ํ โLoRA๋ฅผ motion generation์ ์ ์ฉํ๋คโ๋ ๋ฐ ์์ง ์๋ค. ๋ ์ค์ํ ์ ์ motion-language agent๋ฅผ ์ ์ ๋ชจ๋ธ์ด ์๋๋ผ ๊ณ์ ๋ฐฐ์ฐ๋ ์์คํ ์ผ๋ก ๋ค๋ฃจ์๋ค๋ ๊ฒ์ด๋ค.
์ฅ๊ธฐ์ ์ผ๋ก ๋ก๋ด์ด๋ ๊ฐ์ ์์ด์ ํธ๊ฐ ํ์ค ํ๊ฒฝ์ ๋ค์ด๊ฐ๋ฉด, ๋ชจ๋ ๋์๊ณผ ๋ชจ๋ ์ํธ์์ฉ์ ์ฒ์๋ถํฐ ์๊ณ ์์ ์ ์๋ค. ์ ์คํฌ์ธ ๋์, ํน์ ์ฌ์ฉ์์ ์ ์ค์ฒ, ์ ๋ฌด ํ์ฅ์ ๋ฐ๋ณต ํ๋, ๋ก๋ด ์กฐ์ ๊ธฐ์ ์ ๋์ค์ ์ถ๊ฐํด์ผ ํ๋ค. ์ด๋ ๋ชจ๋ธ ์ ์ฒด๋ฅผ ๋งค๋ฒ ๋ค์ ํ์ตํ์ง ์๊ณ ๋ ์ ๋ฅ๋ ฅ์ ๋ถ์ด๊ณ , ์ด์ ๋ฅ๋ ฅ์ ๋ณด์กดํ๋ฉฐ, ์ ๋ ฅ์ ๋ง๋ ๋ฅ๋ ฅ์ ์๋์ผ๋ก ๊ณ ๋ฅด๋ ๊ตฌ์กฐ๊ฐ ํ์ํ๋ค.
์ด ๋ ผ๋ฌธ์ ๊ทธ ๋ฐฉํฅ์ ์ด๊ธฐ ์คํ์ผ๋ก ๋ณผ ์ ์๋ค. ํนํ โ์ ๋ฌธ๊ฐ๋ฅผ ์ฌ๋ฌ ๊ฐ ๋ง๋ค๊ณ ์์ผ๋ฉด ๋ ์ข์ ๊ฒโ์ด๋ผ๋ ์ง๊ด๊ณผ ๋ฌ๋ฆฌ, ์ด ์ค์ ์์๋ ์ ๋ฌธ๊ฐ ๊ฒฉ๋ฆฌ๋ฅผ ์ ์งํ๊ณ ํ๋๋ฅผ ๊ณ ๋ฅด๋ hard routing์ด ๋ ์์ ์ ์ด์๋ค๋ ๊ฒฐ๊ณผ๊ฐ ํฅ๋ฏธ๋กญ๋ค.
ํท๊ฐ๋ฆฌ์ง ๋ง์์ผ ํ ์
- ์ด ๋ ผ๋ฌธ์ ๋ฒ์ฉ ๋ก๋ด ์ ์ด๊ธฐ๋ฅผ ์์ฑํ๋ค๋ ๋ ผ๋ฌธ์ด ์๋๋ค. HumanML3D ๊ธฐ๋ฐ motion-language ๋ฒค์น๋งํฌ์์ ์ง์ ํ์ต ๊ตฌ์กฐ๋ฅผ ๊ฒ์ฆํ ์ฐ๊ตฌ์ ๊ฐ๊น๋ค.
- O-LORA-MOE๊ฐ ๋ชจ๋ ์งํ์์ ์ต๊ณ ๋ผ๋ ๋ป์ ์๋๋ค. ๋ง๊ฐ ์ต์ ์ T2M ์์ฑ ํ์ง์์๋ ๊ฐํ์ง๋ง, M2T caption ํ์ง์์๋ LORA-MOE๊ฐ ๋ ์ข์ ์งํ๋ฅผ ๋ณด์ธ๋ค.
- Top-K ์ ๋ฌธ๊ฐ ํผํฉ์ด token accuracy๋ฅผ ๋์ผ ์๋ ์์ง๋ง, ์ค์ ์์ฑ ํ์ง์์๋ ๋๋น ์ง ์ ์๋ค. ์ด ๋ ผ๋ฌธ์์๋ โ์ ๋ฌธ๊ฐ๋ฅผ ์ ๋นํ ์๊ธฐโ๋ณด๋ค โํ๋๋ฅผ ์ ๊ณ ๋ฅด๊ธฐโ๊ฐ ๋ ์์ ์ ์ธ ๊ฒฐ๋ก ์ ๊ฐ๊น๋ค.
- task-agnostic inference๋ ๊ณผ์ ๋ผ๋ฒจ์ด ์๋ค๋ ๋ป์ด์ง, ๋ชจ๋ธ์ด ์์ ํ ์ด๋ฆฐ ์ธ๊ณ์ ๋ชจ๋ ๋์์ ์ดํดํ๋ค๋ ๋ป์ ์๋๋ค. ๋ ผ๋ฌธ์ unseen detection๊ณผ fallback์ ๋์ง๋ง, ์คํ ๋ฒ์๋ ์ ํ์ ์ด๋ค.