์ด ๋…ผ๋ฌธ์€ ์‚ฌ๋žŒ์˜ ์›€์ง์ž„๊ณผ ์ž์—ฐ์–ด๋ฅผ ํ•จ๊ป˜ ๋‹ค๋ฃจ๋Š” ์—์ด์ „ํŠธ๊ฐ€ ์ƒˆ ๋™์ž‘ ๋ฒ”์ฃผ๋ฅผ ์ˆœ์ฐจ์ ์œผ๋กœ ๋ฐฐ์›Œ์•ผ ํ•  ๋•Œ ์ƒ๊ธฐ๋Š” ๋ฌธ์ œ๋ฅผ ๋‹ค๋ฃฌ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ๊ฐ€์ƒ ์บ๋ฆญํ„ฐ๋‚˜ ๋กœ๋ด‡์ด ์ฒ˜์Œ์—๋Š” ๋‹ฌ๋ฆฌ๊ธฐ ๋™์ž‘์„ ๋ฐฐ์šฐ๊ณ , ๋‚˜์ค‘์—๋Š” ์†๋™์ž‘์ด๋‚˜ ์•‰๊ณ  ์„œ๋Š” ๋™์ž‘์„ ์ถ”๊ฐ€๋กœ ๋ฐฐ์šด๋‹ค๊ณ  ํ•ด๋ณด์ž. ์ƒˆ ๊ธฐ์ˆ ์„ ๋ฐฐ์šธ ๋•Œ ์ด์ „ ๊ธฐ์ˆ ์„ ์žŠ์–ด๋ฒ„๋ฆฌ๋ฉด ์‹ค์ œ ํ™˜๊ฒฝ์—์„œ ์˜ค๋ž˜ ์ž‘๋™ํ•˜๋Š” ์—์ด์ „ํŠธ๊ฐ€ ๋˜๊ธฐ ์–ด๋ ต๋‹ค. ๋…ผ๋ฌธ์€ ์ด ๋ฌธ์ œ๋ฅผ โ€œ์–‘๋ฐฉํ–ฅ motion-language ์—์ด์ „ํŠธโ€์˜ ์ง€์† ํ•™์Šต ๋ฌธ์ œ๋กœ ๋†“๊ณ , LoRA ๊ธฐ๋ฐ˜ ์ „๋ฌธ๊ฐ€๋ฅผ ๋‚˜๋ˆ„์–ด ๋ณด๊ด€ํ•˜๊ณ  ๋ผ์šฐํ„ฐ๋กœ ์„ ํƒํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์‹คํ—˜ํ•œ๋‹ค.

ํ•œ ์ค„๋กœ ๋งํ•˜๋ฉด

์ •์ ์ธ motion-language ๋ชจ๋ธ์„ ์ƒˆ ์›€์ง์ž„ ๋ฒ”์ฃผ๋ฅผ ๊ณ„์† ๋ฐฐ์šธ ์ˆ˜ ์žˆ๋Š” ์—์ด์ „ํŠธ๋กœ ๋งŒ๋“ค๊ธฐ ์œ„ํ•ด, ๊ณผ์ œ๋ณ„ LoRA ์ „๋ฌธ๊ฐ€์™€ ์ž๋™ ๋ผ์šฐํŒ…์„ ๊ฒฐํ•ฉํ•˜๋ฉด ๋ง๊ฐ์„ ํฌ๊ฒŒ ์ค„์ผ ์ˆ˜ ์žˆ๋‹ค๋Š” ์‹คํ—˜ ๋…ผ๋ฌธ์ด๋‹ค.

๋ฐฐ๊ฒฝ: ์™œ ์ด ๋ฌธ์ œ๊ฐ€ ์ค‘์š”ํ•œ๊ฐ€

motion-language ๋ชจ๋ธ์€ ํฌ๊ฒŒ ๋‘ ๋ฐฉํ–ฅ์˜ ์ผ์„ ํ•œ๋‹ค.

  • text-to-motion(T2M): โ€œ์•ž์œผ๋กœ ๊ฑธ์–ด๊ฐ€๋‹ค๊ฐ€ ์˜ค๋ฅธ์†์„ ๋“ ๋‹คโ€ ๊ฐ™์€ ๋ฌธ์žฅ์„ ๋ฐ›์•„ ์›€์ง์ž„ ํ† ํฐ์ด๋‚˜ ๋ชจ์…˜์„ ๋งŒ๋“ ๋‹ค.
  • motion-to-text(M2T): ์›€์ง์ž„ ์‹œํ€€์Šค๋ฅผ ๋ณด๊ณ  โ€œ์‚ฌ๋žŒ์ด ์ ํ”„ํ•œ ๋’ค ์ฐฉ์ง€ํ•œ๋‹คโ€์ฒ˜๋Ÿผ ์„ค๋ช…ํ•œ๋‹ค.

์ตœ๊ทผ ๋ชจ๋ธ๋“ค์€ ์ •ํ•ด์ง„ ๋ฐ์ดํ„ฐ์…‹์„ ํ•œ ๋ฒˆ์— ํ•™์Šตํ•˜๋Š” ํ™˜๊ฒฝ์—์„œ๋Š” ์ข‹์€ ์„ฑ๋Šฅ์„ ๋ณด์ธ๋‹ค. ํ•˜์ง€๋งŒ ์‹ค์ œ ์—์ด์ „ํŠธ๋Š” ์ •์  ๋ฐ์ดํ„ฐ์…‹ ์•ˆ์—์„œ๋งŒ ์‚ด์ง€ ์•Š๋Š”๋‹ค. ๋กœ๋ด‡, ๋””์ง€ํ„ธ ํœด๋จผ, AR/VR ์บ๋ฆญํ„ฐ๋Š” ์‹œ๊ฐ„์ด ์ง€๋‚˜๋ฉฐ ์ƒˆ ๋™์ž‘, ์ƒˆ ์ œ์Šค์ฒ˜, ๊ฐœ์ธํ™”๋œ ํ–‰๋™ ์–‘์‹์„ ๋ฐฐ์›Œ์•ผ ํ•œ๋‹ค. ์ด๋•Œ ๋ชจ๋ธ ์ „์ฒด๋ฅผ ๋งค๋ฒˆ ๋‹ค์‹œ ํ•™์Šตํ•˜๋Š” ๊ฒƒ์€ ๋น„์šฉ์ด ํฌ๊ณ , ๋‹จ์ˆœํžˆ ์ด์–ด์„œ fine-tuningํ•˜๋ฉด ์ƒˆ ๊ณผ์ œ๊ฐ€ ์ด์ „ ๊ณผ์ œ๋ฅผ ๋ฎ์–ด์“ฐ๋Š” catastrophic forgetting์ด ์ƒ๊ธด๋‹ค.

์ด ๋…ผ๋ฌธ์ด ๋ณด๋Š” ํ•ต์‹ฌ ์ƒํ™ฉ์€ โ€œ๊ณผ์ œ๋Š” ์ˆœ์„œ๋Œ€๋กœ ๋“ค์–ด์˜ค์ง€๋งŒ, ์ถ”๋ก  ์‹œ์ ์—๋Š” ํ˜„์žฌ ์ž…๋ ฅ์ด ์–ด๋А ๊ณผ์ œ์— ์†ํ•˜๋Š”์ง€ ์•Œ๋ ค์ฃผ์ง€ ์•Š๋Š”โ€ ๊ฒฝ์šฐ๋‹ค. ๋…ผ๋ฌธ์—์„œ๋Š” ์ด๋ฅผ task-incremental learning๊ณผ task-agnostic inference๊ฐ€ ๊ฒฐํ•ฉ๋œ ๋ฐฐ์น˜๋กœ ๋‹ค๋ฃฌ๋‹ค.

ํ•ต์‹ฌ ์•„์ด๋””์–ด

๋…ผ๋ฌธ์€ Motion-Agent ๊ณ„์—ด์˜ MotionLLM์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•œ๋‹ค. Gemma-2-2B LLM ๋ฐฑ๋ณธ๊ณผ VQ-VAE ๊ธฐ๋ฐ˜ ๋ชจ์…˜ ํ† ํฌ๋‚˜์ด์ €/๋””์ฝ”๋”๋ฅผ ์‚ฌ์šฉํ•˜๊ณ , ๋ชจ์…˜์„ ํŠน์ˆ˜ ํ† ํฐ ์‹œํ€€์Šค์ฒ˜๋Ÿผ ๋‹ค๋ฃฌ๋‹ค. ๋ฐฑ๋ณธ์€ ํฌ๊ฒŒ ๊ณ ์ •ํ•œ ์ฑ„ LoRA ์–ด๋Œ‘ํ„ฐ๋กœ ๊ณผ์ œ๋ณ„ ๋ณ€ํ™”๋ฅผ ํ•™์Šตํ•œ๋‹ค.

ํ•ต์‹ฌ ์•„์ด๋””์–ด๋Š” ์„ธ ๊ฐ€์ง€๋‹ค.

  1. ๊ณผ์ œ๋ณ„ LoRA ์ „๋ฌธ๊ฐ€๋ฅผ ๋”ฐ๋กœ ๋‘”๋‹ค.
    ํ•˜๋‚˜์˜ LoRA ์–ด๋Œ‘ํ„ฐ๋ฅผ ๊ณ„์† ๋ฎ์–ด์“ฐ๋Š” ๋Œ€์‹ , ์ƒˆ ๊ณผ์ œ๊ฐ€ ๋“ค์–ด์˜ฌ ๋•Œ๋งˆ๋‹ค ํ•ด๋‹น ๊ณผ์ œ์˜ LoRA ์ „๋ฌธ๊ฐ€๋ฅผ ๋งŒ๋“ ๋‹ค. ์ด๋ ‡๊ฒŒ ํ•˜๋ฉด ์ƒˆ ํ•™์Šต์ด ์ด์ „ ์ „๋ฌธ๊ฐ€๋ฅผ ์ง์ ‘ ์ˆ˜์ •ํ•˜์ง€ ์•Š์œผ๋ฏ€๋กœ ๊ฐ„์„ญ์„ ์ค„์ผ ์ˆ˜ ์žˆ๋‹ค.

  2. O-LoRA๋กœ ์ „๋ฌธ๊ฐ€ ์‚ฌ์ด์˜ ์—…๋ฐ์ดํŠธ ๋ฐฉํ–ฅ์„ ๋ถ„๋ฆฌํ•œ๋‹ค.
    O-LoRA๋Š” ์ƒˆ LoRA ์—…๋ฐ์ดํŠธ๊ฐ€ ์ด์ „ ๊ณผ์ œ์˜ ์—…๋ฐ์ดํŠธ์™€ ๊ฐ€๋Šฅํ•œ ํ•œ ์ง๊ตํ•˜๋„๋ก ์ œ์•ฝ์„ ๋‘”๋‹ค. ๋…ผ๋ฌธ์€ ์ด ์ œ์•ฝ์ด ๋ชจ๋“  ์ง€ํ‘œ์—์„œ ํ•ญ์ƒ ์ด๊ธฐ๋Š” ๊ฒƒ์€ ์•„๋‹ˆ์ง€๋งŒ, ํŠนํžˆ ๋ง๊ฐ์„ ์ค„์ด๋Š” ๋ฐฉํ–ฅ์—์„œ๋Š” ๋„์›€์ด ๋œ๋‹ค๊ณ  ๋ณด๊ณ ํ•œ๋‹ค.

  3. ์˜คํ† ์ธ์ฝ”๋” ๋ผ์šฐํ„ฐ๋กœ ์ถ”๋ก  ์‹œ ์ „๋ฌธ๊ฐ€๋ฅผ ๊ณ ๋ฅธ๋‹ค.
    ์‹ค์ „์—์„œ๋Š” โ€œ์ด ์ž…๋ ฅ์€ ๋‹ฌ๋ฆฌ๊ธฐ ๊ณผ์ œ๋‹คโ€ ๊ฐ™์€ ์ •๋‹ต ๊ณผ์ œ ๋ผ๋ฒจ์ด ์—†๋‹ค. ๋…ผ๋ฌธ์€ ๊ฐ ๊ณผ์ œ๋งˆ๋‹ค ์ž‘์€ ์˜คํ† ์ธ์ฝ”๋” ๋ผ์šฐํ„ฐ๋ฅผ ํ•™์Šต์‹œํ‚ค๊ณ , ์ž…๋ ฅ ์ž„๋ฒ ๋”ฉ์„ ๊ฐ€์žฅ ์ž˜ ์žฌ๊ตฌ์„ฑํ•˜๋Š” ๋ผ์šฐํ„ฐ์˜ ์ „๋ฌธ๊ฐ€๋ฅผ ์„ ํƒํ•œ๋‹ค. ์ฆ‰, ๋ผ์šฐํ„ฐ์˜ ์žฌ๊ตฌ์„ฑ ์˜ค์ฐจ๋ฅผ ์ด์šฉํ•ด ์–ด๋–ค LoRA ์ „๋ฌธ๊ฐ€๋ฅผ ์“ธ์ง€ ๊ณ ๋ฅธ๋‹ค.

๋ถ€๋ก์˜ Figure 1์€ ์ด ๊ตฌ์กฐ๋ฅผ ๋„์‹ํ™”ํ•œ๋‹ค. ํ•™์Šต ๋‹จ๊ณ„์—์„œ๋Š” ์ƒˆ ๊ณผ์ œ๊ฐ€ ๋“ค์–ด์˜ฌ ๋•Œ๋งˆ๋‹ค LoRA ์ „๋ฌธ๊ฐ€์™€ ํ•ด๋‹น ๋ผ์šฐํ„ฐ๋ฅผ ์ถ”๊ฐ€ํ•˜๊ณ , ์ถ”๋ก  ๋‹จ๊ณ„์—์„œ๋Š” ์ž…๋ ฅ ์ž„๋ฒ ๋”ฉ์„ ์—ฌ๋Ÿฌ ๋ผ์šฐํ„ฐ์— ๋„ฃ์–ด ๊ฐ€์žฅ ์ ํ•ฉํ•œ ์ „๋ฌธ๊ฐ€ ํ•˜๋‚˜๋ฅผ ๊ณ ๋ฅธ๋‹ค. ๊ณต๊ฐœ ํŽ˜์ด์ง€์—๋Š” ์›๋ณธ ๊ทธ๋ฆผ์„ ๊ทธ๋Œ€๋กœ ์‹ฃ์ง€ ์•Š์•˜์ง€๋งŒ, ์ค‘์š”ํ•œ ๋ฉ”์‹œ์ง€๋Š” โ€œ์ „๋ฌธ๊ฐ€๋ฅผ ์„ž๊ธฐ๋ณด๋‹ค ์ƒํ™ฉ์— ๋งž๋Š” ํ•˜๋‚˜๋ฅผ ๊ณ ๋ฅด๋Š” ๊ตฌ์กฐโ€๋ผ๋Š” ์ ์ด๋‹ค.

๋ฐฉ๋ฒ•๊ณผ ์‹คํ—˜ ์„ค์ •

๋…ผ๋ฌธ์€ HumanML3D ๋ฐ์ดํ„ฐ์…‹์—์„œ ์ž์—ฐ์–ด ์„ค๋ช…์„ ์˜๋ฏธ์ ์œผ๋กœ ํด๋Ÿฌ์Šคํ„ฐ๋งํ•ด 5๊ฐœ ๊ณผ์ œ๋ฅผ ๋งŒ๋“ ๋‹ค. ๊ฐ ๊ณผ์ œ๋Š” 1,140๊ฐœ ์ƒ˜ํ”Œ๋กœ ๊ท ํ˜•์„ ๋งž์ถ”๊ณ , train/validation/test๋ฅผ 800/170/170์œผ๋กœ ๋‚˜๋ˆˆ๋‹ค.

์‹คํ—˜ ๊ณผ์ œ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

๊ณผ์ œ๋ฒ”์ฃผ๋Œ€ํ‘œ ํ‚ค์›Œ๋“œ
1Runningruns, jogs, forward
2Arms/Handsleft, right, hand, raises
3Walkingwalks, steps, turns
4Jumping/Kickingjumps, kicks, jumping
5Sit/Standsits, stands, knees

๋น„๊ตํ•œ ๋ฐฉ๋ฒ•์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

  • Multi-task: ๋ชจ๋“  ๊ณผ์ œ ๋ฐ์ดํ„ฐ๋ฅผ ํ•œ ๋ฒˆ์— ํ•™์Šตํ•˜๋Š” ์ƒํ•œ์„  ์—ญํ• ์˜ ๊ธฐ์ค€.
  • Transfer: ํ•˜๋‚˜์˜ LoRA ์–ด๋Œ‘ํ„ฐ๋ฅผ ์ˆœ์ฐจ์ ์œผ๋กœ ๊ณ„์† fine-tuningํ•˜๋Š” ๊ธฐ์ค€์„ .
  • O-LoRA-PM: ๊ณผ์ œ๋งˆ๋‹ค O-LoRA๋ฅผ ํ•™์Šตํ•œ ๋’ค ๋ฐฑ๋ณธ์— ์ ์ง„์ ์œผ๋กœ ๋ณ‘ํ•ฉํ•˜๋Š” ๋ฐฉ์‹.
  • LORA-MOE / O-LORA-MOE: ๊ณผ์ œ๋ณ„ LoRA ์ „๋ฌธ๊ฐ€๋ฅผ ๋‘๊ณ  ๋ผ์šฐํ„ฐ๋กœ ํ•˜๋‚˜๋ฅผ ๊ณ ๋ฅด๋Š” ๋ฐฉ์‹.
  • LORA-MOE-K / O-LORA-MOE-K: ํ•˜๋‚˜๊ฐ€ ์•„๋‹ˆ๋ผ Top-K ์ „๋ฌธ๊ฐ€๋ฅผ ์„ž์–ด ์“ฐ๋Š” ๋ฐฉ์‹.

ํ‰๊ฐ€๋Š” ๋‘ ์ธต์œ„๋กœ ์ด๋ฃจ์–ด์ง„๋‹ค. ๋จผ์ € teacher-forced token accuracy๋กœ ์ง€์† ํ•™์Šต์˜ ACC, BWT, FWT๋ฅผ ๊ณ„์‚ฐํ•œ๋‹ค. ๊ทธ๋‹ค์Œ T2M์—๋Š” FID, R-Precision, Diversity, MM-Dist๋ฅผ ๋ณด๊ณ , M2T์—๋Š” BLEU, ROUGE-L, CIDEr, BERTScore๋ฅผ ๋ณธ๋‹ค. ๋…ผ๋ฌธ์€ ์ด ๋‘ ์ธต์œ„๊ฐ€ ํ•ญ์ƒ ๊ฐ™์€ ๊ฒฐ๋ก ์„ ์ฃผ์ง€ ์•Š๋Š”๋‹ค๋Š” ์ ์„ ์ค‘์š”ํ•˜๊ฒŒ ๋‹ค๋ฃฌ๋‹ค.

์ฃผ์š” ๊ฒฐ๊ณผ

1. O-LORA-MOE๋Š” ๊ฑฐ์˜ 0์— ๊ฐ€๊นŒ์šด ๋ง๊ฐ์„ ๋ณด์˜€๋‹ค

ํ† ํฐ ์ •ํ™•๋„ ๊ธฐ์ค€์—์„œ O-LORA-MOE๋Š” T2M backward transfer๊ฐ€ +0.07pp, M2T backward transfer๊ฐ€ -0.32pp๋กœ ๋ณด๊ณ ๋œ๋‹ค. ์ด๋Š” ์ˆœ์ฐจ ํ•™์Šต ํ›„ ์ด์ „ ๊ณผ์ œ ์„ฑ๋Šฅ์ด ๊ฑฐ์˜ ๋ฌด๋„ˆ์ง€์ง€ ์•Š์•˜๋‹ค๋Š” ๋œป์ด๋‹ค. ๋ฐ˜๋ฉด ๋‹จ์ˆœ Transfer๋Š” T2M -5.18pp, M2T -8.15pp์˜€๊ณ , O-LoRA-PM๋„ T2M -6.00pp, M2T -9.04pp๋กœ ์ƒ๋‹นํ•œ ๋ง๊ฐ์„ ๋ณด์˜€๋‹ค.

์ด ๊ฒฐ๊ณผ๋Š” โ€œ์ƒˆ ์ง€์‹์„ ํ•˜๋‚˜์˜ ๊ณต์œ  ์–ด๋Œ‘ํ„ฐ์— ๊ณ„์† ๋ฎ์–ด์“ฐ๋Š” ๋ฐฉ์‹โ€๋ณด๋‹ค โ€œ์ „๋ฌธ๊ฐ€๋ฅผ ๋ณด์กดํ•˜๊ณ  ๋ผ์šฐํŒ…์œผ๋กœ ์„ ํƒํ•˜๋Š” ๋ฐฉ์‹โ€์ด ์•ˆ์ •์„ฑ ์ธก๋ฉด์—์„œ ์œ ๋ฆฌํ•˜๋‹ค๋Š” ํ•ด์„์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•œ๋‹ค.

2. ๋ชจ์…˜ ์ƒ์„ฑ ํ’ˆ์งˆ์—์„œ๋Š” hard routing์ด soft blending๋ณด๋‹ค ๋‚˜์•˜๋‹ค

T2M ์ตœ์ข… ์ƒ์„ฑ ํ’ˆ์งˆ์—์„œ O-LORA-MOE๋Š” continual learning ๋ฐฉ๋ฒ• ์ค‘ FID 10.39, Diversity 7.19, MM-Dist 4.70์œผ๋กœ ๊ฐ€์žฅ ์ข‹์€ ๊ฐ’์„ ๋ณด์˜€๋‹ค. Multi-task๋ณด๋‹ค FID์™€ retrieval ๊ณ„์—ด ์ง€ํ‘œ๋Š” ๋‚ฎ์•˜์ง€๋งŒ, ์ง€์† ํ•™์Šต ๋ฐฉ๋ฒ•๋ผ๋ฆฌ ๋น„๊ตํ•˜๋ฉด ๊ฐ€์žฅ ์•ˆ์ •์ ์ธ ์ชฝ์— ๊ฐ€๊นŒ์› ๋‹ค.

ํฅ๋ฏธ๋กœ์šด ์ ์€ Top-K๋กœ ์—ฌ๋Ÿฌ ์ „๋ฌธ๊ฐ€๋ฅผ ์„ž๋Š” ๋ฐฉ์‹์ด ํ•ญ์ƒ ์ข‹์ง€ ์•Š์•˜๋‹ค๋Š” ๊ฒƒ์ด๋‹ค. ํŠนํžˆ ์ƒ์„ฑ ํ’ˆ์งˆ์—์„œ๋Š” K๊ฐ€ 2 ์ด์ƒ์ผ ๋•Œ ์„ฑ๋Šฅ์ด ํฌ๊ฒŒ ํ”๋“ค๋ ธ๋‹ค. ๋…ผ๋ฌธ์€ ๋ผ์šฐํ„ฐ์˜ ์ ์ˆ˜๊ฐ€ โ€œ์—ฌ๋Ÿฌ ์ „๋ฌธ๊ฐ€๋ฅผ ๋ถ€๋“œ๋Ÿฝ๊ฒŒ ์„ž๋Š” ๊ฐ€์ค‘์น˜โ€๋กœ ์ž˜ ๋ณด์ •๋œ ๊ฐ’์ด ์•„๋‹ˆ๋ฉฐ, autoregressive decoding์—์„œ๋Š” ์กฐ๊ธˆ๋งŒ ์ž˜๋ชป ์„ž์—ฌ๋„ ์ถœ๋ ฅ์ด ๋“œ๋ฆฌํ”„ํŠธํ•  ์ˆ˜ ์žˆ๋‹ค๊ณ  ์„ค๋ช…ํ•œ๋‹ค.

3. M2T captioning์—์„œ๋Š” LORA-MOE๊ฐ€ ๊ฐ•ํ–ˆ๋‹ค

M2T ์ž์—ฐ์–ด ์ƒ์„ฑ ์ง€ํ‘œ์—์„œ๋Š” LORA-MOE๊ฐ€ BLEU-1 45.93, BLEU-4 11.26, ROUGE-L 37.15, CIDEr 30.77, BERTScore 88.96์œผ๋กœ ๊ฐ€์žฅ ๊ฐ•ํ•œ ๊ฐ’์„ ๋ณด์˜€๋‹ค. ์ด ์ง€ํ‘œ๋“ค์—์„œ๋Š” Multi-task๋ณด๋‹ค๋„ ๋†’๊ฒŒ ๋‚˜์˜จ๋‹ค.

๋‹ค๋งŒ ์ด๊ฒƒ์„ โ€œํ•ญ์ƒ LORA-MOE๊ฐ€ O-LORA-MOE๋ณด๋‹ค ๋‚ซ๋‹คโ€๋กœ ์ฝ์œผ๋ฉด ์•ˆ ๋œ๋‹ค. ๋…ผ๋ฌธ ์ „์ฒด์˜ ๊ด€์‹ฌ์€ ์–‘๋ฐฉํ–ฅ ์„ฑ๋Šฅ, ๋ง๊ฐ, ๋ผ์šฐํŒ… ์•ˆ์ •์„ฑ, ์ƒ์„ฑ ํ’ˆ์งˆ์„ ํ•จ๊ป˜ ๋ณด๋Š” ๊ฒƒ์ด๋‹ค. O-LoRA๋Š” ํŠนํžˆ ๋ง๊ฐ ์–ต์ œ์™€ ์ „๋ฌธ๊ฐ€ ๋ถ„๋ฆฌ ์ธก๋ฉด์—์„œ ์žฅ์ ์ด ์žˆ์ง€๋งŒ, ํŠน์ • caption ํ’ˆ์งˆ ์ง€ํ‘œ์—์„œ๋Š” ๋น„์ง๊ต LORA-MOE๊ฐ€ ๋” ๋‚˜์€ ๊ฒฝ์šฐ๊ฐ€ ์žˆ์—ˆ๋‹ค.

4. ๋ผ์šฐํ„ฐ ์ •ํ™•๋„๊ฐ€ ์™„๋ฒฝํ•˜์ง€ ์•Š์•„๋„ end-to-end ์„ฑ๋Šฅ์€ ์œ ์ง€๋๋‹ค

O-LORA-MOE์˜ ์ตœ์ข… ๋ผ์šฐํŒ… ์ •ํ™•๋„๋Š” ํ‰๊ท ์ ์œผ๋กœ T2M 75.5%, M2T 78.3% ์ˆ˜์ค€์ด์—ˆ๋‹ค. ๊ณผ์ œ๋ณ„๋กœ๋Š” Walking๊ณผ Sit/Stand์ฒ˜๋Ÿผ ๋ผ์šฐํŒ…์ด ๋” ์–ด๋ ค์šด ๋ฒ”์ฃผ๋„ ์žˆ์—ˆ๋‹ค.

๊ทธ๋Ÿฐ๋ฐ๋„ ์ „์ฒด ์„ฑ๋Šฅ์ด ํฌ๊ฒŒ ๋ฌด๋„ˆ์ง€์ง€ ์•Š์€ ๊ฒƒ์€ ์ค‘์š”ํ•˜๋‹ค. ์ „๋ฌธ๊ฐ€ ์„ ํƒ์ด ์™„๋ฒฝํ•˜์ง€ ์•Š์•„๋„, hard routing๊ณผ fallback ๊ตฌ์กฐ๊ฐ€ ์–ด๋А ์ •๋„ ์‹ค์šฉ์ ์ธ task-agnostic inference๋ฅผ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•œ๋‹ค๋Š” ์‹ ํ˜ธ๋กœ ๋ณผ ์ˆ˜ ์žˆ๋‹ค.

5. token accuracy๋งŒ์œผ๋กœ ์ƒ์„ฑ ํ’ˆ์งˆ์„ ํŒ๋‹จํ•˜๊ธฐ ์–ด๋ ต๋‹ค

๋…ผ๋ฌธ์€ token-level continual learning ์ง€ํ‘œ์™€ ์‹ค์ œ ์ƒ์„ฑ ํ’ˆ์งˆ์ด ์–ด๊ธ‹๋‚  ์ˆ˜ ์žˆ์Œ์„ ๊ฐ•์กฐํ•œ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด Multi-task๋Š” M2T token accuracy์—์„œ๋Š” ๊ฐ•ํ•˜์ง€๋งŒ, ์ผ๋ถ€ M2T ์ƒ์„ฑ ํ’ˆ์งˆ ์ง€ํ‘œ์—์„œ๋Š” LORA-MOE์™€ O-LORA-MOE๊ฐ€ ๋” ๋‚˜์€ ๊ฐ’์„ ๋ณด์ธ๋‹ค. ๋ฐ˜๋Œ€๋กœ Top-K ํ˜ผํ•ฉ ๋ฐฉ์‹์€ ์ผ๋ถ€ token accuracy๋ฅผ ๋†’์ด์ง€๋งŒ ์‹ค์ œ sequence generation์—์„œ๋Š” ํฌ๊ฒŒ ๋‚˜๋น ์งˆ ์ˆ˜ ์žˆ๋‹ค.

๋”ฐ๋ผ์„œ motion-language ์ง€์† ํ•™์Šต์—์„œ๋Š” โ€œ๋‹ค์Œ ํ† ํฐ์„ ์–ผ๋งˆ๋‚˜ ์ž˜ ๋งžํžˆ๋Š”๊ฐ€โ€์™€ โ€œ์‹ค์ œ๋กœ ์“ธ ๋งŒํ•œ ์›€์ง์ž„์ด๋‚˜ ์„ค๋ช…์„ ์ƒ์„ฑํ•˜๋Š”๊ฐ€โ€๋ฅผ ๋ถ„๋ฆฌํ•ด ํ‰๊ฐ€ํ•ด์•ผ ํ•œ๋‹ค.

ํ•œ๊ณ„

๋…ผ๋ฌธ์ด ์ง์ ‘ ๋ฐํžˆ๋Š” ํ•œ๊ณ„๋Š” ๊ฝค ๋ช…ํ™•ํ•˜๋‹ค.

  • ์‹คํ—˜์€ HumanML3D์—์„œ ๋งŒ๋“  5๊ฐœ ์˜๋ฏธ ํด๋Ÿฌ์Šคํ„ฐ ๊ณผ์ œ์— ํ•œ์ •๋œ๋‹ค.
  • ๊ณผ์ œ ์ˆœ์„œ๋Š” ํด๋Ÿฌ์Šคํ„ฐ ์ค‘์‹ฌ ๊ฐ„ ๊ฑฐ๋ฆฌ๋ฅผ ์ด์šฉํ•ด ์ •ํ•œ ํ•˜๋‚˜์˜ ๊ณ ์ • ์ˆœ์„œ๋‹ค. ๋‹ค๋ฅธ ์ˆœ์„œ์—์„œ๋„ ๊ฐ™์€ ๊ฒฐ๋ก ์ด ์œ ์ง€๋˜๋Š”์ง€๋Š” ์ถ”๊ฐ€ ์—ฐ๊ตฌ๊ฐ€ ํ•„์š”ํ•˜๋‹ค.
  • ๋ผ์šฐํ„ฐ๋Š” ํ‰๊ท  ํ’€๋ง๋œ ์ž…๋ ฅ ์ž„๋ฒ ๋”ฉ์„ ์‚ฌ์šฉํ•œ๋‹ค. ๋” ํ’๋ถ€ํ•œ ๋ผ์šฐํŒ… ์‹ ํ˜ธ๋‚˜ ํ•™์Šต๋œ task descriptor๋ฅผ ์“ฐ๋ฉด ๊ฒฐ๊ณผ๊ฐ€ ๋‹ฌ๋ผ์งˆ ์ˆ˜ ์žˆ๋‹ค.
  • ์˜๋ฏธ ๊ธฐ๋ฐ˜ ํด๋Ÿฌ์Šคํ„ฐ๋Š” ํ•ด์„ํ•˜๊ธฐ ์‰ฝ์ง€๋งŒ, ์‹ค์ œ ์šด๋™ํ•™์  ๋™์ž‘ ๋ฒ”์ฃผ์™€ ์™„์ „ํžˆ ์ผ์น˜ํ•˜์ง€ ์•Š์„ ์ˆ˜ ์žˆ๋‹ค.
  • ์ €์ž๋“ค์€ ์ฝ”๋“œ์™€ ๋ฒค์น˜๋งˆํฌ ๊ตฌ์„ฑ์„ ๊ณต๊ฐœํ•  ์˜ˆ์ •์ด๋ผ๊ณ  ์“ฐ์ง€๋งŒ, ์ด ๋ฌธ์„œ๋ฅผ ์ž‘์„ฑํ•œ ์‹œ์ ์˜ ๋…ผ๋ฌธ ๋ณธ๋ฌธ ๊ธฐ์ค€์œผ๋กœ๋Š” โ€œupon publicationโ€์ด๋ผ๊ณ  ๋˜์–ด ์žˆ๋‹ค.

์™œ ์ค‘์š”ํ•œ๊ฐ€

์ด ๋…ผ๋ฌธ์˜ ๊ฐ€์น˜๋Š” ๋‹จ์ˆœํžˆ โ€œLoRA๋ฅผ motion generation์— ์ ์šฉํ–ˆ๋‹คโ€๋Š” ๋ฐ ์žˆ์ง€ ์•Š๋‹ค. ๋” ์ค‘์š”ํ•œ ์ ์€ motion-language agent๋ฅผ ์ •์  ๋ชจ๋ธ์ด ์•„๋‹ˆ๋ผ ๊ณ„์† ๋ฐฐ์šฐ๋Š” ์‹œ์Šคํ…œ์œผ๋กœ ๋‹ค๋ฃจ์—ˆ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค.

์žฅ๊ธฐ์ ์œผ๋กœ ๋กœ๋ด‡์ด๋‚˜ ๊ฐ€์ƒ ์—์ด์ „ํŠธ๊ฐ€ ํ˜„์‹ค ํ™˜๊ฒฝ์— ๋“ค์–ด๊ฐ€๋ฉด, ๋ชจ๋“  ๋™์ž‘๊ณผ ๋ชจ๋“  ์ƒํ˜ธ์ž‘์šฉ์„ ์ฒ˜์Œ๋ถ€ํ„ฐ ์•Œ๊ณ  ์žˆ์„ ์ˆ˜ ์—†๋‹ค. ์ƒˆ ์Šคํฌ์ธ  ๋™์ž‘, ํŠน์ • ์‚ฌ์šฉ์ž์˜ ์ œ์Šค์ฒ˜, ์—…๋ฌด ํ˜„์žฅ์˜ ๋ฐ˜๋ณต ํ–‰๋™, ๋กœ๋ด‡ ์กฐ์ž‘ ๊ธฐ์ˆ ์„ ๋‚˜์ค‘์— ์ถ”๊ฐ€ํ•ด์•ผ ํ•œ๋‹ค. ์ด๋•Œ ๋ชจ๋ธ ์ „์ฒด๋ฅผ ๋งค๋ฒˆ ๋‹ค์‹œ ํ•™์Šตํ•˜์ง€ ์•Š๊ณ ๋„ ์ƒˆ ๋Šฅ๋ ฅ์„ ๋ถ™์ด๊ณ , ์ด์ „ ๋Šฅ๋ ฅ์€ ๋ณด์กดํ•˜๋ฉฐ, ์ž…๋ ฅ์— ๋งž๋Š” ๋Šฅ๋ ฅ์„ ์ž๋™์œผ๋กœ ๊ณ ๋ฅด๋Š” ๊ตฌ์กฐ๊ฐ€ ํ•„์š”ํ•˜๋‹ค.

์ด ๋…ผ๋ฌธ์€ ๊ทธ ๋ฐฉํ–ฅ์˜ ์ดˆ๊ธฐ ์‹คํ—˜์œผ๋กœ ๋ณผ ์ˆ˜ ์žˆ๋‹ค. ํŠนํžˆ โ€œ์ „๋ฌธ๊ฐ€๋ฅผ ์—ฌ๋Ÿฌ ๊ฐœ ๋งŒ๋“ค๊ณ  ์„ž์œผ๋ฉด ๋” ์ข‹์„ ๊ฒƒโ€์ด๋ผ๋Š” ์ง๊ด€๊ณผ ๋‹ฌ๋ฆฌ, ์ด ์„ค์ •์—์„œ๋Š” ์ „๋ฌธ๊ฐ€ ๊ฒฉ๋ฆฌ๋ฅผ ์œ ์ง€ํ•˜๊ณ  ํ•˜๋‚˜๋ฅผ ๊ณ ๋ฅด๋Š” hard routing์ด ๋” ์•ˆ์ •์ ์ด์—ˆ๋‹ค๋Š” ๊ฒฐ๊ณผ๊ฐ€ ํฅ๋ฏธ๋กญ๋‹ค.

ํ—ท๊ฐˆ๋ฆฌ์ง€ ๋ง์•„์•ผ ํ•  ์ 

  • ์ด ๋…ผ๋ฌธ์€ ๋ฒ”์šฉ ๋กœ๋ด‡ ์ œ์–ด๊ธฐ๋ฅผ ์™„์„ฑํ–ˆ๋‹ค๋Š” ๋…ผ๋ฌธ์ด ์•„๋‹ˆ๋‹ค. HumanML3D ๊ธฐ๋ฐ˜ motion-language ๋ฒค์น˜๋งˆํฌ์—์„œ ์ง€์† ํ•™์Šต ๊ตฌ์กฐ๋ฅผ ๊ฒ€์ฆํ•œ ์—ฐ๊ตฌ์— ๊ฐ€๊น๋‹ค.
  • O-LORA-MOE๊ฐ€ ๋ชจ๋“  ์ง€ํ‘œ์—์„œ ์ตœ๊ณ ๋ผ๋Š” ๋œป์€ ์•„๋‹ˆ๋‹ค. ๋ง๊ฐ ์–ต์ œ์™€ T2M ์ƒ์„ฑ ํ’ˆ์งˆ์—์„œ๋Š” ๊ฐ•ํ•˜์ง€๋งŒ, M2T caption ํ’ˆ์งˆ์—์„œ๋Š” LORA-MOE๊ฐ€ ๋” ์ข‹์€ ์ง€ํ‘œ๋ฅผ ๋ณด์ธ๋‹ค.
  • Top-K ์ „๋ฌธ๊ฐ€ ํ˜ผํ•ฉ์ด token accuracy๋ฅผ ๋†’์ผ ์ˆ˜๋Š” ์žˆ์ง€๋งŒ, ์‹ค์ œ ์ƒ์„ฑ ํ’ˆ์งˆ์—์„œ๋Š” ๋‚˜๋น ์งˆ ์ˆ˜ ์žˆ๋‹ค. ์ด ๋…ผ๋ฌธ์—์„œ๋Š” โ€œ์ „๋ฌธ๊ฐ€๋ฅผ ์ ๋‹นํžˆ ์„ž๊ธฐโ€๋ณด๋‹ค โ€œํ•˜๋‚˜๋ฅผ ์ž˜ ๊ณ ๋ฅด๊ธฐโ€๊ฐ€ ๋” ์•ˆ์ •์ ์ธ ๊ฒฐ๋ก ์— ๊ฐ€๊น๋‹ค.
  • task-agnostic inference๋Š” ๊ณผ์ œ ๋ผ๋ฒจ์ด ์—†๋‹ค๋Š” ๋œป์ด์ง€, ๋ชจ๋ธ์ด ์™„์ „ํžˆ ์—ด๋ฆฐ ์„ธ๊ณ„์˜ ๋ชจ๋“  ๋™์ž‘์„ ์ดํ•ดํ•œ๋‹ค๋Š” ๋œป์€ ์•„๋‹ˆ๋‹ค. ๋…ผ๋ฌธ์€ unseen detection๊ณผ fallback์„ ๋‘์ง€๋งŒ, ์‹คํ—˜ ๋ฒ”์œ„๋Š” ์ œํ•œ์ ์ด๋‹ค.

๊ด€๋ จ ๋ฌธ์„œ