Towards Continual Motion-Language Agents

이 논문은 사람의 움직임과 자연어를 함께 다루는 에이전트가 새 동작 범주를 순차적으로 배워야 할 때 생기는 문제를 다룬다. 예를 들어 가상 캐릭터나 로봇이 처음에는 달리기 동작을 배우고, 나중에는 손동작이나 앉고 서는 동작을 추가로 배운다고 해보자. 새 기술을 배울 때 이전 기술을 잊어버리면 실제 환경에서 오래 작동하는 에이전트가 되기 어렵다. 논문은 이 문제를 “양방향 motion-language 에이전트”의 지속 학습 문제로 놓고, LoRA 기반 전문가를 나누어 보관하고 라우터로 선택하는 방법을 실험한다.

한 줄로 말하면

정적인 motion-language 모델을 새 움직임 범주를 계속 배울 수 있는 에이전트로 만들기 위해, 과제별 LoRA 전문가와 자동 라우팅을 결합하면 망각을 크게 줄일 수 있다는 실험 논문이다.

배경: 왜 이 문제가 중요한가

motion-language 모델은 크게 두 방향의 일을 한다.

text-to-motion(T2M): “앞으로 걸어가다가 오른손을 든다” 같은 문장을 받아 움직임 토큰이나 모션을 만든다.
motion-to-text(M2T): 움직임 시퀀스를 보고 “사람이 점프한 뒤 착지한다”처럼 설명한다.

최근 모델들은 정해진 데이터셋을 한 번에 학습하는 환경에서는 좋은 성능을 보인다. 하지만 실제 에이전트는 정적 데이터셋 안에서만 살지 않는다. 로봇, 디지털 휴먼, AR/VR 캐릭터는 시간이 지나며 새 동작, 새 제스처, 개인화된 행동 양식을 배워야 한다. 이때 모델 전체를 매번 다시 학습하는 것은 비용이 크고, 단순히 이어서 fine-tuning하면 새 과제가 이전 과제를 덮어쓰는 catastrophic forgetting이 생긴다.

이 논문이 보는 핵심 상황은 “과제는 순서대로 들어오지만, 추론 시점에는 현재 입력이 어느 과제에 속하는지 알려주지 않는” 경우다. 논문에서는 이를 task-incremental learning과 task-agnostic inference가 결합된 배치로 다룬다.

핵심 아이디어

논문은 Motion-Agent 계열의 MotionLLM을 기반으로 한다. Gemma-2-2B LLM 백본과 VQ-VAE 기반 모션 토크나이저/디코더를 사용하고, 모션을 특수 토큰 시퀀스처럼 다룬다. 백본은 크게 고정한 채 LoRA 어댑터로 과제별 변화를 학습한다.

핵심 아이디어는 세 가지다.

과제별 LoRA 전문가를 따로 둔다.
하나의 LoRA 어댑터를 계속 덮어쓰는 대신, 새 과제가 들어올 때마다 해당 과제의 LoRA 전문가를 만든다. 이렇게 하면 새 학습이 이전 전문가를 직접 수정하지 않으므로 간섭을 줄일 수 있다.
O-LoRA로 전문가 사이의 업데이트 방향을 분리한다.
O-LoRA는 새 LoRA 업데이트가 이전 과제의 업데이트와 가능한 한 직교하도록 제약을 둔다. 논문은 이 제약이 모든 지표에서 항상 이기는 것은 아니지만, 특히 망각을 줄이는 방향에서는 도움이 된다고 보고한다.
오토인코더 라우터로 추론 시 전문가를 고른다.
실전에서는 “이 입력은 달리기 과제다” 같은 정답 과제 라벨이 없다. 논문은 각 과제마다 작은 오토인코더 라우터를 학습시키고, 입력 임베딩을 가장 잘 재구성하는 라우터의 전문가를 선택한다. 즉, 라우터의 재구성 오차를 이용해 어떤 LoRA 전문가를 쓸지 고른다.

부록의 Figure 1은 이 구조를 도식화한다. 학습 단계에서는 새 과제가 들어올 때마다 LoRA 전문가와 해당 라우터를 추가하고, 추론 단계에서는 입력 임베딩을 여러 라우터에 넣어 가장 적합한 전문가 하나를 고른다. 공개 페이지에는 원본 그림을 그대로 싣지 않았지만, 중요한 메시지는 “전문가를 섞기보다 상황에 맞는 하나를 고르는 구조”라는 점이다.

방법과 실험 설정

논문은 HumanML3D 데이터셋에서 자연어 설명을 의미적으로 클러스터링해 5개 과제를 만든다. 각 과제는 1,140개 샘플로 균형을 맞추고, train/validation/test를 800/170/170으로 나눈다.

실험 과제는 다음과 같다.

과제	범주	대표 키워드
1	Running	runs, jogs, forward
2	Arms/Hands	left, right, hand, raises
3	Walking	walks, steps, turns
4	Jumping/Kicking	jumps, kicks, jumping
5	Sit/Stand	sits, stands, knees

비교한 방법은 다음과 같다.

Multi-task: 모든 과제 데이터를 한 번에 학습하는 상한선 역할의 기준.
Transfer: 하나의 LoRA 어댑터를 순차적으로 계속 fine-tuning하는 기준선.
O-LoRA-PM: 과제마다 O-LoRA를 학습한 뒤 백본에 점진적으로 병합하는 방식.
LORA-MOE / O-LORA-MOE: 과제별 LoRA 전문가를 두고 라우터로 하나를 고르는 방식.
LORA-MOE-K / O-LORA-MOE-K: 하나가 아니라 Top-K 전문가를 섞어 쓰는 방식.

평가는 두 층위로 이루어진다. 먼저 teacher-forced token accuracy로 지속 학습의 ACC, BWT, FWT를 계산한다. 그다음 T2M에는 FID, R-Precision, Diversity, MM-Dist를 보고, M2T에는 BLEU, ROUGE-L, CIDEr, BERTScore를 본다. 논문은 이 두 층위가 항상 같은 결론을 주지 않는다는 점을 중요하게 다룬다.

주요 결과

1. O-LORA-MOE는 거의 0에 가까운 망각을 보였다

토큰 정확도 기준에서 O-LORA-MOE는 T2M backward transfer가 +0.07pp, M2T backward transfer가 -0.32pp로 보고된다. 이는 순차 학습 후 이전 과제 성능이 거의 무너지지 않았다는 뜻이다. 반면 단순 Transfer는 T2M -5.18pp, M2T -8.15pp였고, O-LoRA-PM도 T2M -6.00pp, M2T -9.04pp로 상당한 망각을 보였다.

이 결과는 “새 지식을 하나의 공유 어댑터에 계속 덮어쓰는 방식”보다 “전문가를 보존하고 라우팅으로 선택하는 방식”이 안정성 측면에서 유리하다는 해석을 가능하게 한다.

2. 모션 생성 품질에서는 hard routing이 soft blending보다 나았다

T2M 최종 생성 품질에서 O-LORA-MOE는 continual learning 방법 중 FID 10.39, Diversity 7.19, MM-Dist 4.70으로 가장 좋은 값을 보였다. Multi-task보다 FID와 retrieval 계열 지표는 낮았지만, 지속 학습 방법끼리 비교하면 가장 안정적인 쪽에 가까웠다.

흥미로운 점은 Top-K로 여러 전문가를 섞는 방식이 항상 좋지 않았다는 것이다. 특히 생성 품질에서는 K가 2 이상일 때 성능이 크게 흔들렸다. 논문은 라우터의 점수가 “여러 전문가를 부드럽게 섞는 가중치”로 잘 보정된 값이 아니며, autoregressive decoding에서는 조금만 잘못 섞여도 출력이 드리프트할 수 있다고 설명한다.

3. M2T captioning에서는 LORA-MOE가 강했다

M2T 자연어 생성 지표에서는 LORA-MOE가 BLEU-1 45.93, BLEU-4 11.26, ROUGE-L 37.15, CIDEr 30.77, BERTScore 88.96으로 가장 강한 값을 보였다. 이 지표들에서는 Multi-task보다도 높게 나온다.

다만 이것을 “항상 LORA-MOE가 O-LORA-MOE보다 낫다”로 읽으면 안 된다. 논문 전체의 관심은 양방향 성능, 망각, 라우팅 안정성, 생성 품질을 함께 보는 것이다. O-LoRA는 특히 망각 억제와 전문가 분리 측면에서 장점이 있지만, 특정 caption 품질 지표에서는 비직교 LORA-MOE가 더 나은 경우가 있었다.

4. 라우터 정확도가 완벽하지 않아도 end-to-end 성능은 유지됐다

O-LORA-MOE의 최종 라우팅 정확도는 평균적으로 T2M 75.5%, M2T 78.3% 수준이었다. 과제별로는 Walking과 Sit/Stand처럼 라우팅이 더 어려운 범주도 있었다.

그런데도 전체 성능이 크게 무너지지 않은 것은 중요하다. 전문가 선택이 완벽하지 않아도, hard routing과 fallback 구조가 어느 정도 실용적인 task-agnostic inference를 가능하게 한다는 신호로 볼 수 있다.

5. token accuracy만으로 생성 품질을 판단하기 어렵다

논문은 token-level continual learning 지표와 실제 생성 품질이 어긋날 수 있음을 강조한다. 예를 들어 Multi-task는 M2T token accuracy에서는 강하지만, 일부 M2T 생성 품질 지표에서는 LORA-MOE와 O-LORA-MOE가 더 나은 값을 보인다. 반대로 Top-K 혼합 방식은 일부 token accuracy를 높이지만 실제 sequence generation에서는 크게 나빠질 수 있다.

따라서 motion-language 지속 학습에서는 “다음 토큰을 얼마나 잘 맞히는가”와 “실제로 쓸 만한 움직임이나 설명을 생성하는가”를 분리해 평가해야 한다.

한계

논문이 직접 밝히는 한계는 꽤 명확하다.

실험은 HumanML3D에서 만든 5개 의미 클러스터 과제에 한정된다.
과제 순서는 클러스터 중심 간 거리를 이용해 정한 하나의 고정 순서다. 다른 순서에서도 같은 결론이 유지되는지는 추가 연구가 필요하다.
라우터는 평균 풀링된 입력 임베딩을 사용한다. 더 풍부한 라우팅 신호나 학습된 task descriptor를 쓰면 결과가 달라질 수 있다.
의미 기반 클러스터는 해석하기 쉽지만, 실제 운동학적 동작 범주와 완전히 일치하지 않을 수 있다.
저자들은 코드와 벤치마크 구성을 공개할 예정이라고 쓰지만, 이 문서를 작성한 시점의 논문 본문 기준으로는 “upon publication”이라고 되어 있다.

왜 중요한가

이 논문의 가치는 단순히 “LoRA를 motion generation에 적용했다”는 데 있지 않다. 더 중요한 점은 motion-language agent를 정적 모델이 아니라 계속 배우는 시스템으로 다루었다는 것이다.

장기적으로 로봇이나 가상 에이전트가 현실 환경에 들어가면, 모든 동작과 모든 상호작용을 처음부터 알고 있을 수 없다. 새 스포츠 동작, 특정 사용자의 제스처, 업무 현장의 반복 행동, 로봇 조작 기술을 나중에 추가해야 한다. 이때 모델 전체를 매번 다시 학습하지 않고도 새 능력을 붙이고, 이전 능력은 보존하며, 입력에 맞는 능력을 자동으로 고르는 구조가 필요하다.

이 논문은 그 방향의 초기 실험으로 볼 수 있다. 특히 “전문가를 여러 개 만들고 섞으면 더 좋을 것”이라는 직관과 달리, 이 설정에서는 전문가 격리를 유지하고 하나를 고르는 hard routing이 더 안정적이었다는 결과가 흥미롭다.

헷갈리지 말아야 할 점

이 논문은 범용 로봇 제어기를 완성했다는 논문이 아니다. HumanML3D 기반 motion-language 벤치마크에서 지속 학습 구조를 검증한 연구에 가깝다.
O-LORA-MOE가 모든 지표에서 최고라는 뜻은 아니다. 망각 억제와 T2M 생성 품질에서는 강하지만, M2T caption 품질에서는 LORA-MOE가 더 좋은 지표를 보인다.
Top-K 전문가 혼합이 token accuracy를 높일 수는 있지만, 실제 생성 품질에서는 나빠질 수 있다. 이 논문에서는 “전문가를 적당히 섞기”보다 “하나를 잘 고르기”가 더 안정적인 결론에 가깝다.
task-agnostic inference는 과제 라벨이 없다는 뜻이지, 모델이 완전히 열린 세계의 모든 동작을 이해한다는 뜻은 아니다. 논문은 unseen detection과 fallback을 두지만, 실험 범위는 제한적이다.

🥚

Explorer

Recent Notes

Investment Kanban

무제

AI 노동 전환과 Physical AI 산업화의 차이