챗봇 하나가 번역도 하고 코딩도 하고 요약도 하지. 예전엔 그 셋이 다 다른 프로그램이었어. “하나의 큰 모델을 방대한 데이터로 훈련하면 여러 일을 한다”는 게 파운데이션 모델의 발상이야.

그럼 로봇은? 지금까지 로봇은 대체로 반대였어. 이 공장의 이 팔이 이 부품 집는 일 하나에 맞춰 따로 프로그래밍했지. 그런데 최근 로봇 쪽에서 “언어 모델처럼, 하나의 모델이 여러 로봇·여러 작업에 일반화되게 만들자”는 흐름이 중심으로 올라왔어. 이게 요즘 Physical AI — 물리 세계를 인식하고 개입하는 AI — 얘기의 핵심 중 하나야.

이 흐름이 실제로 어디까지 왔는지, 세 개의 1차 자료로 봐.

무슨 일 — GR00T N1이라는 오픈 모델

NVIDIA가 2025년 3월 GR00T N1이라는 모델을 공개했어(논문 저자만 41명). 사람 모양 로봇(휴머노이드)을 위한 “오픈 파운데이션 모델”이라고 부르지.

구조가 흥미로운데, 사람의 빠른 반응과 느린 판단을 나눈 것처럼 두 층으로 돼 있어. 하나(System 2)는 눈으로 보고 말로 된 지시를 이해하는 부분, 다른 하나(System 1)는 그걸 받아 실시간으로 손발 움직임을 만들어내는 부분이야. 이 둘을 따로 훈련하지 않고 붙여서 한꺼번에 훈련했다는 게 논문의 자랑이지.

훈련 데이터도 눈여겨볼 만해. 진짜 로봇이 움직인 기록만 쓴 게 아니라, 사람이 찍은 영상과 **컴퓨터가 만들어낸 가짜 데이터(합성 데이터)**를 섞었어. 진짜 로봇 데이터는 모으기 비싸고 느리니까, 부족한 부분을 영상과 시뮬레이션으로 채운 거야.

왜 중요한가 — “이 흐름이 진짜 흐름”이라는 증거

GR00T N1 하나만 보면 회사 하나의 제품 발표로 넘길 수도 있어. 그런데 2026년 4월에 나온 로봇 파운데이션 모델 서베이 논문(학계 연구자 7명, arXiv:2604.15395)이 이걸 개별 제품이 아니라 하나의 큰 방향 전환으로 정리해.

이 서베이는 로봇 연구가 “고정된, 단일 작업, 특정 분야 전용” 방식에서 “적응하고, 여러 기능을 하고, 범용인” 방향으로 옮겨가고 있다고 봐. 그리고 그 전환을 다섯 단계로 나눠 정리하지 — 초기에 언어·비전 모델을 로봇에 얹던 시기부터, 지금의 여러 감각을 아우르는 일반화와 실세계 배포 단계까지. 즉 GR00T N1 같은 모델은 튀는 사건이 아니라 이 다섯 단계 중 최신 국면에 놓인 셈이야.

그리고 세 번째 자료, NVIDIA 연구 조직이 2025년 8월 SIGGRAPH(컴퓨터 그래픽 학회)에서 낸 발표가 “왜 하필 NVIDIA가 이걸 미나”를 설명해줘. 핵심 문장은 이거야.

“AI가 우리 시뮬레이션 능력을 키우고, 그 시뮬레이션 능력이 다시 AI 시스템을 키운다.” — Sanja Fidler, NVIDIA AI 연구 부사장

NVIDIA는 20년 가까이 그래픽·렌더링을 해온 회사야. 그 기술로 진짜 같은 가상 환경을 만들고, 로봇을 그 안에서 시행착오로 훈련시킨 다음 실물로 옮긴다는 그림이지. GR00T N1이 합성 데이터를 쓴 것과 같은 논리가 회사 전략 수준에서 반복돼.

확인된 것과 발표가 말하지 않는 것

여기서 자료가 실제로 보여준 것과, 프레이밍이 기대하게 만드는 것을 갈라볼 필요가 있어.

확인된 것. GR00T N1은 표준 시뮬레이션 벤치마크에서 기존 모방학습 방식보다 나은 점수를 냈고, Fourier GR-1이라는 실제 휴머노이드에 올려 양손 조작 작업을 시켰을 때 “높은 데이터 효율로 강한 성능”을 봤다고 논문은 말해. 오픈으로 공개한 것도 사실이야.

발표가 조심스럽게만 말한 것. 그 실물 데모가 “몇 가지 작업”이었는지 “임의의 작업”이었는지, 공장이나 가정 같은 통제되지 않은 환경에서 얼마나 버티는지는 논문 초록 수준에서 단정하기 어려워. NVIDIA SIGGRAPH 발표에 나온 한 문장이 오히려 솔직해.

“가상 훈련에서 배운 기술이 실세계로 충분히 잘 옮겨가지 않으면, 로봇은 (그 훈련으로) 배울 수가 없다.”

이게 이 분야의 오래된 골칫거리, 이른바 sim-to-real gap(시뮬레이션-실세계 격차)이야. NVIDIA의 전략 자체가 “이 격차를 렌더링·물리 시뮬레이션으로 좁히겠다”는 거니까, 뒤집어 말하면 격차가 아직 남아 있다는 걸 회사 스스로 전제하고 있다는 뜻이지. 서베이 논문도 열린 과제를 따로 한 장 할애해 다뤄. “해결됐다”가 아니라 “이렇게 접근하고 있다”가 지금의 정직한 요약이야.

다음에 볼 것

이 그림이 커지는지 작아지는지는 몇 가지 신호로 갈릴 거야.

  • 실물 배포의 구체성. “데모했다”가 아니라 “어느 공장에서, 몇 대가, 어떤 작업을, 얼마 동안” 돌았는지가 나오면 그림이 커져. 아직은 벤치마크와 제한된 데모 단계야.
  • 합성 데이터가 실세계 성능으로 얼마나 이어지는가. sim-to-real 격차를 좁혔다는 정량 근거가 논문·후속 발표에서 반복 확인되는지.
  • 오픈이 만드는 생태계. GR00T N1이 오픈이라 다른 연구팀·회사가 그 위에 뭘 쌓는지. 파운데이션 모델의 힘은 결국 그 위에 붙는 것들에서 나오니까.

로봇 파운데이션 모델이 언어 모델의 성공을 그대로 반복할지는 아직 몰라. 다만 “하나의 큰 모델로 여러 로봇을 움직인다”는 방향이 개별 회사의 마케팅이 아니라 학계 서베이가 인정하는 흐름이 됐다는 것 — 여기까지는 이 세 자료로 확인돼.

출처