sim-to-real gap

한 줄로 말하면

sim-to-real gap(시뮬레이션-실세계 격차)은 가상 환경에서 훈련한 로봇을 실제 몸으로 옮겼을 때 성능이 떨어지는 현상이야. Physical AI가 “가상에서 훈련해 실물로 옮긴다”는 발상 위에 서 있는 만큼, 이 격차가 얼마나 좁혀지느냐가 그 발상 전체의 성패를 가르는 병목이지.

비유로 이해하기

축구 게임을 아무리 잘해도 실제 잔디밭에서 공을 차면 다른 문제가 시작돼. 화면 속 잔디는 늘 똑같지만 진짜 잔디는 발이 빠지고, 미끄러지고, 스파이크에 걸려. 게임에서 익힌 감각이 현실의 마찰과 물렁함 앞에서 무너지는 거지.

이 비유는 여기까지야. 사람은 몸이 이미 현실 물리에 적응돼 있어서 게임과 현실을 구분하지만, 로봇의 제어 정책에게는 시뮬레이션의 물리가 세상의 전부야. 시뮬레이션이 빠뜨린 것은 로봇에게 존재한 적 없는 세계고, 그래서 처음 만나는 순간 그대로 넘어져.

정확한 정의

로봇을 가상에서 훈련하는 이유부터 보자. 진짜 로봇으로 데이터를 모으는 건 비싸고 느리고 위험해. 시뮬레이션이면 수천 대를 병렬로, 밤새, 망가질 걱정 없이 돌릴 수 있지. 문제는 시뮬레이션이 현실의 물리를 완전히 재현하지 못한다는 것 — 지면 마찰, 재질의 물렁함, 센서 잡음, 부품 오차, 제어 신호의 지연이 조금씩 어긋나. 이 어긋남이 실물에서 성능 저하로 나타나는 게 sim-to-real gap이야.

격차를 좁히는 접근은 크게 넷으로 정리돼.

시뮬레이션을 진짜같이 만들기. 렌더링과 물리 시뮬레이션의 충실도를 올려 격차 자체를 줄인다. NVIDIA의 전략이 대표적이야.¹
domain randomization — 시뮬레이션 안에서 마찰·질량·조명 같은 조건을 수없이 무작위로 바꿔가며 훈련해, 정책이 어느 한 조건에 과적합하지 않고 변화에 둔감해지게 만든다.
실세계 데이터 섞기. 합성 데이터에 사람 영상·실제 로봇 기록을 배합해 격차를 우회한다. GR00T N1이 이 방식이야.
현실로 시뮬레이션을 고치기. 실물에서 어긋나는 지점이 발견되면 그 요소를 시뮬레이션에 다시 반영하고 재훈련한다.

왜 중요한가

로봇 훈련의 스케일은 시뮬레이션에서만 나와. 진짜 로봇 데이터는 언어 모델의 웹 텍스트처럼 긁어올 수가 없으니까. 그런데 시뮬레이션에서 배운 게 실물로 옮겨가지 않으면 그 스케일이 전부 헛일이 돼 — NVIDIA 연구진의 표현을 빌리면 “가상 훈련에서 배운 기술이 실세계로 충분히 잘 옮겨가지 않으면, 로봇은 배울 수가 없다.”¹

뒤집어 읽으면, 로봇 산업의 주요 플레이어들이 전략의 중심에 “이 격차 좁히기”를 놓고 있다는 것 자체가 격차가 아직 남아 있다는 방증이야. 그래서 이 개념은 휴머노이드·로봇 관련 발표를 읽을 때마다 돌아오는 질문이 돼: 이 시연은 격차를 얼마나 건넌 결과인가?

실제 예시 — Atlas가 축구를 배운 방법

2026년 FIFA 월드컵에서 Boston Dynamics의 휴머노이드 Atlas가 “Ghost Rabona”라는 트릭슛을 시연했어. 로봇 행동 총괄 Alberto Rodriguez가 밝힌 훈련 과정이 sim-to-real 훈련의 실물 교본이야.² 축구 잘하는 사람에게 모션 캡처 수트를 입혀 동작을 딴 뒤, 그 데이터를 시뮬레이션 엔진에 넣고 수많은 무작위 변형 속에서 최적화했더니 — 공을 미는 법, 팔의 위치, 지면 마찰계수까지 — 강화학습 정책이 몇 시간에서 하루 만에 나왔고, 그게 실물 로봇에서 작동했어.

격차가 실제로 문 곳은 잔디였어. 잔디는 콘크리트나 합판보다 훨씬 물렁한데, 시뮬레이션 엔진이 이걸 제대로 재현하지 못했거든. 발이 빠지고, 미끄러지고, 잔디에 걸렸지. 그래서 정책은 예상 밖의 물렁함에도 버티도록 견고해야 했고, 재현 안 된 요소가 발견되면 시뮬레이션 쪽을 고쳐 다시 훈련했어. 빠른 발놀림을 받치려고 정책이 실물에서 반응하는 지연도 줄여야 했고.

flowchart LR
    A["사람 시범<br/>(모션 캡처)"] --> B["시뮬레이션 훈련<br/>(수많은 무작위 변형)"]
    B --> C[강화학습 정책]
    C --> D[실물 로봇 시연]
    D -->|"어긋난 지점 발견<br/>(예: 잔디의 물렁함)"| B

이 사례에서 눈여겨볼 게 둘 있어. 하나는 Boston Dynamics가 약 1년 전 수년간 쌓은 모델 기반 예측 제어를 버리고 강화학습으로 갈아탔다는 것 — 목표를 “시뮬레이션에서 배우면 실물에서 그냥 작동하게”로 명시하고, 냉장고 옮기기에 쓴 기법을 창고 상자 운반으로 그대로 이어갔어. 다른 하나는 하드웨어야. Atlas를 회전식 구동기만으로 단순하게 설계한 이유 중 하나가 시뮬레이션하기 쉽게 만들기 위해서였어 — 격차를 소프트웨어만이 아니라 몸 설계에서부터 줄인다는 거지.

다만 회사 스스로 선을 그었어. 다른 선수와 몸을 섞거나 사람 옆에서 안전하게 달리는 건 “지금 기술로는 안 된다”고.² 격차는 우회한 사례가 쌓이는 중이지, 해결된 게 아니야 — 잘 통제된 시연의 한 동작과 사람 곁의 일반 작업 사이 거리가 아직 커.

헷갈리지 말아야 할 점

사례와 정량 해결은 다르다. 지금 말할 수 있는 건 “옮겨간 사례가 있다”까지야. 격차가 얼마나 좁혀졌는지는 숫자로 잰 벤치마크가 여러 연구에서 반복 확인될 때 판정돼 — 그 숫자가 이 문서가 다음에 채울 부분이야.
눈에 보이는 것만의 문제가 아니다. 렌더링(시각)의 격차만 떠올리기 쉬운데, Atlas 사례에서 문 건 잔디의 물렁함 — 접촉 물리였어. 마찰·순응성·지연처럼 눈에 안 보이는 쪽이 더 아프게 문다.
두 접근은 방향이 반대다. 시뮬레이션을 진짜같이 만드는 것(격차 자체를 줄임)과 정책을 변화에 둔감하게 만드는 것(격차를 견디게 함)은 다른 전략이야. 실무는 둘을 같이 쓴다 — Boston Dynamics도 무작위 변형으로 훈련하면서, 어긋난 요소는 시뮬레이션을 고쳤어.

남은 질문들

domain randomization을 체계화한 학계 1차 자료(대표 논문·서베이)는 이 기법의 한계를 어디까지로 보나?
합성 데이터·시뮬레이션 훈련 비중을 늘릴수록 실세계 성능이 오른다는 게 숫자로 확인되나, 어느 지점에서 한계가 오나?
이 격차가 휴머노이드 상용 배포를 실제로 얼마나 늦추고 있나?

🥚

Explorer

Recent Notes

ATOMS가 17억 달러로 시작한 산업용 로봇 사업

Cerebras

AMD Kria가 로봇의 메모리 복사를 줄이는 방법

영국의 디지털 국채는 채권보다 현금에서 막혔어

sim-to-real gap

한 줄로 말하면

비유로 이해하기

정확한 정의

왜 중요한가

실제 예시 — Atlas가 축구를 배운 방법

헷갈리지 말아야 할 점

남은 질문들

관련 문서

Graph

Table of Contents

Backlinks

지금까지 거쳐온 질문들

남은 질문들

댓글

🥚

Explorer

Recent Notes

ATOMS가 17억 달러로 시작한 산업용 로봇 사업

Cerebras

AMD Kria가 로봇의 메모리 복사를 줄이는 방법

영국의 디지털 국채는 채권보다 현금에서 막혔어

sim-to-real gap

한 줄로 말하면

비유로 이해하기

정확한 정의

왜 중요한가

실제 예시 — Atlas가 축구를 배운 방법

헷갈리지 말아야 할 점

남은 질문들

관련 문서

각주

Graph

Table of Contents

Backlinks

지금까지 거쳐온 질문들

남은 질문들

댓글