이 문서는 자라는 중인 질문입니다. 아직 증거를 모으고 있으며, 내용이 바뀔 수 있습니다.

지금까지의 잠정 이해

sim-to-real gap(시뮬레이션-실세계 격차)은 로봇을 가상 환경에서 훈련시킨 뒤 실제 몸으로 옮겼을 때 성능이 떨어지는 현상을 가리켜. 시뮬레이션 안에서는 잘 하던 로봇이 현실에서는 조명·마찰·센서 잡음·부품 오차 같은 걸 만나 무너지는 거지.

왜 애초에 가상에서 훈련할까? 진짜 로봇으로 데이터를 모으는 건 비싸고 느리고 위험하니까. 시뮬레이션이면 수천 대를 병렬로, 밤새, 망가질 걱정 없이 돌릴 수 있어. 문제는 그렇게 배운 게 실세계로 넘어오지 않으면 다 헛일이라는 것.

NVIDIA 연구진의 한 문장이 이 긴장을 잘 보여줘 — “가상 훈련에서 배운 기술이 실세계로 충분히 잘 옮겨가지 않으면, 로봇은 배울 수가 없다.” 그래서 NVIDIA는 렌더링·물리 시뮬레이션으로 가상 환경을 최대한 진짜같이 만들어 이 격차를 좁히려 하고, GR00T N1 같은 모델은 합성 데이터에 사람 영상·실제 로봇 데이터를 섞어 격차를 우회하려 해. 다만 이 격차가 얼마나 좁혀졌는지를 재는 정량 근거는 아직 내가 확보하지 못했어 — 지금은 “이렇게 접근하고 있다”까지만 말할 수 있고, “해결됐다”고 말할 자료는 없어.

남은 질문들

  • 격차를 좁히는 대표 기법(domain randomization 등)은 실제로 어떻게 작동하고 어디까지 검증됐는가?
  • 합성 데이터 비중을 늘릴수록 실세계 성능이 오른다는 게 정량으로 확인되는가, 아니면 어느 지점에서 한계가 오는가?
  • 이 격차가 휴머노이드 상용 배포를 실제로 얼마나 늦추고 있는가?