DeepResearch

NVIDIA의 2025 GTC 컨퍼런스: AI 로봇 기술의 새로운 시대

AgentAIHub 2025. 3. 22. 00:00
728x90

AI 로봇 기술이 급속도로 발전하며 현실과 공상과학의 경계가 허물어지고 있습니다. NVIDIA의 2025 GTC 컨퍼런스에서 공개된 혁신적인 AI 로봇 기술은 그 어느 때보다 흥미로운 미래를 보여주고 있습니다. 특히 GR00T N1 모델과 같은 최첨단 AI 시스템이 로봇의 사고, 계획, 그리고 행동 방식을 완전히 변화시키고 있습니다. 이번 글에서는 NVIDIA가 주도하는 AI 로봇 기술의 혁신과 미래 전망에 대해 살펴보겠습니다.

 

NVIDIA’s New AI Robots SHOCK The World: They Think and Learn Faster Than Humans!

NVIDIA의 2025 GTC 컨퍼런스에서 공개된 **AI 로봇 기술의 혁신**을 다룬 영상입니다. 특히, Groot N1 모델은 로봇이 인간처럼 생각하고 계획하며 복잡한 작업을 수행할 수 있도록 설계되었습니다. Google

lilys.ai

 

GR00T N1: 휴머노이드 로봇을 위한 오픈 파운데이션 모델

GR00T N1은 휴머노이드 로봇을 위한 오픈 파운데이션 모델로, 로봇이 인간처럼 생각하고 행동할 수 있도록 설계되었습니다. 이 모델은 비전-언어-행동(VLA) 모델로서 이중 시스템 아키텍처를 채택하고 있습니다7.

시스템 아키텍처의 혁신

GR00T N1은 인간의 인지 처리 방식에서 영감을 받은 이중 시스템 구조를 갖추고 있습니다:

  1. 시스템 2 (추론 모듈): 사전 훈련된 비전-언어 모델(VLM)로, NVIDIA L40 GPU에서 10Hz로 실행됩니다. 로봇의 시각적 인식과 언어 지시를 처리하여 환경을 해석하고 작업 목표를 이해합니다7.
  2. 시스템 1 (행동 모듈): 행동 흐름 매칭으로 훈련된 확산 변환기(Diffusion Transformer)로, VLM 출력 토큰에 교차 주의를 기울이고 다양한 상태와 행동 차원을 처리하기 위해 특정 신체 인코더와 디코더를 사용합니다. 더 높은 주파수(120Hz)로 폐루프 모터 동작을 생성합니다7.

이 두 모듈은 트랜스포머 기반의 신경망으로 구현되어 있으며, 추론과 액추에이션 사이의 조정을 촉진하기 위해 훈련 중에 밀접하게 결합되고 공동으로 최적화됩니다.

혁신적인 데이터 피라미드 접근법

GR00T N1의 주목할 만한 특징 중 하나는 '데이터 피라미드' 구조를 통한 훈련 방식입니다. 이 구조는 다음과 같이 구성됩니다7:

  • 기반층: 웹 데이터와 인간 비디오의 대규모 양으로 구성됩니다.
  • 중간층: 물리 시뮬레이션으로 생성되거나 기성 신경망 모델로 보강된 합성 데이터로 구성됩니다.
  • 상단층: 물리적 로봇 하드웨어에서 수집된 실제 데이터로 구성됩니다.

이러한 계층적 접근 방식은 하위 계층에서 넓은 시각적, 행동적 선행 지식을 제공하고, 상위 계층에서는 실제 로봇 실행에 접지된 경험을 보장합니다7.

DexMimicGen: 합성 데이터 생성의 비약적 발전

NVIDIA의 AI 로봇 기술에서 가장 주목할 만한 혁신 중 하나는 DexMimicGen을 사용한 합성 데이터 생성 방식입니다. 이 시스템은 로봇 훈련을 위한 데이터 부족 문제를 해결하는 강력한 솔루션을 제공합니다7.

놀라운 효율성

DexMimicGen은 소량의 인간 시연에서 시작하여 시뮬레이션에서 변환과 재생을 적용하여 데이터셋을 자동으로 확장합니다. 단 11시간 만에 780,000개의 시뮬레이션 궤적을 생성했는데, 이는 6,500시간 또는 9개월 연속적인 인간 시연 데이터에 해당하는 양입니다7.

작동 방식

  1. 각 작업은 객체 중심의 하위 작업 시퀀스로 분해됩니다.
  2. 초기 인간 시연은 단일 객체와 관련된 하위 작업에 해당하는 더 작은 조작 시퀀스로 분할됩니다.
  3. 이러한 세그먼트는 객체의 위치에 맞게 정렬하여 새로운 환경에 적응하고, 로봇의 엔드 이펙터와 객체 간의 상대적 자세를 보존합니다.
  4. 시스템은 로봇의 현재 상태와 변환된 세그먼트 사이의 움직임을 보간하여 원활한 실행을 보장합니다.
  5. 로봇은 단계별로 전체 시퀀스를 따르며, 마지막에 작업 성공 여부를 확인합니다.
  6. 성공적인 시연만 보존되어 고품질 데이터를 보장합니다7.

성능 향상

GR00T N1 모델은 이렇게 생성된 합성 데이터와 실제 데이터를 함께 사용함으로써 성능이 약 40% 향상되었습니다. 이는 로봇 시스템의 훈련 속도가 크게 증가할 수 있음을 시사합니다.

시뮬레이션과 실제 성능의 놀라운 결과

GR00T N1의 성능은 다양한 벤치마크와 실제 환경에서 검증되었습니다.

시뮬레이션 벤치마크 성능

세 가지 시뮬레이션 벤치마크에서 GR00T N1의 성능은 기존의 모방 학습 기준선을 크게 뛰어넘었습니다7:

벤치마크BC TransformerDiffusion PolicyGR00T-N1-2B
RoboCasa 26.3% 25.6% 32.1%
DexMG 53.9% 56.1% 66.5%
GR-1 16.1% 32.7% 50.0%
평균 26.4% 33.4% 45.0%
 

실제 로봇 성능

GR00T-N1-2B는 GR-1 휴머노이드 로봇에서도 테스트되어, Diffusion Policy보다 10% 데이터 설정에서 32.4% 높은 성공률, 전체 데이터 설정에서 30.4% 높은 성공률을 달성했습니다7.

특히 주목할 만한 점은 GR00T-N1-2B가 데이터의 10%만으로 훈련했음에도, 전체 데이터로 훈련된 Diffusion Policy보다 성능이 단지 3.8% 낮았다는 것입니다. 이는 모델의 높은 데이터 효율성을 보여줍니다7.

미래 전망: 도전과 기회

NVIDIA의 AI 로봇 기술은 인상적인 발전을 이루었지만, 아직 해결해야 할 도전 과제도 남아 있습니다.

현재의 한계

현재 GR00T N1 모델은 주로 단기 테이블탑 조작 작업에 중점을 두고 있습니다. 장기적인 로코모션 작업을 다루기 위해서는 휴머노이드 하드웨어, 모델 아키텍처 및 훈련 데이터의 발전이 필요합니다7.

미래 방향성

  1. 더 강력한 비전-언어 백본: 모델의 공간 추론, 언어 이해 및 적응성을 향상시킬 것으로 예상됩니다7.
  2. 합성 데이터 생성 기술 향상: 비디오 생성 모델과 자동화된 궤적 합성 시스템을 활용한 접근법이 큰 가능성을 보였으나, 물리 법칙을 준수하면서 다양하고 반사실적인 데이터를 생성하는 데는 여전히 도전이 있습니다7.
  3. 새로운 모델 아키텍처: 일반화 로봇 모델의 견고성과 일반화 능력을 향상시키기 위한 새로운 모델 아키텍처와 사전 훈련 전략을 탐색할 계획입니다7.

결론: AI 로봇 기술의 밝은 미래

NVIDIA의 2025 GTC 컨퍼런스에서 공개된 AI 로봇 기술은 로봇 산업의 미래를 밝게 보여줍니다. GR00T N1과 같은 혁신적인 모델은 로봇이 인간처럼 생각하고 행동할 수 있는 능력을 크게 향상시켰습니다.

합성 데이터 생성 방식의 발전은 로봇 학습의 속도와 효율성을 크게 높였으며, 이중 시스템 아키텍처는 로봇의 추론과 행동 능력을 새로운 차원으로 끌어올렸습니다.

앞으로도 NVIDIA, Google DeepMind, Disney Research와 같은 기업들의 협업을 통해 AI 로봇 기술은 계속해서 발전할 것이며, 이는 우리의 일상생활에서 로봇의 활용 가능성을 더욱 확장시킬 것입니다.

NVIDIA's 2025 GTC Conference: A New Era of AI Robot Technology

AI robot technology is advancing rapidly, blurring the line between reality and science fiction. The innovative AI robot technology unveiled at NVIDIA's 2025 GTC Conference shows a more exciting future than ever before. In particular, cutting-edge AI systems like the GR00T N1 model are completely transforming how robots think, plan, and act. In this article, we'll explore the innovations and future prospects of AI robot technology led by NVIDIA.

GR00T N1: An Open Foundation Model for Humanoid Robots

GR00T N1 is an open foundation model for humanoid robots, designed to enable robots to think and act like humans. This model is a Vision-Language-Action (VLA) model that adopts a dual-system architecture7.

Innovation in System Architecture

GR00T N1 features a dual-system structure inspired by human cognitive processing:

  1. System 2 (Reasoning Module): A pre-trained Vision-Language Model (VLM) that runs at 10Hz on an NVIDIA L40 GPU. It processes the robot's visual perception and language instructions to interpret the environment and understand the task goal7.
  2. System 1 (Action Module): A Diffusion Transformer trained with action flow-matching, which cross-attends to the VLM output tokens and employs embodiment-specific encoders and decoders to handle variable state and action dimensions. It generates closed-loop motor actions at a higher frequency (120Hz)7.

Both modules are implemented as Transformer-based neural networks, tightly coupled and jointly optimized during training to facilitate coordination between reasoning and actuation.

Innovative Data Pyramid Approach

One of the notable features of GR00T N1 is its training method through a 'data pyramid' structure. This structure consists of7:

  • Base Layer: Large quantities of web data and human videos.
  • Middle Layer: Synthetic data generated with physics simulations or augmented by off-the-shelf neural models.
  • Top Layer: Real-world data collected on the physical robot hardware.

This hierarchical approach provides broad visual and behavioral priors from the lower layers and ensures grounding in embodied, real-robot execution from the upper layers7.

DexMimicGen: A Leap Forward in Synthetic Data Generation

One of the most notable innovations in NVIDIA's AI robot technology is the synthetic data generation method using DexMimicGen. This system provides a powerful solution to the problem of data scarcity for robot training7.

Amazing Efficiency

DexMimicGen starts with a small set of human demonstrations and automatically expands the dataset by applying transformation and replay in simulation. In just 11 hours, it generated 780,000 simulation trajectories, equivalent to 6,500 hours or 9 months of continuous human demonstration data7.

How It Works

  1. Each task is decomposed into a sequence of object-centric subtasks.
  2. The initial human demonstrations are segmented into smaller manipulation sequences, each corresponding to a subtask involving a single object.
  3. These segments are adapted to new environments by aligning them with the object's position, preserving the relative poses between the robot's end effector and the object.
  4. The system interpolates movements between the robot's current state and the transformed segment to ensure smooth execution.
  5. The robot follows the full sequence step by step, verifying task success at the end.
  6. Only successful demonstrations are retained, ensuring high-quality data7.

Performance Improvement

By using this synthetic data along with real data, the GR00T N1 model achieved a performance improvement of about 40%. This suggests that the training speed of robot systems can be significantly increased.

Impressive Results in Simulation and Real-World Performance

The performance of GR00T N1 has been validated in various benchmarks and real-world environments.

Simulation Benchmark Performance

In three simulation benchmarks, GR00T N1's performance significantly surpassed existing imitation learning baselines7:

BenchmarkBC TransformerDiffusion PolicyGR00T-N1-2B
RoboCasa 26.3% 25.6% 32.1%
DexMG 53.9% 56.1% 66.5%
GR-1 16.1% 32.7% 50.0%
Average 26.4% 33.4% 45.0%
 

Real Robot Performance

GR00T-N1-2B was also tested on the GR-1 humanoid robot, achieving a 32.4% higher success rate in the 10% data setting and a 30.4% higher success rate in the full data setting compared to Diffusion Policy7.

Particularly noteworthy is that GR00T-N1-2B, trained on just 10% of the data, performed only 3.8% lower than Diffusion Policy trained on the full dataset. This demonstrates the model's high data efficiency7.

Future Outlook: Challenges and Opportunities

While NVIDIA's AI robot technology has made impressive progress, there are still challenges to be addressed.

Current Limitations

Currently, the GR00T N1 model focuses primarily on short-horizon tabletop manipulation tasks. Advances in humanoid hardware, model architecture, and training corpora are needed to address long-horizon locomotion tasks7.

Future Directions

  1. Stronger Vision-Language Backbone: Expected to enhance the model's spatial reasoning, language understanding, and adaptability7.
  2. Enhanced Synthetic Data Generation Techniques: Approaches leveraging video generation models and automated trajectory synthesis systems have shown great promise, but there are still challenges in generating diverse and counterfactual data while adhering to the laws of physics7.
  3. Novel Model Architectures: Plans to explore novel model architectures and pre-training strategies to improve the robustness and generalization capabilities of generalist robot models7.

Conclusion: A Bright Future for AI Robot Technology

The AI robot technology unveiled at NVIDIA's 2025 GTC Conference shows a bright future for the robotics industry. Innovative models like GR00T N1 have greatly enhanced robots' ability to think and act like humans.

Advances in synthetic data generation methods have significantly increased the speed and efficiency of robot learning, and the dual-system architecture has brought robots' reasoning and action capabilities to a new dimension.

Going forward, AI robot technology will continue to evolve through collaboration between companies like NVIDIA, Google DeepMind, and Disney Research, further expanding the potential for robots in our daily lives.

태그

#NVIDIA #GTC2025 #AI로봇 #GR00TN1 #휴머노이드로봇 #합성데이터 #DexMimicGen #로봇학습 #DeepMind #DisneyResearch #미래기술 #로봇공학 #인공지능 #머신러닝 #컴퓨터비전

Citations:

  1. https://openreview.net/pdf/d0fe62f6491c4d9c249830cc1e2365af0dde847b.pdf
  2. https://openreview.net/pdf?id=WSu1PPi2UP
  3. https://arxiv.org/pdf/2503.07049.pdf
  4. https://arxiv.org/pdf/2402.13272.pdf
  5. https://arxiv.org/html/2502.08844v1
  6. https://arxiv.org/html/2406.00024v2
  7. https://arxiv.org/html/2503.14734v1
  8. https://arxiv.org/html/2502.03729v1
  9. https://arxiv.org/html/2502.05485v1
  10. https://openreview.net/pdf/eab1a57cb36aef998b7c1e576fe6782daf963a21.pdf
  11. https://arxiv.org/html/2503.05484
  12. https://arxiv.org/html/2406.01152v2
  13. https://arxiv.org/pdf/2502.10156.pdf
  14. https://arxiv.org/pdf/2411.02445.pdf
  15. https://arxiv.org/pdf/2502.10012.pdf
  16. https://openreview.net/attachment?id=CyOMLspU6dl&name=pdf
  17. https://arxiv.org/html/2411.14423v1
  18. http://arxiv.org/pdf/2304.03442.pdf
  19. https://www.arxiv.org/list/cs.AI/2024-02?skip=225&show=2000
  20. https://arxiv.org/pdf/2301.02123.pdf
  21. http://arxiv.org/list/cs/2023-03?skip=5825&show=1000
  22. https://arxiv.org/pdf/2208.13501.pdf
  23. https://web3.arxiv.org/list/cs.AI/2023-03?skip=825&show=2000
  24. https://arxiv.org/pdf/2107.14052.pdf
  25. https://arxiv.org/pdf/2502.10420.pdf
  26. http://arxiv.org/list/cs.RO/2025-02?skip=100&show=2000
  27. https://arxiv.org/html/2501.03575v1
  28. https://www.arxiv.org/list/cs.LG/2025-03?skip=1350&show=1000
  29. http://arxiv.org/list/cs.RO/2025-02?skip=325&show=2000
  30. http://www.arxiv.org/list/cs.CV/2025-03?skip=1900&show=100

 

728x90
반응형