企业 | 奔向物理AI,NVIDIA推出开源人形机器人基础模型Isaac GR00T N1

来源: 芯查查资讯 作者:程文智 2025-03-24 20:07:38
在GTC大会上,NVIDIA针对机器人推出了一系列全新的产品,包括全球首个开源且完全可定制的基础模型Isaac GR00T N1,以及其他仿真框架和蓝图等。

在北京时间3月19日凌晨的NVIDIA GTC 2025上,NVIDIA首席执行官黄仁勋大声宣布,AI浪潮将继续,现在我们已经从生成式AI时代,来到了代理式AI时代,接下来将是物理AI时代。NVIDIA走在时代的前沿,在大家都在代理式AI时代时,他们已经在为物理AI时代的到来做准备了。

在黄仁勋看来,机器人将是物理AI时代的重要标志。因此,在GTC大会上,NVIDIA针对机器人推出了一系列全新的产品,包括全球首个开源且完全可定制的基础模型Isaac GR00T N1,以及其他仿真框架和蓝图,比如用于生成合成数据的Isaac GR00T Blueprint、与Google DeepMind及Disney Research共同开发的、专为机器人开发而构建的开源物理引擎 Newton,以及与GE医疗合作的Isaac for Healthcare等。

 

Isaac GR00T N1的特性与优势

能够制造出跟人类一样可以自主执行任务的人形机器人一直是一个令人着迷的目标。近年来,随着机器人硬件、AI和加速计算的进步,让这个看似遥远的目标变得触手可及了。当然,为现实世界任务和不可预测环境场景开发通用人形机器人仍然面临着一系列的挑战。比如每一项任务都需要一个专用的AI模型,而通用人形机器人需要执行海量的任务,这就必然需要这些任务的特定数据,然后用这些数据进行训练,再得到一个可用的模型。如果每一项任务,每一个环境都需要从头训练模型,这将是一项非常庞大的工程,而且成本很高。

 

那有没有什么好的办法呢?NVIDIA给出了他们的一套解决方案,那就是Isaac GR00T,通过提供开源的提供开源 SimReady数据、Isaac Sim和Isaac Lab等仿真框架、合成数据蓝图及预训练基础模型,助力攻克这些挑战并加速通用人形机器人开发进程。

A diagram shows a robot workflow with image, text, and action tokens turned into object manipulation.

今年推出的Isaac GR00T N1就是一个面向通用人形机器人的开源基础模型,该模型采用了双系统架构的视觉-语言-动作(VLA)模型。其中,“系统 1”是一个快速思考的动作模型,反映人类的本能反应或直觉。“系统 2”是慢思考模型,用于进行经过深度思考的决策制定。

 

系统2由视觉语言模型提供支持,它会对所处环境和接收到的指令进行推理,从而规划行动。系统1随后将这些规划转化为精确、连续的机器人运动。系统1基于人类演示数据和 NVIDIA Omniverse平台生成的海量合成数据进行训练。

 

Isaac GR00T N1采用海量人形机器人数据集,再加上Isaac GR00T Blueprint组件生成的合成数据,以及互联网上大规模的视频数据训练后,可将该训练后的模型调整适配到特定机器人本体、任务场景与环境条件下。目前,开发者可以通过Hugging Face平台免费获得GR00T N1模型的部分训练数据。

 

据悉,GR00T N1可轻松适应并完成通用任务,如单手或双手抓取、移动物体,将物体从一只手臂转移到另一只手臂,或执行需要长语境和通用技能组合的多步骤任务。这些功能可应用于物品搬运、包装和检查等各种使用场景中。

 

当然,开发者和研究人员可以使用真实数据或合成数据针对特定人形机器人或任务对GR00T N1进行后训练。

 

1X Technologies首席执行官Bernt Børnich认为GR00T N1模型在机器人推理和技能方面实现了重大突破,仅需要少量的后训练数据,就能在NEO Gamma上全面部署。目前除了1X Technologies,Agility Robotics、波士顿动力、Mentee Robotics 和 NEURA Robotics也都在采用GR00T N1来开发他们的人形机器人产品。

 

Isaac GR00T Blueprint简化训练数据

众所周知,在AI领域算力、算法和数据是其关键三要素,在人形机器人的训练中,数据也是非常关键的。但如果仅靠物理捕获数据,其成本高昂,耗时耗力。因为真实世界中,每人一天只有24小时,由此产生的人类演示数据,对人形机器人来说是远远不够的。

A diagram shows components such as GR00T-Teleop, GR00T-Mimic, and GR00T-Gen.

但NVIDIA推出的用于合成运动生成的Isaac GR00T Blueprint刚好可以弥补这个不足。该蓝图基于Omniverse 和 NVIDIA Cosmos Transfer 世界基础模型构建,让开发者可以通过少量的人工演示生成大量合成运动数据,以用于操作任务。

 

根据NVIDIA官网的介绍,利用为蓝图提供的首批组件,NVIDIA 能够在短短11小时内生成780,000个合成轨迹,相当于6,500小时或连续九个月的人类演示数据。然后,通过将合成数据与真实数据相结合,与仅使用真实数据相比,NVIDIA将GR00T N1的性能提高了40%。

 

Isaac GR00T N1的性能

根据NVIDIA官网对GR00T N1模型进行模拟和现实基准测试评估,以衡量其在多样化机器人形态和操作任务中的性能表现。其中,仿真实验采用了三个不同的基准测试,现实测试则聚焦于GR-1人形机器人的桌面操作任务。

 

首先是仿真基准测试。仿真实验采用了三个基准测试:其中两个为先前研究中已有的开源基准,另一个是新开发的套件,旨在模拟现实世界中的桌面操作任务。

图形用户界面, 应用程序

AI 生成的内容可能不正确。

表1:各仿真基准测试的平均成功率(每项任务使用100次演示)

真实环境测试中,这些模型在多种需要精确物体操控、双手协调动作和高级空间意识的操作任务上进行了评估。

图形用户界面

AI 生成的内容可能不正确。

表2:GR-1人形机器人在现实任务中的平均策略成功率(来源:NVIDIA)

 

图形用户界面

AI 生成的内容可能不正确。

表3:GR-1人形机器人中现实任务中的平均策略成功率(来源:NVIDIA)

从这些测试中可以看到,GR00T N1不仅学习新任务的效率更高,其接收语言指令的精度也显著优于基线方案。

 

结语

除了前面提到的人形机器人,NVIDIA还与Google DeepMind 和 Disney Research 合作,共同开发开源物理引擎 Newton,可让机器人学习如何以更高的精度处理复杂任务。NVIDIA还通过Isaac for Healthcare,与GE医疗合作为能够挽救生命的医疗设备赋予自主能力,助力全球医疗服务普及。

 

可以看出,NVIDIA在人形机器人领域布局甚广,且非常具有前瞻性。

0
收藏
0