地平线苏治中:开源框架和基础模型赋能具身智能行业(地平线苏治中最后去哪了) 99xcs.com

12月9日,在地平线首届技术生态大会(Horizon Together 2025)的《从智能汽车到机器人的技术跃迁》专题分论坛上,地平线机器人实验室负责人苏治中发表了题为“开源框架和基础模型赋能具身智能行业”的演讲。

苏治中系统介绍了地平线在具身智能领域的关键技术布局,涵盖四大核心模块:具身智能仿真数据引擎 EmbodiedGen、人形全身运控基础模型 HoloMotion、视觉语言导航模型 VLN,以及通用操作基础模型 HoloBrain。此外,他也重点分享了地平线推出的具身智能学习框架——RoboOrchard。

RoboOrchard 融合了地平线在自动驾驶量产实践中积累的经验,构建为一套更贴近量产需求的学习框架。该框架特别注重数据质量、部署灵活性以及对不同机器人本体的广泛适配能力。

目前,地平线已在 RoboOrchard 框架中开源了多项关键技术,包括视觉语言导航 VLN 中的Think系列和Dream系列,以及通用操作模型 HoloBrain 中的 SEM 与 H-RDT 模块等。

以下是苏治中演讲中的重点内容:

一、 地平线机器人实验室的定位

我们的团队叫地平线机器人实验室。地平线已经有一个子公司叫地瓜机器人,是聚焦在具身智能,包括泛机器人行业的生态,为这个行业去提供底层的芯片以及基础设施的技术。

那么,机器人实验室,更多是地平线内部的一个面向前瞻性研究的机构。我们会用探索去支持包括地瓜机器人在内的整个具身行业。因为具身智能行业仍然处在早期,还有非常多的技术问题需要解决。现在,还远远没有到一个大家去竞争或者PK的阶段,我觉得大家还是要共创去突破一些技术的边界。

机器人实验室简介(图片来源:地平线)

我和我的团队都是来源于地平线原有的智驾团队,有非常丰富的量产经验,同时,也有很多、很不错的研究成果产生,包括像我们跟李弘扬老师共同完成的UniAD,曾经获得了CPR2023的Best Paper。

二、地平线在具身智能领域的关键技术布局

对于具身智能,我们实验室在几个关键技术上都是有一定的布局。我们知道,如果一台机器人要去最终完成一个任务,首先需要有数据,我们要有仿真的数据引擎去构建一个环境;之后,机器人需要能够控制自己的身体,来完成运动控制的功能;紧接着,它要能够到达目的地,要有导航的功能;到了目的地之后,要用双手灵巧地去操作,来完成具体的任务。

地平线的具身智能关键技术布局(图片来源:地平线)

所以,我会在这几个方面分享一些我们的进展。

1. EmbodiedGen具身智能仿真数据引擎

首先是我们的EmbodiedGen —— 具身智能仿真数据引擎,EmbodiedGen是一个一站式的数字资产的生成引擎。EmbodiedGen生成的数据是可以一键式导入主流的仿真器。

EmbodiedGen具身智能仿真数据引擎(图片来源:地平线)

当前,获取具身智能的真实数据普遍是采用遥操作的方式,但是这种方式成本非常高,需要大量的机器人本体和遥操员。但是通过仿真数据引擎,我们可以生成真实且低成本的一些资产,给具身智能的机器人提供一个训练环境。

EmbodiedGen有两个流程:一个是通过Real2Sim,可交互式重建的技术去构建数字孪生;另一个则是通过完全AI生成的方式去构建虚拟环境。

1)Real2Sim

Real2Sim的管线(Pipeline)是通过输入一些用手机或者任意的相机拍摄的一些照片,它就能够复刻出来相对应的仿真环境,且跟我们的真实世界是能够非常逼真的去对齐,可以进行一些模型的训练。当然,中间过程中会涉及到各种各样的一些基础模型或者技术。

Real2Sim 构建物理世界的数字孪生(图片来源:地平线)

在Real2Sim里面有我们两个自己的关键工作:一个是IGFuse,它能够通过多张视角的图片去构建一个可交互的的环境,即进行可交互的重建,分离背景和前景;另一个是3d-Fixer,是一种前馈式的重建技术。它的核心能力是在单张图输入的情况下,通过前馈式的推理,端到端生成完整、可交互的数字孪生场景。

Real2Sim 技术组件(图片来源:地平线)

2)AI生成方式

纯AI生成的方式就跟真实世界没有关系了。我们可以通过一些任务的提示作为输入,比如说,我要完成把一个香蕉捡起来放到桌上的任务,然后用Franka机械臂作为一个输入 。整套管线就能够生成一个用来执行此任务的环境,过程中也涉及到各种大模型的一些应用。

AI Generation 可交互数字世界生成(图片来源:地平线)

这套管线也包含我们两个关键的工作:纹理生成和铰链物体生成。

AI Generation 技术组件(图片来源:地平线)

a.纹理生成:可以通过去融入文生图的基础模型以及3D的纹理生成模型的一种混合的微调,去获得一个真实的且容易控制的3D资产的纹理。

b.铰链物体生成:我们今年在NeurIPS2025上发表的DIPO ,它是通过两张图片去生成一个可交互的铰链物体,所谓铰链物体就是像抽屉、门这类的物体。原有的生成技术面临的一个问题是:比如说,一个东西是门还是抽屉,它存在歧义。我们是通过一张关闭的和一张打开的两张图片,就能够完美的复现出来一个铰链的物体。

2. HoloMotion人形全身运控基础模型

HoloMotion包含了完整的管线(Pipeline),可以让大家通过这套东西去做数据的获取,做模型的并行训练,最终能够得到一个实时的、鲁棒且可泛化的全身运控的模型。

https://horizonrobotics.github.io/robot_lab/holomotion/ (二维码自动识别)

当前,HoloMotion的技术架构并不复杂,是相对比较传统的Teacher-Student的架构。Student的这部分,采用的是基于Tranformer 的MoE架构, 用一个大模型来执行这种复杂的动作。

HoloMotion当前技术架构(图片来源:地平线)

现在,HoloMotion已经实现了Imitate any pose,即对于任意轨迹的跟踪。在未来一年,我们计划让HoloMotion支持Follow any command(执行任意指令)、Control any embodiment(控制任意的本体)以及Move on any terrain(在任意的地形上去行走)。

HoloMotion的Roadmap(图片来源:地平线)

我们也详细地列出了技术架构,包括如何去做Motion plan,如何去做 Universal的Motion embedding,如何去做 Motion tracking。

HoloMotion可以通过仅仅观察视频去学习视频中的舞蹈演员的动作,然后复刻到机器人身上。得益于HoloMotion的这种并行的强化学习训练,我们可以完成任意多数量的舞蹈,在一天之内就能完成学习。

3. VLN视觉语言导航

我们刚刚完成的一套有图的视觉语言导航的方案。它同样是基于大模型的能力,名字叫FSR-VLN: Fast and Slow Reasoning for Vision-Language Navigation。

视觉语言导航方案FSR-VLN(图片来源:地平线)

我们会把特征图作为Memory,通过不同层级的检索系统来获取一个鲁棒的 VLN。现有VLA大模型很少有Memory。

除此之外,我们还有一些没有地图或者说没有记忆的导航工作:Think系列Dream系列。

1)Think系列

Think系列包含两大部分:Aux-Think 和Progress-Think。

视觉语言导航 Think系列(图片来源:地平线)

Aux-think,就是辅助思考的意思,是业界首次系统地去验证思维链作为一个辅助监督的一种方法。它使用大概只有50%的数据量,就能获得现在业界最好的一个效果。

思维链是在大语言模型推理阶段常用的一个方案,即通过增加在推理阶段的开销来获取更好效果。我们是比较创新性地把它作为一个辅助监督搬到了训练阶段,同时又不损失性能。

Progress-Think,也是我们最近刚刚完成的,通过一个额外的模块去预测VLN在当前阶段的任务达成程度。比如,它要去某个地点,已经完成了大概30%,通过自监督的去学习“进度”的方法来去获得性能提升。

2)Dream系列

Dream可以认为是一边行走,一边想象,或者说一边在大脑中去构思未来的场景的一种方法。它其实是一种结合世界模型和端到端的一种比较好的方法。

目前,我们刚刚发布Dream系列中的MonoDream,它是通过单目去想象环视图来进行VLN的工作。

视觉语言导航 Dream系列(图片来源:地平线)

左侧是它的结构图,我们可以看到:它输入的仅仅是单帧的图片,但是它在“想象”自己周围的环境。右侧则是它定性和定量的一些评价。

同样,MonoDream也是在数据量非常小的情况下达到了特别好的效果。

4. HoloBrain 通用操作基础模型

通用操作应该说是具身智能最难的一个任务,跟导航或者运控不一样,操作模型要能够理解通用的指令、通用的环境,同时,又要控制机械臂和一些物体去发生一些很精巧的交互。它其实还要对这些物体的一些物理属性能够有一定的认知,所以它是非常困难的。

1)HoloBrain技术架构

现在,HoloBrain虽然发布了,但是我们暂时还没有开源。前面,我们刚刚讲过的所有内容都是已经开源了。这里简单给大家介绍一下HoloBrain的框架图。

HoloBrain 技术架构(图片来源:地平线)

最左侧,其实是大规模的预训练,遵循现有大语言模型类似的训练范式,从大规模预训练到后训练的过程。

在预训练阶段,我们不仅会应用到真实世界的机器人的数据,也会广泛地应用仿真数据和大规模人类数据的预训练,因为人类数据在互联网上是非常多的。当然,目前像这种第一视角的数据也并不是那么丰富。

在模型架构层面,我们做的主要的一个创新是空间感知的增强。现有的VLA通常是指输入单张图片,也不做太多空间的建模。

地平线(地瓜机器人)作为一个“大脑”这样的公司,我们其实是希望能够去支持“一脑多型”。既然要支持“一脑多型”,去构建一个相对的动作空间,能够在不同的本体上去适配是非常重要的,所以我们也研发了Unify Relative Action Space。

在后训练阶段,除了高精度的数据,还需要有强化学习。除了强化学习之外,我们也会用前面讲到EmbodiedGen生成的这种高精度的 、高真实度的仿真数据去做一个Co-Training。

HoloBrain也会由我们完成的一些关键的技术工作去组成,包括SEM和 H-RDT。

a. 技术组件 SEM

SEM是Enhancing Spatial UnderStanding for Robot Manipulation ,是我们自研的在VLA上进行空间感知增强的一个模型结构,与常见的VLA不同,它不做任何的空间建模。

HoloBrain 技术组件:SEM(图片来源:地平线)

但是在SEM里面,首先我们会统一所有的相机跟机械臂的坐标系,让它们是在同一个坐标系下去工作。其次,在模型结构层面,我们也会“显式”地将内参和外参编码到VLA中。

通过这样的两个步骤,包括机械臂的的状态、末端的相对位置等,都会在统一的空间下去进行建模和编码,这个在目前的学术界其实做得比较少。这也是因为我们过去做自动驾驶的一个“直觉”,做自动驾驶不可能不在模型中对内参和外参进行建模。

这样的两个创新点,也是让我们在仿真任务上—— RobotTwin的16个任务和真机实验上的性能都取得了明显的提升。而且,更重要的是我们进行了一个相机高度的泛化性测试,空间感知的增强也表现出了非常好的相机泛化性。其实,现有的工作很少有去关注这一点,关注这一点也是跟我们过去自动驾驶的背景有很大的关系。

b. 技术组件H-RDT

RDT 是清华大学研究的、非常有名的、且早于π0的一个双臂操作的基础模型。H-RDT是地平线和清华大学共同在RDT的基础上去扩展了人类数据预训练的能力。

它有两阶段的训练:第一个阶段会去用人类数据,即人类的第一人称视角数据,就是人手的数据去做一个预训练 。之后,再去进行基于多种本体机械臂的后训练,来获得一个比较好的性能。

HoloBrain 技术组件:H-RDT(图片来源:地平线)

其实,我们做了非常多的实验。在右侧,我们仅仅展示了一个基于UMI去做采集,基于UR5去做部署的一个效果。可以看到,其实它相比原版的RDT,相比π0以及相比不用人类数据做预训练的效果,其实提升都非常明显。

2) HoloBrain的Roadmap

具身智能现在仍然处在早期,所以,这里也给大家分享一下我们对于具身智能通用的操作模型达成的一个Roadmap,在模型结构、通用能力、训练范式和数据引擎上其实都有非常多的工作要去做。

HoloBrain通用操作基础模型的Roadmap(图片来源:地平线)

在模型层结构层面,我们会由现在的仅仅是在VLA上去做一些微创新,到VLA与Word model的结合,再到Latent Thinking ,即在“隐空间”上做一个思考。

在通用能力层面,现在大家更多关注的是环境的泛化。 之后我们也会关注更多的模态融合,包括触觉以及目标物的泛化。比如说,我要抓取 ,它对任意物体要都能完成抓取。最后,我们会期望能够达到通用指令的In-Context Learning,就是上下文学习,能够对于未见过的指令实时地去建模和学习,达成这样的通用操作能力。

在训练范式上,现有的是采用大规模的模仿学习和少量的强化学习。我们期望能够进展到大规模的强化学习,大规模的强化学习才有可能达到一个“超人”的状态。最后是终身学习,我们知道现有的模型一旦它部署之后,它就不会再改进了。终身学习,不仅仅是具身智能,也是整个AI行业都非常关注的一个话题。

在数据引擎层面,除了现在我们做的跨本体和人类数据的预训练之外,我们也会进一步地去应用仿真数据,弥合Sim2Real Gap。最终,完成VLA模型完全在Word Model中的训练。

三、RoboOrchard具身智能学习框架

我们还开源了RoboOrchard 具身智能学习框架。像我们刚刚讲到的那些具身智能的模型,比如说导航的Think系列,Dream系列,以及我们的操作模型SEM和H-RDT都是在RoboOrchard的框架中进行开源。

https://github.com/HorizonRobotics/RoboOrchardLab (二维码自动识别)

这个框架包含完整的ROS2 Packages ,方便大家去部署。另外,在library层面也包含了从数据到训练到仿真的全链路环节。

RoboOrchard也是结合过去我们在自动驾驶量产领域的一些经验,去构建了一套更面向于量产,更关注包括数据质量、部署灵活度、对于不同本体适配程度的一个学习框架。

RoboOrchard的特性(图片来源:地平线)

如果大家期望把一个具身智能产品落地,又期望找到一个好的框架,我相信RoboOrchard一定会帮助到大家。