2025-07-11
导语:具身智能是智能体通过与环境交互进行感知决策行动的能力是人工智能的前沿研究领域
1 引言
具身智能主要研究智能体与环境交互进行感知认知、行为决策、动作执行的过程,是一个涉及机器人学、计算机视觉、自然语言处理、策略学习等多领域的交叉研究领域。近年来,随着智能机器人、智能汽车、无人机等平台在家庭服务、工业制造、仓储物流等实际应用领域的迫切发展需求以及机器人学、认知科学、计算机视觉等相关交叉领域技术的迅猛发展,具身智能受到越来越多业内的关注。在智能体与环境的交互过程中,感知认知与决策行动是具身智能的主要环节。其中,感知认知环节主要由环境认知理解技术实现,决策行动环节主要由任务行动执行技术实现。而作为上述二者的基础支撑,具身智能基础模型则关注智能体与环境交互的表示方式以及具身智能模型的基础结构。本文第2节、第 3 节和第4节分别从具身智能基础模型、环境认知理解技术和任务行动执行技术三方面对2024年具身智能技术的发展情况进行分析,并在第5节对未来发展趋势进行展望。
2 具身智能基础模型
具身智能基础模型聚焦智能体与环境交互的表示方式以及具身智能模型的基础结构。其中,三维场景表示与三维特征融合技术,建模智能体与三维环境交互信息的表示方式;“视觉-语言-动作”框架,关注具身智能“感知-行动”这一基础回路的构建方法;三维场景重建技术,为环境交互信息表示和基础回路构建提供场景支撑。本节分别从三维场景表示与三维特征融合、“视觉-语言-动作”框架及三维场景重建三方面对具身智能基础模型的发展情况进行分析。
2. 1 三维场景表示与三维特征融合
具身智能要求智能体能够对所处场景进行理解,三维场景表示与三维特征融合是具身智能的重要基础技术。近年来,随着预训练技术、大语言模型和多模态大模型等技术的迅速发展,大模型被用于理解三维空间的几何及语义特性,预训练方法也被用于处理包含三维数据的多模态特征对齐与融合问题。根据场景表示使用的训练方式和框架结构不同,常见的三维场景表示与特征融合主要包括三维信息与大语言模型结合以及多模态预训练两类典型方法。
(1) 基于三维信息与大模型结合的三维场景表示与特征融合
三维信息与大模型结合的方法将三维信息编码成大语言模型或多模态大模型可以处理的形式,通过大模型构建从三维输入到场景几何及语义特性之间的连接。为提升现有大模型对三维空间信息的理解能力,上海交通大学团队构建三维空间理解数据集SpatialQA和SpatialQA-E,提出空间理解模型 SpatialBot,利用对齐的视觉与深度图像增强“视觉-语言”大模型的空间理解能力。谷歌公司团队构建了一个自动生成三维空间推理与问答数据的框架,在1000万幅真实世界图像上收集了 20 亿个空间问答样例,利用数据训练“视觉-语言”模型,使之具备更强的空间理解能力。针对三维多模态大语言模型学习数据规模较小的问题,浙江大学与伊利诺伊理工大学研究团队构造鲁棒指令生成引擎RIG,构建百万级训练数据,生成对抗性与多样化指令数据,同时提出Robin3D模型,将多种物体特征与空间位置特征融合并与对应的物体编码绑定,利用LoRA方法微调大语言模型得到具有更强三维理解能力的模型。针对三维场景特征表示问题,复旦大学团队提出多模态输入的三维场景表示模型 LL3DA,解决与人交互的三维推理及问答问题,该模型可以直接处理三维点云输入,将用户输入的文本、交互图像以及三维点云通过多模态 Transformer 网络学习联合特征表示,并将得到的交互特征与问题特征融合后通过预训练的大语言模型输出结果,可支持三维场景描述、场景问答等任务。Meta 公司团队提出基于大语言模型的三维视觉理解模型 SceneLLM,将场景级别的特征与第一视角的三维特征集成,并将其映射至预训练的文本特征空间,利用大语言模型的推理能力完成三维场景理解和推理。上海人工智能实验室团队提出Ground 3D-LLM模型,将多种三维视觉任务整合成语言形式,利用大语言模型的生成能力构建统一的三维感知推理模型,通过对比学习预训练三维场景编码模块以及跨模态交互模块,将多模态任务信息转化为相应的指示token,在多任务上微调大语言模型从而使之能够灵活适应不同任务。为提升现有模型针对隐式指令的意图推理与三维理解能力,香港大学团队提出新的三维推理定位任务 (3D Reasoning Grounding) 并构建基准数据集,在此基础上提出ReGround3D 模 型, 利 用 定 位 链 (Chain-ofGrounding)机制进行场景-指令联合推理,回看三维场景并定位目标物体位置,微调多模态大语言模型,实现指令隐含信息推理及三维定位。
上述方法使模型具备了三维认知与理解能力,但难以支持需要预测动作的具身任务。为解决该问题,北京通用人工智能研究院团队提出一个具有三维推理能力的通用具身模型 LEO,将输入的文本、二维图像、三维点云、动作进行编码,提取其对应的特征表示输入预训练大语言模型中,使用LoRA方法微调模型,训练得到对齐的三维视觉、语言及动作特征,使模型具备三维场景描述、三维问答、具身推理、任务规划、导航操作等通用能力 (如图 1 所示)。麻省理工学院团队提出三维空间中以物体为中心的多模态大模型MultiPLY,该模型将场景抽象为以物体为结点的三维语义图,编码视觉、语音、触觉以及热量等多模态信息,利用多模态大语言模型完成以物体为中心的三维表示,构造大规模多模态交互数据集并在该数据集上对模型进行训练,使之支持多模态对话、描述、导航等任务。
图1 通用具身模型LEO框架图
(2)基于多模态预训练的三维场景表示与特征融合
多模态预训练的方法将三维数据作为输人模态的一个分支,与其他模态的输入通过统一的网络模型直接进行训练,构建不同模态间的对齐关系。北京通用人工智能研究院团队提出通用模型PO3D,该模型能够处理体素、点云、图像等不同级别的场景表示输人,通过提示引导的查询特征学习方式来完成多种不同的三维视觉语言理解任务。上海人工智能实验室构建第一视角三维感知数据集EmbodiedScan,提出基于稀疏与稠密编码的多模态特征融合模型Embodied Perception 模型,并在该数据集上进行训练,该模型能够处理视觉图像、点云、文本等多模态输人,从中提取对齐的多模态表示并将其用于下游任务。为解决现有三维“视觉-语言”数据集规模较小且缺乏统一的学习框架从三维“视觉-语言”数据中学习空间知识并进行有效场景理解的问题,北京通用人工智能研究院团队构建了第一个百万级的三维“视觉-语言”数据集 SceneVerse用于场景理解,提出基于 Transformer结构及多级别场景-文本对齐技术的预训练模型,模型在SceneVerse数据集上训练后具备在场景理解任务上的零样本泛化能力。
2. 2 “视觉-语言-动作”框架
近年来,“视觉-语言”多模态大模型发展迅速,其能够构建对齐的视觉与文本特征从而完成多模态理解任务。“视觉-语言”多模态大模型的良好性能使研究者们进一步考虑将其部署在机器人上用于环境感知和理解,并基于此生成动作与环境进行交互,构建基于视觉输入的“感知-决策-执行”框架,提升机器人在具身任务上的性能。根据模型的结构及训练方式,常见的“视觉-语言-动作”模型包括端到端的“视觉-语言-动作”框架以及基于预训练大模型的“视觉-语言-动作”框架两类。
(1) 基于端到端训练架构的“视觉-语言-动作”框架
端到端的“视觉-语言-动作”框架直接学习输入的文本和视觉信息与输出的动作之间的映射关系,将语言、视觉以及动作特征融合到统一的框架中。谷歌公司团队提出层次化的“视觉-语言-动作”模型RT-H,将机器人的动作按照文本token的格式进行编码,构建运动语言查询中间层,先预测细粒度的运动语言,再根据预测的运动语言生成具体的机器人控制动作,模型具有更强的鲁棒性并且能够适应多种任务。
加州大学伯克利分校团队提出基于 Transformer 结构的可扩展“视觉-语言-动作”模型 Octo(如图 2 所示),将任务描述、视觉感知以及动作输出的 token 分块,利用注意力机制和逐块掩码的方式训练模型,训练后的模型能够通过微调迅速适应新模态的感知信息以及新的动作空间,并且能够泛化至不同的机器人平台上。斯坦福大学团队提出解决机器人控制问题的“视觉-语言-动作”模型 OpenVLA,以“视觉-语言”模型为骨干模型,将机器人的连续动作映射成离散的“视觉-语言”模型可解析的token形式,在大规模机器人操作数据集上微调模型,提升任务成功率。
图2 “视觉-语言-动作”模型Octo框架图
上述模型能够处理二维视觉感知信息,但没有显式地对三维空间进行理解,三维场景表示模型LEO和MultiPLY 等虽然能够支持三维空间中的动作规划,但未考虑环境的动态运行机理,也未建模执行动作与环境变化之间的关联关系。收到人类决策时通过预测未来状态进行高效动作规划的启发,麻省理工学院团队提出基于环境动态变化预测的三维“视觉-语言-动作”模型 3DVA,以三维场景表示模型为骨干模型,利用预训练的扩散模型生成目标状态,在三维场景表示模型中引入目标特征以及交互 token 生成动作,能够支持具身问答、定位、动作预测等任务。
(2) 基于预训练大模型的“视觉-语言-动作”框架
基于预训练大模型的“视觉-语言-动作”框架直接使用预训练大模型处理输入的视觉及文本信息,利用大语言模型或者多模态大模型的推理和规划能力生成相应的动作,通常无需进行训练。麻省理工学院团队提出 AutoTAMP 框架,利用大语言模型将自然语言输入的任务描述转化为可以被任务运动规划 (Task and Motion Planning,TAMP) 算法处理的中间任务表示形式,再使用TAMP算法生成动作序列完成任务,提升了现有基于大语言模型的动作规划算法的性能。
英伟达公司团队进一步提出“视觉-语言”模型与TAMP算法相结合的层次化规划框架VLM-TAMP ,利用预训练“视觉-语言”大模型生成合理的子任务,再由 TAMP 算法生成动作,当子任务或动作规划有误时,“视觉-语言”大模型重新进行子任务规划,提升模型鲁棒性。随后,该团队提出开放世界任务与运动规划框架OWL-TAMP,利用“视觉-语言”大模型推理开放世界任务中的动作序列的离散约束和决策变量的连续约束,增强 TAMP算法能力,使之能处理开放世界任务。同时,英伟达公司团队提出REPLAN模型,将评估和反馈模块与动作规划模块相结合,利用大语言模型推理动作规划与执行是否有效,执行失败时迭代更新规划结果,提升模型完成任务的成功率。上述基于预训练大模型的“视觉-语言-动作”框架将输入信息、场景信息及状态信息表示为特定的文本结构,利用大模型在文本上的推理能力生成动作,但并未对场景的三维空间信息进行建模或者显式表示,使模型对场景空间特征的构建能力有所欠缺。而现有预训练大模型对三维空间信息的理解和推理能力有限,也限制了生成的动作策略的精准程度。
2. 3 三维场景重建
三维场景重建以单张或多张场景图像为输入,构建当前场景的完整三维模型。现有经典三维重建方法包括基于神经辐射场 (Neural Radiance Field,NeRF)、基于扩散模型 (Diffusion) 和基于三维高斯泼溅 (3D Gaussian Splatting) 等方法 ,为了充分利用各类方法的优点,常常将上述方法结合使用,提升三维重建的速度和效果。谷歌公司团队提出基于扩散先验的三维重建模型ReconFusion,该模型在三维重建过程中将扩散模型作为先验引入Zip-NeRF模型中,用三张图片完成高质量的场景渲染与重建。斯坦福大学团队提出以单张图像为输入的三维场景新视角生成模型 ZeroNVS,训练扩散模型进行新视角图像合成,再进行三维分数蒸馏采样 (Score Distillation Sampling,SDS),完成对场景360°新视角的生成。三维高斯泼溅方法具有显式辐射场表示和快速渲染能力,能够较为精确地模拟环境的形状信息,近年来被广泛用于室内静态场景、室外静态场景的重建以及动态三维场景的重建。
数字孪生系统能够为机器人模拟三维空间,可用于机器人的策略模拟与学习。麻省理工学院团队提出基于真实场景重建的鲁棒策略学习框架RialTo,在不需要人工收集大量真实环境数据以及仿真工程的情况下,学习机器人在真实环境下能够应对环境干扰的鲁棒策略,该框架利用“真实到仿真到真实 (Real-to-Sim-to-Real) ”技术,使用智能手机扫描创建真实环境的数字孪生,使机器人在模拟环境中训练策略,再利用蒸馏策略将仿真环境中的策略迁移回真实场景中,超越传统的模仿学习方法。斯坦福大学团队提出三维场景构建的数字表亲框架 ACDC,该框架不需精确地模拟现实世界中的场景细节,而是保留场景中相似的几何和语义属性,利用“真实到仿真到真实”技术,使机器人学习更加鲁棒的动作策略。
3 环境认知理解技术
具身智能需要智能体对所处环境中的空间信息及语义信息进行理解,并具备空间推理能力。根据认知信息的不同类型,可将环境认知理解技术分为三维识别与追踪技术、三维图谱构建技术、三维空间理解与推理技术等。
3. 1 三维识别与追踪
三维目标识别和三维分割是两类重要的三维识别任务。三维目标识别要求智能体识别当前场景中的三维物体,生成物体三维检测框和类别。英伟达公司团队提出基于扩散模型的单图像三维目标检测模型3DiffTection,利用三维感知的扩散模型提取特征,分别从几何和语义上增强三维扩散特征,再将该特征引入三维目标检测模型中,提升三维检测能力。香港大学团队提出一种多域统一的单目三维目标检测模型UniMODE,构建两阶段检测框架,引入统一的域对齐技术,在室内室外等不同场景中均表现出良好性能。
三维分割要求智能体以三维信息为输入,对当前场景中的所有物体的三维模型进行分割。慕尼黑工业大学团队提出开放词汇快速三维实例分割框架Open-YOLO3D,使用二维目标检测器提取目标物体二维边界框,使用三维实例分割网络在点云中生成与类别无关的三维掩码,利用快速算法将二维信息与三维信息对齐,完成开放词汇的实例分割。麻省理工学院团队提出开放词汇三维实例分割模型Open3DIS,将二维实例分割掩码反向投影并层次化聚合相应的点云区域从而构建三维实例分割候选区域,提升对于小尺寸和几何模糊物体的识别准确率。谷歌公司团队进一步提出 Search3D 框架,通过 SigLIP 模型将物体及物体各部分的特征共同映射到同一个表示空间中,实现三维空间中细粒度的实例分割和实体搜索。
哥伦比亚大学团队提出仅以三维点云数据为输入的开放词汇三维实例分割模型 OpenIns3D,基于点云数据生成不同比例的场景级图像,利用二维检测模型提取物体类别信息,与点云分割生成的掩码候选区域进行对应,匹配每个掩码对应的类别,提升三维实例分割准确率。针对动态变化的场景,Meta 公司团队提出 EgoLifter 模型,以传感器捕获的第一视角场景视频为输入,通过瞬态预测网络过滤了场景中动态移动的物体来完成静态三维场景的重建,并完成开放世界物体分割,从场景中分割出存在的所有物体的三维模型。此外,针对不同类型的分割任务,三星公司团队提出一个能够同时处理三维语义分割、实例分割与全景分割的统一模型 OneFormer3D,模型基于Transformer 解码器结构对语义与实例分割进行联合训练,在三类分割任务上的表现均超过现有仅能完成单一任务的模型。随后,华中科技大学团队提出通用分割模型UniSeg3D,进一步将模型可支持的分割任务扩展至六类,包括语义分割、实例分割、全景分割、交互分割、指代分割以及开放词汇分割,模型通过对比学习和知识蒸馏等方式共享不同分割任务中的知识,在不同数据集和不同分割任务上的表现均超过现有模型。
研究者进一步利用三维分割信息对场景中的动态物体进行识别与轨迹跟踪。谷歌公司和微软公司团队提出EgoGaussian模型,根据第一视角视频同时完成三维场景重建以及对与人交互的动态物体的轨迹跟踪,利用人类活动的动态特性对与人进行交互的物体移动轨迹进行跟踪,但不能处理动态场景中可自主移动物体的轨迹追踪与行为预测问题。加州大学伯克利分校团队探索了根据第一视角视频在三维空间中跟踪多个活跃物体的方法,将二维图像观测结果与三维空间位置、视觉表征相结合实现对频繁进出摄像头视野的动态三维物体的跟踪。牛津大学团队将三维空间信息引入二维目标分割与跟踪模型中,实现以第一视角视频为输入的三维目标跟踪模型,能够重新识别长时间不在视频中出现的物体并进行轨迹跟踪。
3. 2 三维图谱构建
三维图谱构建要求智能体对当前场景中的物体空间位置及语义关系进行理解和建模,并构建三维空间中的场景图谱。德国弗莱堡大学团队提出基于多智能体信息融合的动态、层次化的室外三维城市场景图谱构建模型,通过空间和语义信息的抽象生成包括环境、道路、地标、车辆、车道线、关键帧等多个层次的场景图,支持自动驾驶汽车在城市环境中的定位、路径规划、导航等任务。在开放词汇三维图谱构建任务中,多伦多大学与麻省理工学院团队提出室内开放词汇三维场景图表示模型ConceptGraphs,利用开放词汇实例分割模型对场景中物体进行分割并与已构建图谱中的物体进行关联以及特征更新,利用大语言模型生成各节点之间的空间关系,构建的三维场景图谱能够支持机器人在下游的感知和规划任务。北京理工大学团队进一步提出在大规模室外环境中的开放词汇层次化三维图谱表示框架OpenGraph,利用“视觉-语言”模型从图像中提取各实体的描述和特征,构建以实体为中心的三维语义地图,基于车道图连通性对环境进行分割,构建五层的三维语义图,可用于下游的实体检索、路径规划、地图更新等任务。
3. 3 三维空间理解与推理
三维空间理解与推理任务通常需要智能体构建所处空间的三维表示,并利用该三维表示根据用户需要生成下游任务结果,包括上下文实体定位、实例检索、空间推理等。慕尼黑工业大学和华为公司研究团队提出开放世界的三维场景理解模型 OpenSU3D,通过二维基础模型进行特征提取与融合,增量式构建三维场景表示,将其用于下游开放世界实例检索、空间推理等任务。现有三维空间推理任务通常以整个场景的三维数据为输入推理场景中的空间信息。与之相比,三维空间情境推理 (Situated 3D Reasoning) 在机器人领域更具研究价值,其为智能体指定一个当前所处位置及状态——情境 (Situation),要求智能体根据第一视角感知信息完成对于当前所处空间的理解和推理。伊利诺伊大学香槟分校团队提出针对开放问题的三维情境推理模型 SIG3D(如图 3 所示),基于多模态特征融合根据输入的文本情境描述预测其在三维空间中对应的位置,并将对应三维特征转化为第一视角下的三维特征,与推理问题的文本特征融合后输出推理结果。密歇根州立大学团队构建大规模三维情境推理数据集并构建第一视角三维情境推理模型Spartun3D解决场景理解、问答等问题,该模型在训练过程中引入对齐损失,将物体空间特征与文本特征进行对齐,并将该空间特征与情境文本特征和问题特征一起输入大语言模型得到推理问答任务的结果。北京通用人工智能研究院团队进一步提出多模态输入的三维情境推理问题,构建多模态情境问答 (Multi-modal Situated Question Answering)与多模态情境下一步导航 (Multi-modal Situated Next-step Navigation)两个情境推理数据集,并在数据集上微调LEO 模型得到适配多模态输入的三维情境推理模型。
图3 三维情境推理模型SIG3D框架图
4 任务行动执行技术
具身智能要求智能体根据对所处环境的认知情况生成完成指定任务的动作策略。根据参与任务的智能体数量,可将任务行动执行技术分为单智能体动作执行策略和多智能体动作协同策略两类。
4. 1 单智能体动作执行策略
在动作执行策略方面,根据完成任务类型的不同,可将其分为操作任务、移动任务以及移动操作任务上的动作执行策略。
(1)操作任务执行
在操作任务中,机器人的机械臂主体位置保持不变,需要其对所处空间中的物体进行指定的操作使之达到指定的状态。现有常见方法包括利用目标检测与轨迹规划方法独立完成目标感知与动作决策两个阶段,或者利用模仿学习与强化学习方法端到端学习从输入信息到执行动作的映射,虽然上述经典方法能够取得一定的效果,但是仍然存在专家示范数据生成人力成本高、操作策略精确度低、可扩展性差、难以处理开放集合操作任务等问题。
目前,扩散模型在生成类任务上取得较优效果,扩散策略 (Diffusion Policy) 在机器人控制上也能生成更多样化的动作策略并合理解决动作序列多分布问题 (Multi-modal Action Distribution)。研究者将其与模仿学习框架相结合,引入三维空间特征,从而提升动作策略的训练效率以及成功率。上海交通大学团队提出端到端的模仿学习框架RISE来解决机器人操作任务,该框架以三维点云数据为输入,对点云进行稀疏编码并为其增加稀疏空间位置编码,利用 Transformer 结构理解稀疏点云间的空间关系并提取动作特征,通过扩散模型解码动作特征生成连续动作,得到鲁棒的策略模型。英伟达公司团队提出以物体为中心的模仿学习框架SPOT,使用日常视频数据中人类完成任务时目标物体的SE(3)位姿信息来训练决策框架,利用扩散模型预测机械臂移动轨迹过程中的SE(3)位姿序列,并基于此生成动作序列,降低了训练对于数据格式的严格要求,提升训练数据利用效率。麻省理工学院团队提出基于关键点抽取的模仿学习框架 KALM 来完成机械臂操作任务,利用预训练图像分割模型与“视觉-语言”模型生成完成任务的关键点集合,基于关键点特征学习动作基于扩散策略的动作决策模型,该框架使用少量专家示范数据即可完成训练,提升模型的训练效率。
大语言模型及多模态大模型的迅速发展也为机器人更灵活、更精确、更低成本地完成操作任务提供了可能。北京航空航天大学和英国利物浦大学研究团队提出“视觉-语言”框架OVGNet解决未知物体的抓取问题,引入图像引导的语言注意力和语言引导的图像注意力来对齐视觉和语言的感知信息,从而在图像中定位需操作的未见过的目标物体,基于此生成抓取动作完成任务,构建 OVGrasping 抓取数据集进行训练,完成对未见过的新物体的抓取任务。加州大学伯克利分校团队提出开放世界机器人操作模型 Moka(如图4所示),利用预训练“视觉-语言”大模型将输入的机器人操作指令分解为若干待执行子任务,再利用其预测执行子任务过程中机械臂抓取和运动的关键点位,基于此生成控制动作。谷歌公司团队提出适用于机器人操作任务的中间表示框架 RT-Affordance,将任务关键阶段的机器人姿态 (Affordance) 作为中间表示来生成机器人操作策略,利用“视觉-语言”大模型预测完成任务的关键 Affordance,将该信息编码到输入图像上,再利用“视觉-语言”大模型预测到达各 affordance 的动作序列。华盛顿大学团队提出基于“视觉-语言”模型的机器人操作框架MANIPULATE ANYTHING,利用“视觉-语言”大模型的推理能力进行任务分解、动作生成及任务评估,该框架无需引入环境信息和人工设计的技能,能够直接在现实世界中运行并操作任何物体,同时还可以用于为机器人模仿学习生成高质量演示数据。英伟达公司团队提出基于失败操作检测与反馈的机器人操作框架AHA,在收集的大规模机器人操作失败轨迹数据集上微调模型,使模型具备失败动作推理与反馈能力,提升模型在操作任务上的表现与鲁棒性。
图4 开放世界机器人操作模型Moka框架图
上述基于大模型的方法虽然构建了任务输入信息、感知信息、目标信息以及动作之间的关系,但未对三维空间信息进行建模,限制了机器人的操作精确度。清华大学团队提出一个通用机器人操作模型 CoPa,先利用预训练“视觉-语言”大模型预测机械臂抓取物体的具体位置,再利用“视觉-语言”大模型预测机械臂移动过程中的空间几何空间约束,从而能够处理开放集合指令给定的操作任务,对物理场景进行更细粒度的理解。英伟达公司团队提出RoboPoint模型,微调“视觉-语言”模型,根据输入指令预测完成任务的空间关键点信息,能够支持多种下游任务,该模型不需要收集真实世界数据和人工示范数据,更容易扩展到不同的环境中。斯坦福大学李飞飞团队进一步提出ReKep模型(如图5所示),利用视觉大模型标记操作任务中的关键点,“视觉-语言”模型以自然语言和关键点为输入生成三维空间中的时空约束条件,通过层次化约束优化方法生成机械臂的动作,解决以任意形式自然语言为输入的操作问题,生成具有更精准空间操作能力的动作策略。
图5 ReKep模型框架图
虽然基于大模型的机器人空间操作策略具有更高的精确性和泛化能力,但上述方法的表现依然受到大模型推理能力的限制,大模型推理规划过程中出现的幻觉会影响机器人操作任务的准确率。另一方面,大语言模型及“视觉-语言”大模型自身的空间理解和推理能力较弱,难以直接作为复杂空间中的策略规划器,直接使用也可能会丢失部分三维空间信息,因此在机器人操作框架中引入大模型需要有一定的使用技巧,合理利用大模型的能力生成有效的行动策略。
(2)移动任务执行
在移动任务中,机器人需要根据输入指令在场景中完成视觉导航、场景问答等任务。
针对视觉语言导航任务,浙江大学团队提出体素化场景表示技术VER,将环境体素化后利用多视角二维特征生成细粒度的统一三维特征表示,基于该场景表示方式进行状态估计以及记忆构建,提升视觉语言导航任务上的表现。中山大学团队提出基于开放词汇检测的视觉语言导航模型OVER-NAV,利用大语言模型和开放词汇目标检测器生成导航过程中的关键信息,构建图结构对导航轨迹上的历史多模态信息进行编码,从而生成更准确的导航动作。澳大利亚阿德莱德大学团队提出基于开源大语言模型的视觉语言导航模型Open-Nav,利用时空思维链推理方法将任务执行分解为指令理解、进度估计以及动作决策三个阶段,模型在仿真和真实环境导航任务中的表现超过了非开源大语言模型。
针对目标导航任务,香港大学团队提出基于开放词汇探索的目标导航模型 OVExp,利用“视觉-语言”大模型对视觉输入和指令进行编码,将其投影到自上而下的地图中构建场景表示,基于此生成目标引导的探索策略。北京理工大学团 队 提 出 基 于 动 态 场 景 图 的 目 标 导 航 模 型OpenObject-NAV,该模型构建开放词汇容器关系场景图谱并对其进行动态更新,根据场景图谱以及输入的文本特征生成动态环境中的导航目标位置。波士顿动力团队提出零样本语义导航模型VLFM,利用预训练的“视觉-语言”模型处理文本输入和视觉特征生成价值图,根据价值图生成当前最合理的下一个待探索边界区域,并基于此生成导航动作。浙江大学团队提出基于高斯泼溅的主动场景探索模型,该模型维护一个体素图来表示未被观察到的区域,将该体素图引入基于三维高斯泼溅进行场景重建的流程中,使之能够主动探索未被观察到的空间。
针对具身问答任务,亚马逊公司团队提出包含语言和手势输入的多模态具身问答任务,提出基于向量量化的表示学习模型 VQ-Fusion 解决多模态具身问答任务,将现有具身问答模型性能提升13%。
(3)移动和操作任务执行
在移动操作任务中,机器人需要完成导航与操作相结合的任务,导航到指定位置后对指定物体进行操作达到指定状态。香港科技大学团队提出基于层次化三维语义地图构建的未知动态开放环境物体移动操作框架,机器人需要将指令中指定的物体拿回给用户,该框架从点云中抽取不同级别的语义信息并构建三层的语义地图,利用大语言模型生成指令中的目标物体和候选区域,并按优先级依次生成对各区域的探索动作序列,完成对目标物体的搜索。北京通用人工智能研究院团队提出基于扩散模型的三维场景中的移动操作框架M2Diffusser,该框架以第一视角3D点云数据为输入,利用扩散模型生成运动轨迹,在优化过程中将任务目标和物理约束以能量函数的形式进行建模,生成符合物理约束条件的移动操作策略。得克萨斯大学奥斯汀分校团队提出基于“视觉-语言”模型的移动操作框架 BUMBLE,该框架由开放世界视觉感知、技能预测以及记忆模块组成,能够实现建筑级别的长时间移动操作任务,与现有方法相比用户满意度提高22%。卡内基梅隆大学团队提出基于适应性学习的开放世界机器人移动操作框架,首先利用行为克隆方法从离线示范数据中学习模型的初始参数,之后让机器人从其收集的未见过的在线样本中继续进行适应性学习,使之具备适应开放世界任务的能力。
除此之外,针对不同任务学习泛化通用策略是未来动作策略发展的一个重要方向。麻省理工学院何恺明团队提出一种可以跨机器人硬件平台和任务进行预训练的通用训练框架HPT,该框架提出异构预训练 Transformer 模型,利用不同机器人平台与任务上的大规模机器人数据学习一个与机器人平台和任务无关的共享的特征表示,模型通过微调后可以适应不同的任务。
另一方面,随着大语言模型在任务规划与动作决策中的广泛应用,斯坦福大学李飞飞团队提出一个通用的具身智能体评估框架,提供统一的具身智能体接口,能够对各类基于大语言模型的动作规划框架进行统一且细粒度的评估,为模型性能分析提供重要依据。
4. 2 多智能体动作协同策略
随着单智能体动作执行技术的快速发展 ,研究者开始关注复杂环境中的多智能体协同策略。针对双机械臂操作任务,清华大学团队提出基于扩散策略的动作策略 (Robotics Diffusion Transformer),模型具备对未见过物体和场景的零样本泛化能力。清华大学团队构建基于位置推理和语义推理的异构多智能体协同框架,并提出分组通信机制,支持异构智能体完成房间整理任务。哥伦比亚大学团队提出基于大语言模型的层次化决策模型,根据空间推理结果规划机械臂移动轨迹,实现多机械臂之间的协同操作。麻省理工学院团队提出基于大语言模型的协同通信方式,对比了集中式、分布式及混合式通信与决策方式的效率。清华大学团队将强化优势反馈(ReAd) 方法与大语言模型结合,将强化学习中的优势加权扩展到多智能体系统中,降低原有反馈机制中大语言模型的查询次数,提升多智能体的协作效率。普渡大学团队提出基于大语言模型的中心化协同框架 SMART-LLM,将高层指令分解为多机器人任务规划结果,实现多机器人的协作。北京大学团队提出去中心化多智能体室内协同导航框架 CAMON,构建基于大语言模型和动态领导机制的通信方式,使各智能体在通信中快速达成共识,提高协作效率。
上海人工智能实验室团队提出基于大语言模型的中心化异构多智能体协同框架COHERENT,构建一个中心结点,利用预训练大语言模型进行任务分解并分配给异构机器人执行,中心结点接受各机器人的动作执行反馈信息并据此对任务分配进行调整。中国科学技术大学团队提出基于大语言模型的去中心化异构多智能体协同框架MHRC,为具有不同能力的机器人分别设计了重新规划机制,根据各机器人能力及当前状态进行任务规划,生成可信的协作动作。阿姆斯特丹大学团队提出协同规划优化框架CaPo,利用大语言模型通过多轮讨论机制将任务分解为若干元任务,通过渐进自适应元任务规划执行机制动态更新各智能体执行的原计划进程并生成有效的动作进行协作。清华大学团队进一步提出智能体在任意时刻加入任意团队的灵活随遇协同任务,利用大语言模型的泛化能力和规划能力构建基于层次化场景语义图的随遇协同策略。
多智能体具身协同是具身智能领域的新兴研究方向,存在协同策略可扩展性差、异构协同效率低、灵活性弱等挑战。Meta 公司团队提出人机协同的任务规划与推理基准数据集 PARTNR,用于研究日常生活场景中的人机协同策略。
5 具身智能未来发展方向分析
近年来,具身智能领域发展迅速,随着相关技术的不断突破,构建更加通用、灵活、轻量、易扩展、易迁移至真实环境的具身智能模型是未来研究的发展趋势。具身智能未来重要发展方向如下。
5. 1 可适用于动态开放世界的具身智能模型
现有的具身智能模型多适用于静态场景及非开放环境。现有具身智能模型通常针对静态场景进行建模,欠缺对动态环境的灵活感知、理解与推理能力。同时,随着开放世界目标检测等技术的发展,现有具身智能模型开始探索开放世界中的感知方法和动作策略学习方法,但目前模型对开放世界环境的适应与迁移能力依然有限。现实场景通常具有未知、动态、开放等特性,因此对动态未知开放世界中具身智能模型的研究是未来研究的重要方向,能够进一步促进具身智能在现实环境中的实际应用,提升鲁棒性。
5. 2 可泛化至多种任务的通用具身智能模型
现有对具身智能模型的研究中,针对每一个不同的具身任务通常都需要构建一个专门适用于该任务的专用模型,并利用该任务的特定数据对模型进行训练,模型缺乏对其他任务的泛化能力,通用性较差。随着通用大模型等技术的突破,构建具有可扩展能力的通用具身智能模型成为未来研究的重要方向,通用策略模型具有更强的灵活性,能够迅速适应不同的环境与任务,具有更强的实用价值,是实现通用人工智能的必要技术。
5. 3 可对三维空间进行精确理解与推理的具身智能模型
现有具身智能模型通常对输入的多类感知数据直接进行特征提取与融合处理,未能形成对所处三维空间的有效认知理解,其对第一视角三维空间信息的处理能力有限,对时空信息的抽象与建模能力较弱,导致其在需要进行精准空间理解的精确操作等任务上表现不佳。对三维空间的理解与推理能力是提升具身智能策略的准确率和有效性的关键,因此构建具备精确的空间理解与推理能力的具身智能模型是未来的重要发展方向。
5. 4 训练轻量化的具身智能模型
现有具身智能模型由于存在多模态感知信息处理、高维感知输入与执行动作之间的映射关系学习等技术需要,模型体量和训练算力需求较大。目前具身智能模型在实际环境中的各类端侧设备上部署运行的应用需求使轻量化、易部署的具身智能模型成为未来研究发展的趋势。低算力需求的轻量化模型训练方法能够满足具身智能模型在不同硬件设备上的部署需求以及定制化策略学习的需要,从而提升具身策略的学习效率和在不同任务间的迁移能力。
5. 5 灵活鲁棒的具身协同模型
多机器人协同在仓储物流、工业制造、军事场景中具有广泛的应用潜力。现有具身协同策略相对简单,能够解决的具身协作任务也相对简单,通常仅考虑各智能体在单一级别上的协作问题,难以解决需要进行复杂的动态任务分配和资源调度的协作问题。现有具身协同模型可扩展性较差、自适应能力较弱、难以应对团队动态变化等复杂状况。构建能够适应更复杂的任务场景、具备可扩展能力、支持团队动态自适应调整的更加灵活的具身协同模型对无人智能集群发展具有重要价值。
5. 6 真实环境易部署的具身智能模型
将具身智能模型在真实环境中的各类设备与平台上进行部署和应用是未来发展的必然趋势。现有具身智能模型研究多集中于仿真环境,利用仿真环境中的场景和数据对模型进行训练与测试。由于仿真环境和真实环境在场景建模、数据分布等方面存在偏差,现有多数模型欠缺从仿真环境到真实环境的策略迁移能力。构建可适配真实场景或易于迁移至真实环境的策略模型能够满足具身智能模型在真实平台 (如机器人) 上的部署需求,对其在真实环境中的应用具有关键作用。
6 结束语
随着计算机视觉、自然语言处理、大模型等技术的突破,具身智能领域发展迅速。具身智能将智能体与环境的交互、认知与行动统一于“感知-决策-执行”框架中,在家庭服务、工业制造、仓储物流等领域具有重要的实用价值。由于环境认知、行动执行是具身智能中的重要环节,本文分别从具身智能基础模型、环境认知理解技术和任务行动执行技术三方面分析了2024年具身智能技术的发展情况。未来,具身智能将向着更加通用、轻量、灵活、易扩展、自适应的方向发展。本文能够为具身智能领域的研究发展和技术突破提供借鉴参考。
原文刊载于《无人系统技术》2025年4月 作者:中国电子科技集团公司信息科学研究院 刘馨竹 王亚珅 石晓军 陈思
暂无评论,等你抢沙发