工业大模型: 体系架构、关键技术与典型应用

导语:本文将为工业大模型这一全新研究方向的开辟与发展 提供基础理论关键技术和行业应用的全面指导


1 引言


近年来,大模型(如 GPT-4o 等)凭借大规模训练数据、大规模参数、大规模算力,涌现出传统 AI 模型所不具备的强大生成能力、泛化能力和交互能力。在自然语言处理领域,大模型能够生成高质量的文本并完成复杂的对话任务;在计算机视觉领域,大模型能够实现精准的图像识别并生成高保真的图像或视频。此外,大模型还在医学、教育等专业领域展现出巨大的应用潜力,通过对领域数据的学习,提供准确的问答、诊断、预测和决策支持,已成为迈向通用人工智能的里程碑技术。


工业制造业是立国之本和强国之基,建设制造强国是我国的重大战略决策。在新一代信息通信技术的推动下,制造业正从数字化网络化迈向智能化的全新发展阶段。如何推进人工智能赋能新型工业化,培育面向工业领域的大模型,推动人工智能与实体经济深度融合,成为当前重要的国家创新战略。


欧美发达国家已开始探索大模型在工业领域的应用。例如,西门子采用 ChatGPT 来自动生成可编程逻辑控制器(PLC)代码,OpenAI 采用多模态大模型操控机器人并尝试在宝马制造车间从事简单的抓取工作,英伟达正在基于大模型打造通用人形机器人平台。当前国内外的研究主要是利用已有的通用大模型尤其是大语言模型,尝试解决工业制造业的具体问题。学术界和产业界对于工业大模型的巨大发展潜力抱有极高的期待。


然而,工业制造业的复杂性使得工业大模型的发展面临诸多严峻挑战:


工业跨模态协同难:通用大模型擅长处理文本、图像、视频等常见数据模态,其数据多来源于互联网等公开渠道。但对于工业制造业中难以获取的特有数据模态,如 CAX 模型、传感信号、工艺文件、机器指令等了解甚少。工业场景中多模态数据融合时存在异质性和同步性问题,不同类型传感数据采样率和数据格式不同,存在信息冗余和语义不一致性,大模型难以对复杂异质的工业数据模态进行有效对齐和协同。这是因为大模型缺乏对工业复杂模态数据特性的深刻理解,导致其跨模态数据协同处理能力有限。


工业高可信输出难:通用大模型对输出的精准性和可靠性没有统一的严格要求,能容忍一定程度的幻觉现象。而工业应用对准确性和可靠性要求极高,如机械臂协作装配的精确控制。现有大模型基于概率预测,输出结果不确定性高,难以满足工业任务的高精度要求。这是由于大模型的概率特性和非目标驱动特性,使其难以学习到任务背后的工业机理和规律。此外,多任务优化与单任务的冲突使得模型在处理高精度任务时可能出现信息冲突和遗忘,降低单任务性能。


工业多场景泛化难:通用大模型常见的文本或图像内容生成、知识问答等应用场景,底层逻辑较为统一,大多可基于对话界面完成任务。而工业领域产品全生命周期涵盖研发设计、生产制造、试验测试、运维服务等多种不同应用场景,不同行业不同场景任务需求各异,且生产任务需机器设备执行才能完成,大模型难以适应复杂多变的工业场景。这是因为大模型对工业多学科跨领域专业知识的泛化能力不足,且工业场景中存在大量硬件设备交互任务,使当前大模型主流应用范式无法适应。


工业多流程关联难:通用大模型应用场景涉及的多流程关联逻辑性任务较少。而工业制造业应用离不开具有内在关联的多流程业务,各流程任务之间的关联和依赖关系复杂,如跨企业多工序多因素耦合的质量问题追溯与根因分析,实现多个流程任务的有效关联和协同是一个重要挑战。大模型难以全面理解和认知复杂的工业流程语境和任务间的动态关系,缺乏对复杂流程的深层次任务关联和长期记忆能力,使其难以有效处理多流程任务。


工业高实时推理难:通用大模型对应用的实时性没有统一的高要求。而工业现场应用,如设备控制等,具有严格的实时性要求(毫秒级),同时还受到算力设施的限制,大模型在工业边缘实时应用中面临资源受限的挑战。现有轻量化方法,如模型剪枝、量化等,虽在压缩率和加速效果方面取得一定进展,但仍无法满足工业边缘轻量实时应用的高要求。这是因为大模型参数规模庞大,执行工业任务时需要激活大部分计算单元,难以在工业边缘有限的计算资源下实时运行。


从上述挑战可知,当前通用大模型无法直接用于解决复杂的工业问题,工业大模型不是通用大模型在工业领域的简单垂直应用,亟需开展全新的工业大模型基础理论和关键技术研究。目前,国内外关于工业大模型的系统性研究仍属空白。


本文提出了工业大模型的全新定义和体系架构,包括基础设施层、基座层、模型层、交互层、应用层;提出了工业大模型的四阶段构建方法,阐述了核心关键技术;基于工业大模型 6 种核心应用能力,探讨了面向工业制造业全生命周期的典型应用场景,并给出 “基石” 工业大模型原型系统在生成式人工智能方面的应用实例;最后,探讨和展望了工业大模型未来的研究方向和开放性问题。


2 工业大模型定义与体系架构


工业大模型是面向工业产品全生命周期应用的、具有大规模参数的深度学习模型体系,包括工业基座大模型、工业任务导向大模型、工业行业领域大模型等不同层次和类别的模型系统。它具有工业数据和机理知识融合驱动、工业专业化内容生成、高可信高可靠输出、工业多场景跨域任务学习与自适应、工业多模态融合交互、人 - 智能体 - 工业系统协同、算力与效率灵活适配等主要特征,具备智能问答、场景认知、过程决策、终端控制、内容生成、科学发现等核心任务能力,能够适配离散行业和流程行业不同行业领域、不同工业任务,为产品研发设计、生产制造、试验测试、经营管理、运维服务等全业务域智能化升级提供基于大模型的新应用范式和新方法技术。


图 1 工业大模型体系架构图


工业大模型体系架构包含基础设施层、基座层、模型层、交互层、应用层 5 个层次,具体如下:


基础设施层:是构建工业大模型所需的基础资源,包括工业数据、算力、知识等。工业数据涵盖 CAX 文件、工业时序数据、机器指令、工业文档以及图像、视频和音频等多模态数据,是模型训练和操作的基础。计算资源包括用于大模型训练和推理的云边端算力、存储,以及专为 AI 运算设计的芯片。工业知识包括工业通用知识和企业私有知识,涵盖行业规范、操作文档、机器运作原理和维护经验等工业知识文件和专用的领域知识图谱,为模型提供决策分析的深层次知识逻辑基础。


基座层:是工业大模型的核心支撑,主要包括基于工业多模态预训练技术、工业机理内嵌微调技术、工业智能体交互推理技术 3 类核心技术的工业基座大模型。预训练通过与下游任务无关的工业多模态数据的初始训练,使工业大模型具备理解和处理工业场景中多模态数据的通用能力。微调是在较小、特定数据集上进一步训练预训练模型,以提高模型在特定任务上的性能和泛化未见过任务的性能。工业推理使模型在复杂的工业环境中能够迅速、准确地处理数据并作出决策,包括模型压缩、硬件加速、工业检索增强生成等方法。工业基座大模型具备工业任务的通用解决能力,为更精细的模型适配及场景应用提供基础。


模型层:是工业大模型的主干部分,面向不同的工业任务和行业领域进行适配,形成任务导向大模型和行业领域大模型。工业任务适配是以工业基座大模型为基础,经过多任务指令微调,在保留通用任务能力的基础上使其在特定任务上表现更优,包括智能问答模型、场景认知模型、过程决策模型、终端控制模型、内容生成模型、科学发现模型。行业领域大模型则是在其基础上通过行业领域知识嵌入和适配器微调得到的,涵盖航空航天、汽车、机械等离散制造领域,以及石化、冶金、电力等流程工业领域。


交互层:由人、大模型智能体、工业赛博物理系统三部分组成,形成有机整体对工业生产过程进行交互协作。用户包含研发人员、工程人员、生产操作人员和经营管理人员等各类专项人员,在制造过程中承担不同任务目标。智能体集成工业大模型的几项基本能力,并增强记忆、规划、行动、感知来与外界交互,具有主动感知和控制工业环境的能力,能够自发记忆、观测和影响外界环境。赛博物理系统包含物理系统(如机器人、机床、自动导引车等)和赛博系统(数据库、工业软件、工业网络等),是智能体感知、调用和控制的对象。


应用层:是工业大模型在服务端的表现形式。工业大模型涵盖智能问答、场景认知、过程决策、终端控制、内容生成和科学发现等 6 大能力,这些能力使其能完成复杂专业的问答,理解和分析复杂的工业环境,作出科学的过程决策,直接控制工业设备,以及自动生成技术文档和仿真设计。基于这些能力,面向工业制造业全生命周期,对研发设计、生产制造、试验测试、经营管理、运维服务 5 个工业环节进行支撑应用。


图 2 工业大模型构建方法


3 工业大模型构建方法


工业大模型的构建主要包括工业数据制备、工业基座模型训练、工业任务 / 行业模型适配、工业场景交互应用 4 个阶段:


工业数据制备:工业数据具有多种模态,如传感器的时序数据、工业视频和图像数据、CAD 数据、工业代码等,其制备方式更加多样化,主要包括数据收集、预处理、仿真及生成三个流程。可以通过使用公开或企业自有数据集、数据爬取和联邦学习等多种方式获取数据。为确保模型训练的效度和可靠性,需要进行数据清洗和预处理,包括质量过滤、敏感内容过滤、数据去重以及针对不同模态数据的标准化等操作。为满足大模型对大量数据的需求,可以通过仿真系统生成和生成式模型两种方法增加数据量,生成的数据需经过工业仿真系统筛选与过滤,剔除不可信样本后用于后续模型训练。


工业基座模型训练:主要包含工业自监督预训练、跨模态注意力对齐以及工业机理内嵌微调 3 个任务。自监督预训练旨在使大模型获取对工业领域复杂数据集进行特征提取与编码的能力,对于常见模态数据可直接采用预训练网络,对于工业特殊模态数据则需要重新设计并训练对应的编解码器。模型需要进行多模态对齐,调整不同模态数据的向量表征,确保它们在同一语义空间内的一致性,针对工业特殊模态数据的特点,在冻结原有参数的同时重点训练对应的输入和输出映射器。完成注意力对齐后,大模型具备感知工业多模态数据的能力,但仍需进行工业机理内嵌微调,收集相关工业知识并转换为可用于训练的嵌入向量特征,通过并入训练目标、并入大模型的输入、进行知识图的指令微调等方法完成工业机理内嵌微调,对于工业机理方程,可将其信息表征为神经网络可识别的特征信息嵌入模型中,或者添加符合物理规律的后处理模块实现工业机理内嵌,提高模型输出的合理性。


工业任务 / 行业模型适配:完成工业大模型的训练后,基于工业基座大模型,通过模型适配获得适用于具体工业任务的模型和行业领域模型。模型适配过程包括针对任务模型的任务适配微调以及针对领域模型的行业知识内化。在任务适配微调过程中,对不同的任务准备不同的任务指令集,在任务指令集上对模型进行指令微调,提高模型在专精任务上的表现。完成任务模型微调后,为使模型应用于各个行业时具有更强的适配性,需要进行适配器微调,通过添加小规模适配层而不改变预训练模型参数,减少训练成本的同时保留预训练模型的泛化能力,提高在行业特定数据集上的性能。


工业场景交互应用:主要分为 “人 - 智能体 - 工业赛博物理系统” 交互和高效实时推理增强两项任务。人、智能体、工业赛博物理系统作为相互交互的主体,形成有机整体。智能体以工业大模型的能力为内核,并增加与应用环境的交互功能,如主动感知、情景记忆、行动规划、执行控制等,根据多变的工业任务目标,在工业环境中实现主动化的观测、行动与协作。在模型推理过程中,可以使用检索增强生成(RAG)技术进行推理效果增强,预先将工业赛博物理系统中的领域或者环境信息编码为知识图谱,动态地从外部知识库中检索相关信息,并将其与模型当前处理的内容结合起来,增强模型的知识理解和回答能力,该技术特别适用于存在大量动态变化因素的工业环境场景。对于端侧算力不足的情况,可以使用工业轻量端侧部署加速推理技术实现高效实时推理,通过模型剪枝、模型量化、知识蒸馏等方法对模型进行压缩与量化,减少使用过程中需要的算力。


4 工业大模型关键技术


4.1 工业多模态预训练技术


工业生产中存在大量多模态数据,如图像数据、设备运行声音数据、操作日志中的文本数据、各类传感器数据等。各模态数据来源和表现形式不同,模型难以直接处理并用于任务决策。因此,需要首先训练工业模态编码器和生成器,然后对不同模态的数据在统一语义空间内进行协同对齐编码和跨模态融合,完成预训练。


图 3 工业大模型多模态预训练


工业自监督预训练:旨在对模态编码器、模态生成器和骨干网络进行预训练,赋予它们对各自模态数据的语义理解及特征提取能力,涉及对工业领域复杂数据的特征提取与编码。对于常见模态的数据(文档、图像、视频等),可直接采用预训练的网络,预训练方法包括预测下一个 token 或句子和去噪自编码任务等。针对时序数据,可通过在特定时间点添加掩码并预测还原来实现预训练;对于工业 CAX 数据,可以采取序列化处理并输入到专门设计的拓扑、几何等编码器中,学习各种变化。


工业多模态协同编码:为解决工业场景下不同数据的模态间未对齐问题,可通过多模态协同编码方式统一表征,缩小或消除模态间的语义间隔,为后续多模态预训练奠定基础。针对不同模态数据的特点进行预处理及特征编码,文本数据根据工业词表使用分词器分词得到词元序列并编码;视觉数据进行标准化预处理后划分为图像块或点簇,通过 2D 或 3D 编码器转换为编码向量;音频数据采样并转换为音频频谱,再通过频谱编码器输出音频向量表征;传感器数据间隔采样提取时序点数据进行数值标准化,采用时序编码模型得到时序编码向量。


工业跨模态对齐:结合多模态数据的编码,通过注意力对齐调整不同模态数据的向量表征,确保它们在同一语义空间内的一致性。具体可通过训练输入和输出映射器优化预定义的目标函数实现多模态对齐。多模态预训练对齐阶段通常涉及大规模的文本配对数据,利用自监督学习损失函数优化各模态的编码器,使各模态在联合嵌入空间中更为接近。由于工业场景数据模态更丰富,还需设计针对性的工业模态数据对齐方法,如 CAX - 文本匹配、传感时序数据 - 文本匹配等,并在保持预训练模块冻结的同时,重点训练输入和输出映射器.  可采用基于联合优化的投影转换跨模态融 合, 或基于交叉注意力的感知增强跨模态融合等方法.  当配对数据较为充足时, 可采用端到端的方式 在混合模态数据进行训练对齐 [26] , 优化跨模态训练的稳定性.


4.2 工业机理内嵌微调技术


预训练完成后,大模型具备了一定的普适性通用化能力,能应对部分任务。然而在工业多场景任务中,由于缺乏工业领域的专业知识和机理,大模型难以准确理解和处理工业问题,输出结果的可信性也较差。所以,结合工业知识和机理对大模型进行微调十分必要,具体过程如图 4(工业机理内嵌微调)所示。


图 4 工业机理内嵌微调


通用知识融合与工业机理内嵌:大模型常用指令微调的方式,即在由人类指令和期望输出组成的配对集合上,对预训练后的模型进行微调。为将工业知识融入大模型,首先要从多种渠道收集工业知识,如工艺流程、技术规范等经验知识。其次,把这些知识转化为大模型能够理解和处理的形式,比如创建知识图谱中的三元组数据(头实体、关系、尾实体),并利用知识图嵌入技术将知识转为嵌入向量特征,用于后续训练。最后,使大模型融合工业知识,可通过将知识图谱整合进训练目标,以及进行知识图的指令微调来实现。


在将工业机理方程嵌入模型方面,可把机理信息表征为神经网络能识别的特征信息,嵌入网络架构中。在模型输出阶段,引导模型输出符合工业物理规律的结果,例如在损失函数中添加机理方程,对违反物理规律的输出结果进行惩罚。此外,还能依据机理知识库中的规则,检查约束模型输出,使其符合工业机理,也可以使用仿真工具或专家系统,验证模型输出的可信性和准确性。


行业知识适配器微调:完成不同工业任务的模型微调后,为增强模型在各个行业的适配性,还需进行行业知识嵌入微调,让大模型精通特定行业的专业知识,从而在不同行业发挥更出色的作用。在行业模型微调时,使用适配器微调,既能最大限度保留任务模型的能力,又能显著增强模型对不同行业的适应能力。之后,准备详细的行业数据集,在这些数据集上微调模型性能,提升模型在行业专业问题上的表现。


场景知识内化强化自训练:场景知识内化强化自训练技术主要用于解决工业行业知识中细分场景标注数据有限的问题。该技术先对小规模标注数据进行初步训练,然后利用模型生成伪标签,标注大规模未标注数据,并引入强化学习设定奖励机制,优化伪标签质量,进而提升模型性能。在标注数据有限的情况下,这种技术有助于解决工业细分场景问题的场景大模型微调,提高模型训练效率和精度。


4.3 工业智能体交互推理技术


“人 - 智能体 - 工业赛博物理系统” 交互技术:在工业生产过程中,人、智能体、工业赛博物理系统是三个主要组成部分,具体关系如图 5(人 - 智能体 - 工业赛博物理系统交互)所示。其中,人包括研发设计师、生产操作工、经营管理人员、运维服务人员等。智能体相较于大模型,具有更强的主动感知和控制工业赛博物理系统的能力。工业赛博物理系统涵盖了实际生产中的工业设备、控制系统、工业软件、工业互联网等,是智能体感知和控制的对象。


图 5 人 - 智能体 - 工业赛博物理系统交互


在人和智能体的交互过程中,人可根据具体任务需求,为工业智能体设定决策目标。智能体依据目标设定,主动规划任务流程、优化目标,并分解任务,设计不同的解决方案,同时协调各子流程任务关系。此外,人还能向智能体提供奖惩反馈机制,促使智能体迭代优化自身策略,不断进化发展。在智能体和工业赛博物理系统的交互过程中,主要任务包括工业环境监控及资源的动态调配等。智能体利用感知能力观察生产要素条件和生产环境,再通过优化决策能力设计生成相应的控制逻辑,最终控制工业软件和工业设备,在工业赛博物理系统中完成生产任务。


工业高效实时推理技术:工业大模型采用多种推理加速技术,如模型压缩、剪枝、量化等,以减少模型的计算量和存储需求,提高推理速度。同时,它还支持 GPU、TPU 等高性能硬件,进一步加速推理过程,满足工业应用场景对实时性的高要求。此外,推理加速还有助于降低模型的能耗和成本,提高模型的可用性和普及度。除满足实时推理需求外,在使用工业大模型进行推理时,还可借助以下技术提升模型表现。


工业知识库检索增强生成(RAG)结合了检索和生成的方法,适用于工业场景中的知识密集型任务。首先构建包含产品设计、工艺流程和设备维护等工业知识的数据库,然后利用 BM25 和 Dense Retrieval 等高效检索算法,从知识库中检索相关信息,最后基于检索到的信息,通过大模型生成更准确、更具针对性的回答。在工业制造中,RAG 系统能快速提供技术支持、生成维护手册和优化生产流程。


Prompt 工程是通过设计合适的提示(Prompt),引导大模型生成符合用户需求和期望的文本或响应,是对 Prompt 的结构、内容等维度进行优化的 AI 技术。用户既可以选择预制模板,也能创建自定义 Prompt。


低秩微调(LoRA fine-tuning)是一种低秩适应方法,通过引入少量可训练参数,实现对大模型的高效微调。由于编码器经过大量数据预训练,具有较强且通用的模态先验,采用低秩微调可避免灾难性遗忘问题,同时减少训练参数量,提升模型训练速度。


5 工业大模型应用能力与典型场景


基于上述工业大模型构建方法得到的模型,可适用于具体工业场景。本章节将阐述工业大模型的核心应用能力及典型应用场景。


工业大模型核心应用能力:与通用大模型不同,工业大模型面向工业应用需求,在独特的架构和训练方法支持下,具备以下 6 种核心应用能力。


图 6 工业大模型典型应用场景


智能问答能力:工业大模型不仅要有通用大模型的文本理解和生成能力,还应能深入理解并回答工业领域的复杂专业问题,提供即时专业知识支持。例如,通过工业多学科多领域专业知识推理,为全流程制造任务提供问答服务,像创新设计案例知识、制造工艺知识等,大幅提高工业用户获取专业知识的效率。


场景认知能力:工业大模型的场景认知能力不局限于视觉图像识别,还应能理解工业环境中各种动态场景和工况的内在含义,为后续分析和决策奠定基础。比如,通过分析设备多维传感信号模式识别潜在故障趋势,通过生产多工序多任务进度分析识别瓶颈,实现对工业场景语义层面的认知和更精准的生产控制。


过程决策能力:工业产品全生命周期涉及各类决策,如设计方案决策、生产工艺决策、排产调度决策、突发异常应对决策、管理决策等。工业大模型应基于知识和推理给出建议,辅助人们做出决策。例如,学习历史生产过程中的调度优化方案后,针对柔性制造产线突发插单情况,通过逻辑推理和演算给出优化调度方案的决策建议。


终端控制能力:工业大模型要具备控制各类工业机器和设备等辅助生产工具的能力。与通用大模型局限于数字空间交互不同,工业生产需在物理世界执行,工业大模型借助具身智能体操控物理世界的机器设备。例如,机械手面对陌生产线零部件抓取任务时,工业大模型可根据机器人具身智能体学习的知识和机械手力反馈等实时传感信号,控制机械手完成抓取和分拣。


内容生成能力:工业大模型不仅能生成工业特定领域的技术知识文档和报表报告,还能生成 CAX 模型、传感信号样本、工艺文件、机器指令等专业化内容。以北京航空航天大学的 “基石” 工业大模型为例,它能生成复杂产品多学科仿真系统代码、产线数字孪生场景、机器人操控指令、非标零部件切削类生产工艺、工业时序数据样本、设备健康指标预测模型等,服务于研发设计、生产制造和运维服务等场景。


科学发现能力:工业制造业基于物理化学原理,但仍有许多机理尚未明确。工业大模型具备发现科学机理和高阶关联关系的能力,可服务于新材料、新工艺、新产品、新模式的研发应用。例如,通过大规模多学科跨领域知识关联学习,识别复杂产品机、电、液、热、气、磁多学科耦合机理,揭示新产品设计的物理和化学机理,辅助提出创新的产品工艺设计方案。


制造业产品全生命周期典型应用场景:如图 6(工业大模型典型应用场景)所示,工业大模型贯穿产品全生命周期,围绕 6 项核心应用能力形成了典型应用场景。在实际工业生产流程中,工业大模型以工业智能体为载体,与工业场景中的人员和工业赛博物理系统交互,完成特定任务。以下介绍典型业务域应用场景,并以北京航空航天大学的 “基石” 工业大模型原型系统为例给出应用案例。


研发设计:研发设计涵盖新产品的概念形成、原理设计、原型制作、仿真设计等环节,以确定最终产品规格。传统研发设计过程,设计人员需查阅大量资料、进行大量演算,再编制复杂的设计文件,工作繁琐且效率低。工业大模型学习了大量工业知识和设计理论,可根据需求辅助设计文件编制。在工艺知识问答和零件尺寸设计场景中,工业大模型基于工业知识和设计文档,以对话问答形式提供设计指导,同时运用决策能力自动推演零件参数设计方案,给出合理尺寸设计方案并生成相应设计文件。此外,在新工艺研发过程中,工业大模型能识别化学反应动力学机理,揭示反应机制和影响因素,优化材料合成过程,辅助提出创新的产品工艺设计方案。


生产制造:生产制造是将产品设计方案转化为实际物品的过程,包括原材料采购、计划排产、产线优化、加工组装、质量检测等环节。在生产制造阶段,工业大模型主要在加工工艺生成、生产设备控制、生产计划安排、产品质量控制等方面提供流程辅助。例如,基于内容生成能力,工业大模型可生成零部件打磨指令轨迹,并转化为机器人加工指令,控制机器人进行实际加工。同时,利用视觉感知能力实时监控加工状态,动态调整加工过程。北京航空航天大学 “基石” 工业大模型能根据工业机器控制需求,生成机器操作指令,实现机器人自动抓取等复杂任务。针对非标准零件加工需求,工业大模型基于决策和生成能力,辅助工程师制定精确加工方案,提高生产制造环节的效率。


试验测试:试验测试用于检测评估制造出的产品或半成品的性能、可靠性、安全性等,确保其符合设计要求和行业标准,满足用户使用需求。在试验测试阶段,大模型主要辅助试验方案设计、试验设备控制、测试结果分析、测试报告生成等流程。例如,工业大模型可生成多模态感知的计量检测报告,替代人工记录归档,并智能解析试验数据,给出试验分析结果,辅助测试人员评估被测件质量。同时,工业大模型跟踪试验测试过程,记忆流程操作和测试事件,实现质量追溯问答,精准定位问题部件及问题根因。


经营管理:经营管理是制造业企业为实现经营目标,对生产流程、市场营销、财务状况、人力资源等方面进行计划、组织、协调、控制和优化的过程。在经营管理阶段,工业大模型主要对计划排产、财务报表、产线运行状态等进行辅助分析,并优化质量、成本、效率条件下的多目标生产模式。例如,工业大模型监测生产经营过程中的各类报表数据,以问答形式向管理人员汇报企业经营状况,生成企业运营报告,并发出潜在风险预警。它还具备基于决策支持的动态优化能力,能根据订单插单情况,实时调整生产过程中的资源分配,优化供应链和排产计划。此外,工业大模型能发现多目标优化生产模式,综合考量成本控制、生产周期、产品质量等因素,基于过往运营大数据关联分析,改善生产运营模式。


图 7 具身智能机器人控制指令生成



图 8 工业零部件工艺自动生成


运维服务:运维服务为制造设备和工业产品提供调试、维修、保养、升级等技术支持和售后服务,确保设备和产品正常稳定运行。例如,工业大模型凭借认知能力实时感知设备运行状态,发现潜在故障,并通过智能问答为维护人员提供预防性维修建议。此外,工业大模型还能生成运行样本和健康状态预测模型辅助运维服务。北京航空航天大学 “基石” 工业大模型可生成工业时序数据样本,用户上传需求后,模型生成带标签少样本的工业时序数据,辅助预防性维护预测。同时,结合历史退化数据、实时监测数据和生成的大规模数据,以及用户预测需求,生成工业时序预测模型,预测设备健康状态,辅助维护决策。


图 9 工业时序数据样本生成



图 10 工业时序预测模型生成



6 工业大模型展望


工业大模型已展现出巨大的应用潜力,作为学术界和产业界关注的焦点,虽已在部分领域开展初步应用探索,但距离广泛应用仍有较大差距。未来,工业界制造业企业需深入挖掘实际应用需求,提炼典型应用场景,通过实践和需求推动工业大模型能力的提升。从技术发展角度看,工业领域的应用目标对工业大模型提出了特殊要求,如工业多模态对齐、高可信度和安全性等。工业大模型正朝着机理内嵌、统一模态表征、高可信生成与输出、具身智能交互、大小模型协同、轻量化、高安全等方向发展。以下对工业大模型未来重点技术发展方向进行展望。


融入工业世界模型和机理知识的新型神经网络底层架构:当前以 Transformer 为代表的大模型底层神经网络架构,基于概率输出,在理解客观物理世界方面存在不足。而无论是离散制造业还是流程制造业,其物质转化过程都基于物理化学原理和客观规律。工业大模型的智能问答、场景认知、过程决策等核心能力的应用,都离不开工业机理的支撑。虽然通用大模型常用的 RAG 技术可检索外部知识源,但对于复杂的工业机理,难以检索到精确答案。因此,需对 Transformer 等主流神经网络架构进行底层改造,探索融入工业世界模型和机理知识的新型架构。


工业多模态数据统一表征:工业大模型需要处理传感信号时间序列、CAX 模型、工业图像、工艺文件、机器指令等多模态数据的对齐问题。现有的多模态对齐方法主要针对文本、图像、视频等常见模态,无法处理工业应用中的专业化数据模式,跨模式整合语义信息的能力也较弱。未来的工业多模态对齐方法应研究如何对工业多模态数据进行编码,将不同模态数据表示为统一的语义空间,并开发端到端的工业多模态表示方法,实现不同工业模态的无缝连接和推理。


高可信工业内容生成:工业大模型的生成任务涉及工艺策略、机器控制指令等专业化内容,这些生成结果必须高度准确,不能出现幻觉现象。目前提高模型可信度的方法,如后处理、验证机制、人工反馈和监督等,虽能减少幻觉出现,但无法根本避免不符合预期的结果。因此,在工业大模型的构建和训练过程中,应加强知识嵌入,使模型的表征空间更接近真实物理世界,还可考虑构建完整的世界模型,指导工业大模型的训练和部署。


基于工业具身智能体的新型交互范式:在工业大模型的使用场景中,其不仅以软件形式存在,还大量依托机器设备等硬件载体。通用大模型主要通过人机交互,不直接作用于物理世界,而工业大模型需借助机器人、加工设备等具身智能体影响和改造物理世界。人 - 工业具身智能体 - 工业赛博物理系统构成的交互协作空间,将是工业大模型的运行环境,需要建立新的交互范式和运行机制。


工业大小模型协同:近年来,工业界企业应用中积累了大量针对具体场景的 AI 小模型,如特定工况下旋转类设备的故障诊断模型。这些小模型在细分场景解决单一问题时,应用效果可能优于工业大模型。企业引入工业大模型后,需要考虑大小模型的协同问题,明确不同场景下大模型和小模型的适用范围,发挥各自优势,获得最佳效果。


工业任务实时推理控制:工业现场任务对实时性要求极高,如机械臂控制任务需达到毫秒级响应。工业大模型参数量大、计算复杂度高,现有的模型压缩和加速方法无法满足工业边缘推理和实时控制的需求,且过高的压缩比可能降低模型性能。因此,工业大模型需要在计算成本和模型精度之间寻求平衡,研究新的高效操作符替代资源密集型计算,创建新的分布式计算模型,利用集群智能提高计算效率。


工业场景异构算力适配:不同行业的工业生产场景配备的算力资源不同,如 GPU、CPU、FPGA 等,这些异构计算设备的计算和推理模式差异较大,导致工业大模型难以在这些异构算力下部署。所以,需要研究面向工业大模型的异构算力适配框架,使工业大模型能够自适应不同生产环境下的异构算力资源计算模式。


工业大模型安全:工业界企业数据包含大量商业秘密,如产品设计方案、工艺文件、订单任务、经营报表等。工业大模型处理敏感数据时,必须采取有效数据保护措施,防止信息被未经授权的人员或系统访问、泄露或滥用。未来需研究工业大模型的安全防护方法和技术,既能保护企业隐私数据,又能支持工业大模型的训练和使用。


7 总结


工业大模型已成为国内外学术界和产业界关注的新焦点。然而,通用大模型在工业领域应用时面临诸多挑战,如工业跨模态协同难、高可信输出难、多场景泛化难、多流程关联难、高实时推理难等。因此,工业大模型并非通用大模型在工业领域的简单应用,而是一套全新的理论与技术体系。



原文刊载于《中国科学》杂志社 2024年第 11 期 作者:任磊 王海腾 董家宝 贾子翟 李世祥 王宇清 赖李媛君 黄迪 张霖 吴文峻 李伯虎

暂无评论,等你抢沙发

  • 短信登录
  • 密码登录
还没有账号,
登录即代表您同意本网站的 《用户注册协议》
还没有账号,
登录即代表您同意本网站的 《用户注册协议》
注册
已有账号, 立即登录
登录即代表您同意本网站的 《用户注册协议》
找回密码