基于小型语言模型和工业智能体的MES架构

导语:该架构能将人工智能(AI)能力内化为系统原生基础设施推动MES 从规则驱动向智能决策转变提升制造柔性与决策能力为工业智能化升级提供可行方案

随着制造业加速向数智化转型,制造执行系统(MES)作为连通企业计划层与车间控制层的关键枢纽,其智能化水平已成为影响智能制造落地成效的核心要素。传统MES依托ANSI/ISA-95《企业系统与控制系统集成国际标准》,通过实时数据采集与资源调度支撑现代制造体系的运行。但在智能化不断深入的背景下,系统仍面临多方面瓶颈:在数据层面,存在多源异构融合困难与实时价值提取不足的问题;在决策层面,多依赖静态规则,难以适应动态生产环境;在响应层面,缺乏对异常工况的自适应与闭环控制能力;系统架构呈封闭状态,与人工智能技术融合存在障碍;在知识层面,缺乏有效的沉淀和自主进化机制。这些问题严重制约了MES在柔性生产和实时优化方面的能力提升。


针对上述问题,本研究系统分析了MES系统现存的技术瓶颈,提出一种融合小型语言模型(SLM)与工业智能体的新一代MES架构,以推动MES从规则驱动向智能决策转变。


在现有研究中,针对MES的智能化升级,学者们已从多角度展开探索,包括基于云边协同计算的MES架构设计、深度学习算法在质量预测中的应用、强化学习在柔性作业车间动态调度中的应用,工业互联网平台与MES的集成以及利用数字孪生技术实现虚实映射与闭环优化。尽管这些研究取得了显著进展,但现有研究在MES智能架构方面仍存在不足。目前,MES智能化升级大多通过添加人工智能(AI)功能模块或接入AI能力来实现,这种集成方式虽有一定成效,但难以充分发挥AI模型的潜力。本文聚焦于构建AI原生的一体化MES系统,通过深度整合AI智能体与MES架构,实现多智能体协同与低延迟响应,弥补现有方法在适配成本和持续学习能力方面的局限。


一、问题剖析


(一)数据智能的数据割裂与实时价值不足


传统MES的数据采集以人工录入和基础设备接口为主,难以兼容物联网传感器、视觉检测系统等高维异构数据源。例如,本公司某工厂因设备与MES工单信息协议不兼容,使工艺参数与质量检测结果无法关联,削弱了预测性维护、根因分析等场景的实施基础。设备故障预测仅依赖单一阈值告警,误报率较高,见表1。


表1 传统MES“数据孤岛”问题及其影响

在数据时效性方面,传统MES的数据采集周期多以分钟计,无法满足高端电子制造等领域的毫秒级响应需求。同时,其架构过度依赖中心数据库,缺乏边缘算力,难以在本地完成实时数据清洗与特征提取,严重制约了数据的实时价值挖掘。


(二)决策智能的规则驱动与算法僵化


传统MES缺乏产能仿真能力,难以动态优化多约束生产流程。例如,本公司某厂采用“先到先做”的排产策略,在遇到紧急插单的情况时,需要人工重新排产,不仅耗时,而且效率低下。


同时,因缺少内嵌的AI引擎,无法运行实时回归分析、聚类算法等质量预测模型,质量分析仍依赖质量控制人员手动排查报表,难以满足电子行业通过统计过程控制(SPC)模型实时关联生产参数、自动锁定工艺偏移的需求。


(三)响应智能的调整滞后与闭环失效


传统MES在设备故障处理中仅能触发告警,后续维修依赖人工派单,响应效率低。同时,由于工控层与信息系统层的指令通道未实现打通,PLC停机信号无法联动MES重置工单,进一步降低了生产响应速度,见表2。


表2 动态响应能力差距分析

(四)技术架构的封闭性与AI融合障碍


在系统集成层面,MES作为连接企业计划层与工业控制层的中枢,因缺乏标准化接口和统一的数据治理机制,使跨层级的数据交互受阻。例如,企业资源计划(ERP)基于简单对象访问协议(SOAP)实现服务调用,而PLC/SCADA遵循多种工业通信协议。若MES未进行接口适配,易形成数据孤岛。


工业数据具有强噪声、小样本、多模态特性,不同层级的系统在数据格式、编码规则、更新频率等方面差异显著,进一步加剧了AI融合难度。此外,AI与MES的集成缺乏统一的行业标准,厂商在数据接口、通信协议、模型部署等方面存在技术壁垒,导致定制化开发成本高。


(五)学习能力的知识沉淀与进化不足


工厂中的维修记录、工艺日志等非结构化数据占比较高,但传统MES无法将其转化为知识图谱,导致企业知识传承依赖个人经验。若资深技术员离职,故障处理能力会明显下降。此外,传统MES依赖厂商进行定制升级,缺乏自主学习机制。与之相比,智能MES具备在线学习能力,能基于历史订单优化排产规则,通过缺陷模式迭代质检模型,从而实现自我进化。


传统MES陷入智能化困境的根源在于其封闭架构与动态制造环境之间的矛盾。突破困境需从三方面重构:一是解耦架构,采用微服务化与标准化接口,提升碎片化场景适配性;二是构建智能闭环,强化数据采集、算法分析与生产执行的协同,实现全链路智能化;三是探索与SLM集成,基于领域知识库实施检索增强生成(RAG),平衡应用成本与数据安全,以适应当前智能制造需求。


二、技术架构设计


本文提出一种融合SLM和工业智能体的新MES系统架构设计,如图1所示,该架构通过模块化分层、AI原生集成与数据驱动策略,实现MES与SLM能力的深度协同。


(一)核心设计理念


1.模块化设计与微服务架构


系统采用“核心基础服务+可插拔功能模块”的架构模式,核心层仅保留认证中心、消息通信、数据存储及任务调度等基础设施服务,确保系统最小化运行。所有功能模块(包括MES业务模块与智能体模块)均以独立微服务形式存在,支持按需部署与弹性扩展。借助容器化技术实现模块的快速部署与动态编排,以有效应对制造场景的碎片化需求。


2.AI原生集成


将智能体框架与SLM模型库作为系统基础设施的核心组件。AI能力通过模型上下文协议(MCP)与微服务API接口接入业务流程,为生产调度、质量预测、故障诊断等场景提供实时智能服务。


3.数据驱动与事件驱动机制


构建统一的数据总线(基于ApacheKafka的消息队列),并将其作为模块间通信中枢,实现异构数据的实时汇聚与分发。系统采用事件驱动架构,通过预定义事件触发智能体动作,提升系统响应敏捷性。数据流与事件流的协同设计确保了业务逻辑的动态适应性。


4.RAG范式


本地部署的SLM专注于指令理解、上下文管理、精准查询生成及检索结果整合等核心能力。在制造工艺解析、设备故障诊断、标准符合性检查等依赖精确行业知识的任务中,SLM动态检索MES数据库、行业知识图谱、企业文档库等领域的知识库,获取权威数据支撑。


(二)系统架构分层设计


MES系统架构如图1所示。

图1 MES系统架构


1.现场设备层


现场设备层是智能制造体系的物理基础,主要由PLC和SCADA控制,通过协议适配实现与MES的互联互通。其核心功能包括数据采集、设备控制、协议转换和安全防护,是构建互联生态和精益生产体系的关键。


该层通过部署传感器和智能仪表,实时采集设备运行状态、工艺参数和环境指标等多源数据,打破“信息孤岛”,为上层系统提供高时效性、高准确性的数据。同时,利用协议转换技术,实现异构设备的统一接入与协同控制,解决设备间“语言不通”的问题。


1.AI基础设施层


AI基础设施层是MES智能化升级的核心支撑,构建了智能体框架、模型资产库、领域知识库及数据集成层,为制造场景提供智能决策底座。该层以“模型驱动-知识赋能-互联数据”为架构理念,打造可扩展的AI能力中枢,推动MES从数据感知向认知推理升级,支撑工艺优化、质量预测等高阶智能应用。


(1)智能体框架


智能体框架构建了AI能力的运行基座,包含三大核心组件:一是运行时环境,负责管理智能体的全生命周期,支持智能体注册、MCP等通信协议的管理、任务调度及上下文感知,实现生产任务的动态响应与状态保持。二是工具集组件,采用插件化设计模式,预集成多种标准化工具函数,支持行业专属工具扩展。三是任务编排引擎,基于分层决策机制,将复杂制造任务分解为多智能体协作流程,通过状态机模型协调执行顺序与数据交互,实现自动化决策的闭环。


(2)模型资产库


模型资产库针对中低算力硬件进行适配优化,主要选用参数范围在0.5~32B的开源SLM,如DeepSeek、Qwen3等模型的知识蒸馏模型,并借助RAG技术实现对制造场景的适配。此外,该库还集成了一系列机器学习模型,专门用于满足制造领域的特殊场景需求。


(3)领域知识库


领域知识库作为智能知识中枢,基于数据集成层的输入,构建语义理解与推理的知识体系,为SLM和RAG提供精准检索支撑。它包含以下4个组件:一是知识加工引擎,负责将原始数据转化为知识。对于结构化数据,运用自然语言处理流水线和本体建模技术,抽取实体和关系,构建知识图谱;对于非结构化文档,通过嵌入技术将其转化为语义向量。二是多模态知识存储组件,该组件采用差异化存储方案,将工艺知识图谱存储在图数据库;通过向量数据库对语义向量进行索引;文档库利用Git-LFS,实现了标准文档的版本化存储。三是统一语义层组件,该组件通过元数据管理、本体库构建和同义词扩展,实现业务语义的标准化与统一映射;定义业务术语规范含义,构建业务分类体系,并利用网络本体语言(OWL)、简单知识组织系统(SKOS)等技术实现同义词扩展。四是知识服务网关,该组件为SLM和RAG提供调用接口与混合检索能力。通过RESTAPI提供图谱查询接口,支持多模态混合检索,并附带数据溯源信息,确保知识调用的准确性与可追溯性。


(4)数据集成层


数据集成层作为统一的数据枢纽,实现全链路工业数据的接入、治理与基础服务,为领域知识库提供高质量的数据输入。它包含以下4个组件:一是多源接入引擎,用于对接异构数据源,分层接入数据。实时层通过工业通信协议采集PLC/SCADA数据;业务层通过应用程序编程接口(API)/消息队列,与ERP、产品生命周期管理(PLM)、仓储管理系统(WMS)、设备健康管理(PHM)等系统对接;文件层解析标准作业程序(SOP)、手册等非结构化文档,确保多源数据的有效接入。二是流批处理中心,专注于数据清洗与融合。进行流处理时,使用数据质量规则引擎实时校验设备数据,保障数据的有效性;进行批处理时,借助Spark、Flink技术关联业务数据,构建复杂映射关系,提升数据的完整性与可用性。三是核心存储库,按数据类型和需求进行分级存储。时序数据库用于存储设备的实时状态数据;关系数据库用于存储业务实体数据;数据湖则对原始文档、日志等数据进行备份,实现高效的管理与存储。四是服务化接口,通过标准化数据服务为知识库赋能。利用事件驱动机制实现实时事件推送,触发知识更新,并开放数据溯源与质量报告,保障数据流向清晰、质量可控。


1.业务逻辑层


业务逻辑层作为MES的处理中枢,由传统MES核心模块与工业智能体使能模块协同构成,进而构建起“数据驱动-智能决策”的智能生产管理体系。传统MES的核心模块提供基础功能,覆盖全流程业务;工业智能体使能模块基于专业智能体,赋能关键环节,实现动态优化与自主决策。


(1)传统MES核心模块


工单管理模块基于状态机模型,实现工单全生命周期管理,通过工作流引擎驱动跨部门协同,确保生产任务得以有序执行。物料管理模块以批号/序列号为标识,构建物料追溯体系,实现原材料至成品的双向追踪,以满足质量追溯与合规要求。


生产调度模块依据约束理论,综合考量资源约束,生成最优排产计划,并通过甘特图直观展示产线负荷。生产执行跟踪模块实时采集设备运行与工艺数据,利用数字孪生技术可视化地呈现生产状态,实现对异常事件的及时预警。


质量管理模块内置SPC算法,支持质检标准设定、缺陷采集与不合格品处理,通过控制图分析保障工艺稳定性。设备管理模块集成台账管理、预防性维护与故障记录功能,基于OEE指标评估设备效能,实现维护工单的自动化派发。绩效分析模块内置关键KPI计算模型,通过可视化仪表盘展示准时交付率、合格率等生产绩效,辅助定位产能瓶颈。


(2)工业智能体使能模块


工业智能体使能模块集成多个专业智能体,驱动智能制造决策的优化。预测维护智能体基于时序数据预测算法与剩余寿命(RUL)模型,解析设备传感器数据,提前预警故障并触发维护工单,优化备件管理,降低非计划停机风险。质量诊断智能体融合机器学习(ML)分类模型与故障知识图谱,实时剖析质检数据,快速定位质量异常并完成根因诊断,联动工艺调整流程,提升产品质量稳定性。


调度优化智能体采用强化学习与约束规划融合算法,基于生产与设备数据动态优化排产指令,实现换型时间压缩与产能均衡的多目标协同。排产助手智能体基于事件驱动机制,通过启发式算法快速响应生产扰动,生成重排产方案并评估交付影响,保障计划灵活性。


问答助手智能体依托SLM与领域知识库,运用RAG技术,支持自然语言交互,为现场人员提供操作规范与工艺咨询。故障诊断智能体构建“异常检测-诊断-处置”闭环,借助实时数据监控与规则引擎,自动触发应急预案,实现异常快速响应。数据分析智能体提供可视化交互工作台,支持自定义分析任务,降低数据使用门槛,为生产决策提供数据支撑。


1.应用层


应用层作为MES面向用户的人机交互界面,承担着数据可视化、业务操作集成与智能交互支持的关键任务。该层构建于统一前端框架之上,提供Web端、桌面端及移动端多终端协同的应用体验。


三、关键技术点实现


MES的四层架构融合工业自动化、人工智能与制造管理技术,在实施过程中面临诸多技术挑战。


(一)高质量数据集建设


高质量数据集是领域知识库构建的基石。依据全国数据标准化技术委员会分类体系,重点建设行业通识数据集与行业专识数据集两类,如图2所示。

图2 高质量数据集建设框架


行业通识数据集面向行业从业人员,通过整合通用性知识提升模型的泛化能力。数据源涵盖行业白皮书、技术报告、标准规范、专利文献、学术论文、专业出版物、政策法规、产品说明书、行业资讯、百科词条及企业财报等,全面覆盖行业共性知识结构。行业专识数据集面向特定业务场景的专业人员,聚焦细分领域深度知识,支撑业务模型的精准应用。数据来源于企业内部研发文档、工艺文件、作业指导书、质量记录、专家经验库,并结合行业前沿技术报告、专利文档与学术成果,系统挖掘专业技术与经验性知识。


两类数据集在知识深度、受众范围及场景适配性方面差异显著。在知识深度方面,行业通识数据集注重广度,服务于入门至中级需求;行业专识数据集强调深度,达到专家水平,常涵盖前沿技术与方法论。在受众范围方面,行业通识数据集覆盖约80%的通用岗位人员,行业专识数据集则面向5%~10%的高端专家与核心技术人员。在场景适配性方面,行业通识数据集适用于多类通用场景,行业专识数据集则紧密耦合特定业务环节,通常包含定制化规则与历史案例库。


为保障数据集的时效性与准确性,需要建立动态更新机制与失效数据清理策略。原始数据文件存储于数据湖架构,依托数据治理实现高效组织和管理;图文数据经过嵌入模型向量化后,存储于向量数据库,支持高效语义检索与模型训练任务。


(二)模型资产库建设


模型资产库作为AI基础设施层的核心,为MES智能化提供可扩展的模型支撑,构建了“通用+专用”双层架构:上层以SLM为主体,融合领域知识与RAG技术,以实现语义理解;下层部署专用ML模型,适配特殊业务场景。同时,基于机器学习运行(MLRun)、气流(Airflow)、特里同(Triton)及机器学习流程(MLFlow)等开源技术搭建全链路机器学习运维(MLOps)服务,贯通数据准备、模型训练、部署优化的全流程,支持模型高效微调与迭代。


1.分层协同模式


采用双层架构实现功能解耦:通用层基于SLM模型,结合RAG技术对接领域知识库,实现自然语言理解、指令解析等交互功能,其典型应用是设备维修工单的语义解析与工艺指令的分发;专用层针对制造场景选型适配模型,如强化学习优化动态排程、采用YOLO算法实现边缘质检、利用LSTM/Transformer预测能耗以及使用生存分析模型支撑设备预测性维护等。该模式通过通用层处理非结构化任务、专用层解决确定性问题,有效避免了模型能力冗余。


2.模型资产治理体系


结合分布式版本控制系统(Git)MLOps构建模型资产治理框架,对模型二进制文件、训练配置及评估报告实施版本化管理,通过“提交-触发持续集成/持续部署(CI/CD)-注册版本-支持回滚”流程保障模型迭代可控。MLOps流水线整合阿帕奇气流(ApacheAirflow)进行数据预处理调度,利用MLRun执行分布式训练任务,借助Triton实现模型服务化部署,并通过普罗米修斯(Prometheus)进行运行指标监控。同时,引入模型卡记录数据血缘、伦理审查结果及性能衰减阈值,确保模型全生命周期的可追溯性与合规性。


3.模型优化策略


针对不同的业务需求制定差异化优化方案:对于知识密集型任务,优先采用RAG方案,可大幅降低算力消耗并支持动态知识更新;对于特定场景的泛化需求,在具备万条以上标注数据的条件下,通过定向微调可使推理精度明显提升;而对于其他结构化业务场景,则通过开发专用的ML模型实现高效处理,形成需求驱动的模型优化决策路径。


(三)任务编排引擎实现


智能体框架基于开源技术栈构建,涵盖多类型智能体协作与复杂业务逻辑。本节以任务编排引擎为例,结合设备故障诊断智能体,阐述其如何通过LangGraph状态机模型构建分层决策机制,实现设备故障的高效处理与响应,如图3所示。


1.分层任务分解机制


故障诊断任务被划分为三级子任务流。一级任务由设备传感器通过OPC UA协议实时采集振动、温度等数据,当振动值超出阈值时,就会触发故障事件;二级任务由诊断智能体执行,包括“历史工单检索”和“多参数关联分析”两个并行子任务;三级任务由维护智能体负责,依据诊断结论生成操作序列。

图3 设备故障诊断智能体协作流程


1.状态机驱动的协作流程


状态机定义就绪、诊断中、方案制定、执行中、已完成5种状态,以实现智能体间的有序协作。设备振动异常触发系统进入“诊断中”状态,激活诊断智能体多线程处理;诊断完成后,状态迁移至“方案制定”,维护智能体检索维修手册并确认备件可用性;控制智能体向PLC下发维护指令后进入“执行中”,传感器反馈数据恢复正常后,标记任务“已完成”。


2.多智能体协同机制


多智能体系统通过基于消息传递的协作网络实现协同运作。设备传感器借助MQTT协议实时发布故障事件,触发控制智能体启动诊断流程;诊断智能体与维护智能体通过上下文存储实现知识共享与状态同步。当PLC指令下发失败时,系统状态机自动回滚至“方案制定”节点,维护智能体切换至远程指导模式,并依托AR技术向现场人员推送实时维修指引,以确保异常状况下操作流程的连续性与可控性。


(四)微服务与容器化架构的统一管理


系统采用微服务架构对MES功能模块与工业智能体进行解耦,各服务以容器化形式独立封装,实现高内聚低耦合。该架构既能支持MES核心功能的敏捷迭代,又能保障AI服务资源的弹性伸缩。


Kubernetes作为容器编排与集群管理的核心,提供以下关键能力:一是服务编排与弹性伸缩,依据资源调度策略动态分配Pod资源,避免资源竞争。水平扩缩容基于CPU/内存指标及自定义Metric自动调节Pod副本数;垂直扩缩容实时调整Pod资源限配,以应对突发负载。二是服务发现与流量治理,Pod启动后自动注册端点信息,ClusterIPService实现服务间的负载均衡;Ingress提供七层路由机制,支持基于路径的流量分发。集成ServiceMesh可细化流量治理与故障隔离能力,增强系统鲁棒性。三是统一配置与密钥管理,借助ConfigMap集中管理环境配置,Secret加密存储敏感凭证;通过Reloader监控外部变更并触发滚动更新,避免Pod重启。四是有状态服务支持,StatefulSet确保数据库、消息队列等有状态应用的稳定运行,结合PV/PVC保障数据持久化;InitContainer从对象存储中拉取最新的AI模型,并将其加载至推理服务,实现模型的更新与版本的无缝切换。


四、结语与展望


本文提出的融合SLM与工业智能体技术的下一代MES系统架构已完成开发,并进入企业内部验证阶段。针对验证中暴露的问题,后续将从实时控制性能与数据资产全周期管理两方面进行优化。


在实时控制性能优化方面,传统RAG机制因涉及知识库检索、提示词处理及模型推理等多个环节,在设备突发报警等毫秒级响应场景中,时延超过2000ms,难以满足工业实时性需求。为此,计划在设备侧部署边缘AI算力终端,实现数据就近处理与推理,有效缩短响应链路,提升系统实时性。


数据资产全周期管理是保障智能决策的关键。需构建“数据采集-标注-验证-迭代”闭环管理机制,持续适配业务场景并更新领域知识库,确保模型推理的时效性与准确性,使数据管理贯穿制造业务全生命周期,为智能决策提供高质量数据支撑。


该架构通过融合微服务化业务组件、智能体框架驱动、本地化SLM及领域知识库,将本地大模型推理、智能体任务编排等AI能力深度融入系统基础设施,结合模块化设计推动传统MES智能化升级。具备充足算力资源的企业可尝试替换为DeepSeek-R1-0528等高性能大语言模型,进一步提升系统智能水平。随着边缘计算与模型轻量化技术的发展,该架构在复杂制造场景中的应用潜力有望得到更充分的释放。


原文刊载于《数字化转型》2025年第11期 作者:李强 刘剑飞

暂无评论,等你抢沙发

  • 短信登录
  • 密码登录
还没有账号,
登录即代表您同意本网站的 《用户注册协议》
还没有账号,
登录即代表您同意本网站的 《用户注册协议》
注册
已有账号, 立即登录
登录即代表您同意本网站的 《用户注册协议》
找回密码