2022-03-06
导语:对于大多数企业以及规划人员而言工业大数据还只是概念层面的事情大数据技术不明底层设备和技术不统一存在比较严重的数据孤岛现象和数据质量问题
目前,工业大数据的应用已经成为一项热点,与之前的结构化数据处理相比工业大数据架构明显存在着不同。对于大多数企业以及规划人员而言,工业大数据还只是概念层面的事情,大数据技术不明确,底层设备和技术不统一,存在比较严重的数据孤岛现象和数据质量问题。为此,从应用的角度出发,将不同层面的应用技术进行汇总,为大家提供一套工业大数据应用技术架构。这是只是我个人应用项目的实际总结,如有不当之处还请指正,不胜感激。
工业大数据解决方案总体需求服务包括底层工业现场设备数据的采集、云端上层分布式存储、智能分析、实时监控管理等。其数据处理流程可分为数据的采集阶段、数据存储、数据分析到最终的可视化决策管理。首先,在数据采集阶段将多种数据源数据采集进入本文构建的工业大数据平台,根据不同数据的特性及实际需求,将其以不同的存储方式存储;接着,在数据分析阶段,通过相关的数据分析工具组件对数据进行分析挖掘,可对结果进行进一步的存储。上一步的分析结果进行可视化处理用于最终的决策管理环节。
根据上述流程每个环节用的技术与服务对平台总体架构进行设计,如下图所示:
1)数据层服务:考虑到数据源类型的多样性以及未来云平台的可扩展性,在设计中将数据源分为文本类型的数据、数据库数据、工业现场设备数据以及来自互联网络的其他类型的接入数据。根据不同数据源的数据,数据层提供数据实时获取服务以及数据订阅获取服务,其中订阅获取服务是从数据源中选择感兴趣的数据,包括数据源新增的数据、数据源变动较大的数据等;
2)存储层服务:对于数据层获取到的数据,在存储层提供多种类型的存储方式。根据数据类型的特性,选择将数据以文件的形式存入分布式文件系统,或者将数据以数据库的方式存储。在数据库存储的设计上,考虑到不同类型数据库的优势以及实际生产中的需求,存储系统同时提供传统关系型数据库、NoSQL非传统关系型数据库以及数据的高速缓存服务;
3)计算层服务:位于存储层的上一层,提供大量数据的分布式并行计算能力。考虑到Spark平台的优秀计算能力,该层选择构建于Spark核心引擎之上;
4)分析层服务:在数据的分析层,提供人工神经网络算法、基于Spark MLlib的常用机器学习算法以及其他常用统计学算法,同时支持未来对于其他算法的拓展;
5)管理层服务:位于架构的顶层服务提供用户基于云端的监控、分析、查看、管理等较多管理层服务。
数据集成方式
数据集成是将多种物理或者逻辑上分散的目标数据源数据进行采集、统一存储的过程。其是对多种数据源数据采集入云、解决“数据孤岛”问题的关键一环。日常工业场景中可以将数据源数据分为四类,具体数据类型和集成方式如下:
1)针对工业现场中设备、传感器等数据,通过OPC UA协议进行数据的采集。通过开发OPC UA客户端实现与远程工业现场设备对组态,从而实现数据的采集传输,接入本文中的工业大数据云平台;
2)针对日志文本等数据文件,以文件上传的方式提供文件的云端采集功能;
3)针对传统关系型数据库数据,通过Sqoop组件实现云平台对该类型数据的采集;
4)针对其他网络数据,提供以HTTP、TCP/IP协议的方式实现云端对该类数据的采集。
数据集成服务由数据集成模块组成,实现云平台对于多种数据的接入功能,提供依据实际生产中不同的需求从相应的数据源进行数据的采集服务,同时支持数据的订阅服务。考虑到云平台未来的可扩展性以及其本身在多种场合的适用性以及可靠性,本文将数据集成模块设计为中间件。中间件可以理解为一个相对独立的软件或者系统,其职责较为单一,专门为其他系统或者应用程序提供服务。
数据存储层架构
数据存储层实现本文中的云平台对于大量数据的缓存和存储功能。为了使该云平台能够为不同类型的数据提供多样化的存储方式,本文基于存储层服务对常用存储组件进行了整合。架构主要包括以下三方面:
1)云端分布式存储子系统基于Hadoop构建,因此,其提供将数据以文件的形式存储于HDFS分布式文件系统之上。
2)为了便于对有些数据的查找更新等管理操作,在云端分布式数据存储子系统中部署了HBase以提供对于非结构化数据存储的良好支持;同时,考虑到实际应用中传统关系型数据库在对一些结构化数据的查找更新方面具有非常简便高效的特点和优势,因而在云端分布式数据存储子系统中部署了MySQL传统关系型数据库,促使本文构建的工业大数据云平台对于数据在数据库方面具有多样化的支持。
3)考虑到云平台在实际应用开发中某些场合的高效性,本文构建的工业大数据云平台部署了高效的数据缓存组件Redis,该组件是一个支持多种数据类型和存储方式的Key-Value即键值对型的数据存储系统,具有开源、高性能、多种开发语言支持的优势,提供基于计算机内存的数据高速缓存功能。
数据分析处理
为了挖掘潜藏在数据中的信息,云平台以数据分析模块为核心,提供针对于工业大数据的预测分析功能。数据分析模块以人工神经网络等相关算法为核心实现对于工业数据的预测功能。另外,该数据分析模块构建于Spark分布式计算平台之上,本身提供了基于Spark MLlib的机器学习算法库(除了MLlib算法库外还有很多种算法,可以根据实际需要进行选择),这使得本文中的工业大数据云平台在未来的开发中能够很好对其他机器学习算法进行支持和拓展,具体步骤如下:
第一步:从数据存储层输入待训练数据,并对数据进行相应的数据预处理操作,以降低数据质量问题对模型造成的不良影响;
第二步:经过数据预处理操作后,进行模型的训练操作。此部分构建于Spark Core Engine即Spark的核心引擎之上,以保证云平台对于模型的快速构建能力;
第三步:对初步训练好的模型进行测试,获取其测试信息。在达到预期模型效果的情况下进入下一步操作;否则重复本步骤操作;
第四步:将训练好的模型存储至云端模型仓库;
第五步:将等待预测的数据从其他模块输入数据分析模块,进行相应的模型调用操作,最终生成该预测数据的预测数值,完成数据的预测分析。
暂无评论,等你抢沙发