导语:对当前质检场景的痛点提出了一种高效的数据底座建设方案旨在支撑质检数据全生命周期管理并详细阐述了整体方案架构及主要功能模块以及该方案在某客户的最佳实践
一、引言
随着人工智能技术不断发展,越来越多先进制造企业尝试将其应用于生产和质量控制,以此实现生产的自动化、智能化和高效化,进而提升生产效率与产品质量。智能制造已成为增强制造业整体竞争力的核心技术,半导体、动力电池、PCBA、电子、光伏等高端制造企业积极推进工厂智能化升级。除人工目视质检外,它们投入大量如 AOI、AVI、X - ray 等工业 AI 检测设备,实现自动化检测,提高检测精度和效率,达成产品良率提升、质量全流程管理以及人力成本降低的目标。在此过程中,会产生 PB 级别的质检文件。因此,如何有效管理和利用这些海量质检数据,成为产线质检系统建设亟待解决的重要问题。
二、产线质检数据管理面临的挑战
2.1 文件混合处理性能要求高
传统产线质检文件多为 kB 级小文件,规模可能达到十亿到百亿级,对海量小文件的处理性能有较高要求。同时,随着质检企业数字化转型推进,部分质检企业的图片格式向 RAW 格式转变,单张图片大小从 kB 级增长至 MB 级,这也带来了高带宽需求。
2.2 百亿质检文件管理难
数据在采集、存储、管理和使用方面要求颇高,既要满足海量数据的长期存储需求,又要提升质检数据全生命周期的管理效率。存在以下具体问题:
边缘数据同步困难:质检图像数据先存储在工控机本地盘,缺乏有效的软件将本地数据自动传输至存储设备。
数据互通难:业务中不同工序、AI 训练、大数据分析等流程的数据难以互通。
文件检索效率低:在质量回溯时,面对百亿级的海量文件,传统人工检索方式效率低下,检索时长可达小时级,人力成本高昂。
过期文件删除困难:不同工序的数据保存周期不同,每天会产生千万级的过期数据,采用传统人工删除方式,效率低且人力成本高。
2.3 质检文件保存时间长
依据下游厂商及相关行业规范要求,质检数据需长期保存。例如,按照 TS16949 规范,汽车零部件(包括芯片等)的质量、安全相关记录需保存 15 年;部分手机代工厂要求相关质检图片保存 3 - 6 个月不等。保存周期越长,数据量越大,PB、10PB 甚至 100PB 规模的海量文件长期保存,需要存储设备具备高效的数据压缩和分级能力,以降低长期存储成本。
三、产线质检数据湖方案架构设计
针对质检数据管理的诸多问题,深圳连用科技联合华为数据存储产品线,推出工业质检数据湖解决方案。该方案旨在实现机台数据的自动增量采集归档、安全存储、高效管理以及多应用间的无损互通,构建一个稳定、高效、安全且符合企业实际需求的机台数据归档系统和数据归档平台,并提供整合集成应用系统产线归档数据调阅功能,确保产线归档数据能在企业内部员工、部门、厂区之间安全共享、便捷流转。方案主要功能如下:
图 1 工业质检数据湖应用架构方案
3.1 产线数据归档
基于归档备份策略,系统可自动对产线数据进行安全归档备份,自动采集机台数据,支持增量上传机台本地数据,并自动清理已上传数据,同时能可视化实时监控机台状态及资源选区。此外,系统可自动提取、识别文件内容、标签、名称等信息,依据数据分级策略对文件进行安全定级,配合安全级别实施分类分级安全管控,还可通过敏感数据视图,全局掌握敏感数据概况。
3.2 数据自动存储
质检数据可通过 S3 协议统一采集至分布式存储集群,为产线数据搭建了统一的自动化采集平台。该存储具备强大功能,能满足企业多种场景下的数据存储需求,如按需扩展、提供大并发 I/O 读写、数据容灾、在线文件压缩等。后端分布式存储的在线容量扩展能力和性能扩展能力极强,存储空间可从 PB 级线性扩展到 EB 级。
3.3 产线数据服务平台
产线归档数据服务平台通过一套可持续的 “让数据用起来” 的系统机制,持续将机台数据转化为资产并服务于业务。该平台不仅具备海量文件快速检索、在线预览、网间安全文件交换等功能,还支持 API 接口,可与 MES、SPC、QMS 等第三方应用系统集成,实现数据的互融互通。
3.4 数据智能分级
分布式存储构建统一的数据资源池,借助智能分级技术实现数据流动。经常读写的热数据存储在高性能存储池中,冷数据则归档至大容量存储池中,以此降低数据长期存储成本。
3.5 高效场景化压缩算法
采用场景化压缩算法,可实现高比例的质检图像压缩。压缩时间可根据工序质检保存诉求灵活设定,能按照质检所需工序、机台等维度配置压缩算法,最大支持 4:1 的数据高压缩比,即 1PB 空间可存储 4PB 数据,进一步降低了数据长期存储成本。
3.6 千万级过期文件高效删除
质检过期文件可通过自动化删除策略进行删除。分布式存储针对数据删除进行了深度优化,能够实现千万级文件小时级删除,且删除操作不会对生产业务造成影响。
四、某客户产线质检数据管理最佳实践
某电子实业有限公司是国内知名的 FPC 制造商,主要从事柔性电路板(FPC)、柔性封装基板、软硬结合板的生产和销售,员工超 2000 人,厂房占地面积超 32000 平方米。
4.1 当前痛点
该企业当前采用机台本地存储结合传统 NAS 存储的方式保存产线文件,通过手工拷贝和脚本进行数据迁移、汇聚以及过期文件手动删除,这种架构存在以下问题:
图 2 传统机台归档数据采集方式
数据资源分散:机台产生的大量非结构化数据直接存入本地硬盘,导致数据存储分散、结构复杂、质量参差不齐,无法统一管理和调用,运维难度大。
本地盘及传统 NAS 存储扩展性不足:数百个机台每年产生的数据量可达几十 PB 级,机台本地盘及传统 NAS 存储的容量扩展能力有限,难以满足未来存储性能和容量的线性增长需求。
质检溯源时检索效率低:数据调阅、筛查比对、溯源等操作依赖检索,文件数量庞大时,搜索性能缓慢,查询维度少,人工检索往往需要花费数小时。
数据安全管理弱:机台数据涉及企业核心利益,但当前缺乏相关安全机制,存在数据泄露、被篡改及遭受病毒攻击的风险。
到期文件删除困难:不同工序的数据保存周期不同,每天有近千万过期文件需要删除,传统人工删除方式效率极低,需耗费数天时间。
4.2 方案部署
针对该客户面临的问题,并结合未来技术发展,连用科技联合华为技术有限公司为其部署了工业质检数据湖解决方案。
图3 智能化工业质检数据归档系统功能架构
自动化采集:在机台端部署 agent 进行实时数据采集,质检文件通过 S3 协议统一采集至后端分布式存储。
海量文件存储:利用分布式存储集群技术,构建统一的数据存储资源池,具备 PB 级至 EB 级的大规模存储能力,可满足企业未来百 PB 数据的存储需求。
高效数据管理:部署连用 LAS 数据管理平台,实现海量文件全生命周期管理,具备海量数据快速检索、敏感文件安全管控等功能。
4.3 实施效果
方案上线后,实现了机台数据的全生命周期管理、自动采集归档、统一存管和有效利用,保障了数据长期存储的可靠性、安全性和完整性,为客户带来诸多核心价值,如提高生产效率、降低设备数据存储成本、提升产品质量,助力客户实现智能化升级。
数据自动存储,智能分级,降本增效:工控机本地数据自动汇聚到存储设备,分布式存储可线性扩展至上千节点,实现平滑扩容和升级,满足客户百 PB 数据存储需求。同时,基于智能分级技术,长期不使用的数据自动归档至大容量存储设备,降低了长期存储成本,也符合数据长期保存的合规要求。
智能精准检索,实时响应:质检数据自动进行图片压缩、格式转换,支持按需自定义标签、图片批注和水印等操作,提升了访问效率,大幅提高了产线质检和质量回溯工作效率。基于元数据和标签对数据特征分类,可实现智能精准检索,面向百亿级文件提供秒级多维度检索,数据检索效率相比之前提升百倍以上。
千万级到期文件自动化删除:基于自动化到期文件删除策略和高性能分布式存储,可实现千万级过期文件小时级删除,2 亿过期文件可在 1 天内删除,数据到期删除效率相比之前提升十倍以上。
4.4 未来展望
随着该客户持续推进工厂智能化升级,以进一步提升产品品质和生产管理效率、重塑竞争优势,未来机台数量将不断增加,质检精度也会持续提高,产线质检数据极有可能突破 100PB 甚至达到 EB 级。届时,海量质检数据的低成本存储将成为企业关注的核心问题。因此,质检数据湖未来应重点探索如何借助 AI 等技术实现数据的高效压缩,进一步降低长期存储成本。
作者:深圳连用科技有限公司 李晨宇
暂无评论,等你抢沙发