导语:利用分布式文件系统 HDFSMapReduce 分布式哈希表和软件集成系统可以实现对数据的获取存储共享搜索和分析
1 数据时代的挑战
现代社会是一个数字社会,每时每刻都会产生无数的数据。据 IDC 预测,到 2025 年全球的数据量将达到 175 ZB,相当于 1.88×1011 TB。如何利用好这些数据,将成为今后亟需解决的问题。随着 CPU、GPU、以太网、固态硬盘和HPC 等硬件的发展,硬件已经不是限制石油石化系统发展的主要矛盾了,而数据的处理才是限制石油石化系统发展的主要矛盾。石油石化系统存在 PB 级别的海量数据,其中 90% 是非结构化数据,包括各专业的实验、监测、分析和报告等,非结构化数据不适合用简单的逻辑关系来表达。除此之外,只有 10% 是结构化数据,例如单位的财务系统、档案系统和开发生产信息系统等。
2 国内外油气行业数字化探索
世界油气行业正处在自动化向数字化转变的起步阶段,一些带头企业在数字化转型中取得了可喜的成绩。挪威国家石油公司通过对远程操控钻井机器人、四维模拟技术以及数据集成管理平台的应用,形成了全球化的业务支持中心。沙特阿美通过生产运行实时数据管理和油藏智能化管理,形成了集成运营环境。
BP 石油公司通过油藏远程监控和诊断、模型仿真以及数据管理实现辅助生产与管理决策的作用,BP 通过未来油田项目,实现了基于实时分析的快速决策,同时也实现了多学科、多点的远程协同,对其总产量的贡献率达到 50%。雪佛龙(Chevron)开发了油藏生产应用系统,利用共享信息平台整合各类生产数据。道达尔(Total)与 Google 联手率先将人工智能技术应用在对油气勘探开发地质数据的处理分析中。贝克休斯(Baker Hughes)以 Predix 工业互联网平台为基础,通过人工智能、云计算技术开发了油田开发管理系统 。斯伦贝谢(Schlumberger)在微软 Azure 云计算平台上构建了勘探开发认识环境,使用 DELFI 勘探和生产环境感知系统把人工智能、数据分析和自动化多个技术领域的优势集合在一起,使勘探开发工作更加智能化。
中国石油发布了国内油气行业首个“梦想云”智能云平台,充分利用油气生产物联网系统、工程技术物联网系统等技术加速推动数字化油田向智能油田的转型。中国石化基于物联网、云计算等技术,推出油田勘探开发业务协同平台和勘探开发云中心。中海油通过建设勘探开发实时决策系统,构建以“井”为中心、井场与基地多学科协同作战的信息系统平台,有效地节约了钻井时间,提高了目的层的钻遇率。
3 储层改造数据面临的困境
为了提高低渗、特低渗油气藏的产能,需要对地下储层采取一系列的工程技术措施,常见的措施有水力压裂和酸化技术。
图 1 沉积相图
图 2 测井曲线图
而在应用这些措施的过程中,需要处理涉及众多专业的多类型数据(例如沉积相图(如图 1 所示)和测井曲线图(如图 2 所示))。这些数据包括物探专业人员用到的地震 SGY 数据、地震解释和反演数据;钻完井专业人员负责的钻井数据、完井数据和测试数据 ;测井专业人员用到的测井数据、测井解释数据 ;地质油藏专业人员分析的温压数据、岩心数据、各类地质图件和试井资料 ;开发专业人员经常分析的油气生产数据等。在这些数据中,除了油气生产数据已经入库,其余的数据大都散布在各个科室和各科研人员的电脑中。
由于对这些数据缺乏有效的数据管理方法,因此严重阻碍了科研人员对数据的调用。经常可以看到为了某些关键数据,需要部门间的领导进行协调,甚至花费了大量的人力物力求得数据却不是最新版本的现象。数据现在已经被公认为是一种新的经济资产类别,储层改造需要地质和工程人员通过有效整合这些数据来完成可行性论证、基本设计和详细设计,进而在现场施工后实现油气增产的目标。
4 大数据技术在储层改造的应用构想
大数据技术的研究方法不同于实验型科研、理论型科研和计算型科研的研究方法,它是一种数据密集型的科研方式,前三种是先有理论,再用数据验证。大数据技术是一种研究革命,它是先有数据,通过计算数据总结出结论。在储层改造研究工作中的数据具有多源异构、分布广泛以及动态数据增长迅速的特点。因此需要用大数据技术解决好数据的获取、存储、共享、搜索、分析以及可视化方面的问题。因为大数据技术在储层改造研究中处于起步阶段,所以该文从理论上论证它的实现途径。
4.1 分布式文件系统在储改数据存储的应用
采用分布式文件系统(Hadoop Distributed File System,HDFS)来进行多元数据的获取、存储和共享 。当研究人员需要读或写某一专业数据时,可以通过目录来查询该数据是属于哪个部门、哪方面的数据(如图 3 所示),研究人员知道数据的存储位置后,再具体访问对应部门的相关数据 。目录需要实现各部门数据与目录之间的映射,各部门把有价值的专业数据定期上传到相应位置。
图 3 HDFS 分布式文件系统架构图
因为目录是所有研究人员都需要用到的,所以它变成系统性能的瓶颈,再加上对数据安全的需求,一旦该目录损坏,所有人员就都查询不到数据了 [7]。因此,需要对系统进行优化,让多个目录并列运行,但是需要保证这些目录的一致性,保证每个目录指引的文件都是一样的,这样就可以保证所有研究人员获得的数据版本都是一致的。
4.2 MapReduce 在储改数据管理的应用
在处理测井、物探、地质和生产数据的搜索、分析以及可视化功能时,需要用到 HDFS 架构之上的映射规约编程模型 MapReduce(如图 4 所示)。
图 4 MapReduce 架构图
MapReduce 主要分为Map 阶段和 Reduce 阶段。Map 阶段就是一个分发任务的阶段,Reduce 阶段就是一个统计、汇总的阶段。而研究人员不需要管理任务的分发和合并,MapReduce 后台可以实现对任务的分发和合并。研究人员只需要关心任务(Task)如何运行,并编制相应的程序就可以了。例如,通过 Map阶段可以统计某油田砂体有效厚度> 20 m,且孔隙度大于10%、渗透率> 1 md 且含气饱和度> 40% 的甜点 ;然后再通过 Reduce 阶段对所有的甜点进行汇总。
4.3 分布式哈希表建立储改数据大表数据库
分布式哈希表(Hbase)是利用分布式文件系统 HDFS来储存数据,利用 MapReduce 来处理海量数据。分布式哈希表是以列的形式来存储储层改造论证中所需要的基础数据,基础数据包括井号、井型、井别、完钻井深、作业时间、工艺类型、射孔段、离含水层距离、压力系数、温度、孔隙度、渗透率、含水饱和度、施工压力、闭合压力、排量、总液量、加砂量、返排率以及压后产量等。正是因为每口井需要统计的数据很多,而且日常工作中经常需要对多井的某个信息进行对比,所以哈希表更有利于储改数据的存储。这样可以更方便地读取某口目标井的信息。分布式哈希表建立的数据大表数据库相比于传统数据库具有硬件成本低廉、数据库存大和查询吞吐量大等优点。
4.4 集成软件管理在储改中的应用
储层改造研究涉及多个专业,在研究过程中经常需要调用多个专业软件,例如储层解释反演软件、测井解释软件、地质模型软件、数值模拟软件以及压裂设计软件等,需要将多个专业软件集成在一起(如图 5 所示),这就需要在分布式文件系统的基础上,创建一个软件资源管理器,Application Master 管理就是这样的软件资源管理器。将多个专业软件集成在软件管理器上,由软件资源管理器统一管理数据,省略了在不同软件之间导入、导出数据的步骤。除此之外,软件资源管理器还可以避免出现各种专业软件不兼容的问题,进一步提高储改工作的效率。
图 5 集成软件管理
5 结语
面对海量数据的挑战,国外石油巨头已经开始积极探索,国内中石油、中石化和中海油也在油气生产的各个环节展开数字化的部署。储层改造的特殊性需要各个专业的数据进行支撑论证、分析和设计,因此需要对这些数据进行管理。其中,利用分布式文件系统可以实现储层改造研究过程中对数据的存储;利用 MapReduce 模块可以更加高效地利用油田成产过程中的数据 ;利用分布式哈利表建立储改数据大表 ;将储改工作中常用的软件进行集成管理。这些技术将致力优化储层改造相关工艺的各种参数,数字化的储层改造将会成为数字化油田的重要组成部分。
原文刊载于《中国新技术新产品》2021年第7期 作者:王晋 田继宏 邹先雄 李伟 莫高武 张渊
本文为授权转载文章,已标明作者和出处,文章内容仅代表作者观点。如需转载,请与作者或授权媒体联系。如对文章内容有疑议,请联系editor@xingongye.cn。
暂无评论,等你抢沙发