工业数据驱动技术在大型复杂天然气管网运行中的应用
主要内容:大型复杂天然气管网运行数据分析是一类典型的工业大数据驱动技术的应用场景。工业大数据实时性高、数据量大、价值密度低、数据源异构性强,通用的纯数据驱动技术手段无法解决天然气管网运行业务中的特定问题。为了给大型复杂天然气管网的运行提供决策支持,国家石油天然气管网集团有限公司(以下简称国家管网)油气调控中心作为全国天然气管网的运行中枢,在大型数据应用的探索中将先进数据处理技术、深度学习算法与天然气管网运行实际深度结合,基于业务逻辑定制应用功能,充分利用已有的自动化数据采集和关键设备远程控制技术,在天然气管网运行业务中实现了数据驱动技术的应用。研究结果表明:①在数据采集层,通过前置性数据治理算法实现了多源时序数据结构化采集,建立起字段对称的关系型数据库,实现了自动化数据采集、高效的数据管理;②在数据分析层,根据深刻的业务逻辑个性化应用机器学习算法,紧密结合运行需求开发出一套可实现短周期消费量预测、实时进出平衡分析、运行方案推荐的智能分析工具;③在数据服务应用层,基于Echarts开源可视化图表库,对多层次维度管网运行数据实现交互式的可视化展示,打造数据应用平台提取关键信息,为运行决策提供有力支持。
关键词:数据驱动;数字化转型;工业数据;天然气管网;调控运行;机器学习;数据可视化;数据治理
0 引言
截至2020年底,国家石油天然气管网集团有限公司(以下简称国家管网)运行在役天然气管网近5×104 km,国家管网油气调控中心作为运行中枢,控制指挥着数百座站场,连接着几十个气源上载点,为数千个用户供气,输运调配全国超过2/3的天然气资源,每日通过SCADA、管道生产管理系统实时采集数十万个数据点。数据来源多样、维度复杂,统计口径多、应用需求广,是一类典型的工业大数据驱动技术应用场景。
较之于互联网大数据,工业大数据实时性高、数据量大、价值密度低、数据源异构性强,通用的纯数据驱动技术手段无法解决天然气管网运行业务中的特定问题[1]。国家管网油气调控中心在大型数据应用的探索中,将先进数据处理技术、深度学习算法与天然气管网运行实际深度结合,基于业务逻辑定制应用功能,充分利用已有的自动化数据采集和关键设备远程控制技术,在天然气管网运行业务中实现了以下数据驱动技术应用:①在数据采集层,通过前置性数据治理算法实现了多源时序数据结构化采集,建立起字段对称的关系型数据库,实现了自动化数据采集、高效的数据管理;②在数据分析层,根据深刻的业务逻辑个性化应用机器学习算法,紧密结合运行需求开发出一套可实现短周期消费量预测、实时进出平衡分析、运行方案推荐的智能分析工具;③在数据服务应用层,基于Echarts开源可视化图表库,对多层次维度管网运行数据实现交互式的可视化展示,打造数据应用平台提取关键信息,为运行决策提供有力支持。
1 运行数据架构
1.1 天然气管网运行数据主要内容
根据数据采集来源,天然气管网运行数据(图1)可划分为7大类:①运行日报数据;②基础维度信息数据;③时间序列数据;④SCADA瞬时数据(通过中间数据库PI采集应用);⑤仿真模拟计算数据;⑥压缩机动态效率监测数据;⑦非结构信息。随时间序列刷新的动态数据与基础信息类维度信息数据、时间序列数据交互关联,形成多维度、多口径的数据统计。
图1 天然气管网主要运行数据图
根据数据采集频率可划分为日填报类数据和实时类数据。日报类数据主要针对管网运行中的日结算流量、存量等数据进行统计,最小数据颗粒一般为日(天)。实时类数据主要通过SCADA系统采集,并通过中间数据库(PI数据库)进行储存和分发。该类数据采集频率高,最小数据粒度可精确到秒级,适用于大数据样本量的算法训练。
1.2 天然气管网数据应用流程
从数据流转程序和信息传递角度归纳,天然气管网运行数据可划分为数据采集、分析处理、服务应用3个层级。多源异构数据采集主要来自于3个方面:①依托商务平台获取托运计划,再由运行计划部门形成运行方案,形成计划类数据,以流量数据为主;②通过管道生产管理系统采集由站场、地区公司填报,调控中心汇总的运行日报类数据,数据内容多样丰富;③通过SCADA对管网运行数据[2-3]、关键设备数据进行高频次采样获取实时数据,并传递至中间数据库(PI数据库)形成实时数据源。此外在线仿真系统、机组效率动态监测从中间数据库获取数据并进行应用计算,输出计算类实时数据。通过3个数据渠道共同采集形成天然气管网运行数据池(图2)。
图2 天然气管网运行数据应用流程图
分析处理层主要在两方面进行应用:①对多源异构数据进行结构化处理,根据维度信息梳理数据关系,进行字段关联形成关系型数据库;②对数据进行算法应用及模型训练,对异常数据滤波降噪、关联补偿。
服务应用层重点通过数据可视化呈现以及基于算法的智能应用。基于Echarts开源可视化组件,设计交互功能在简洁的图表画面上实现多维度、多层次的数据展示和信息挖掘,典型功能包括交叉筛选、上卷下钻等。
1.3 数据结构治理与非结构化信息应用
天然气管网运行数据管理方面存在的主要问题有:①数据项名称不规范,单位量程不统一;②字段间业务关联性弱,非结构化信息无法利用,数据独立难以形成交叉应用;③数据处理效率低,数据展示功能与数据处理功能界面不明确,依赖定制化的报表,灵活性差。
梳理多源异构数据池是数据治理的核心,需要围绕天然气管网的业务逻辑对数据进行归类[4-5],是基础维度信息对采集数据的组织规范、时间维度信息对数据的排列聚合。基础维度信息包括站场/阀室—管道—管网系统从属关系,分输用户—用户类型—所在地区—所属托运商等分类属性,管道里程、物理管容等属性数据,通过属性数据的关联扩充来满足不同口径的数据统计以及不同层次的数据分析需求;时间维度主要为时刻和周期,分别对数据进行时序排列及聚合汇总,对特定时间段的标记则能进一步适应天然气管网运行因供需关系变化产生的季节性、周期性分析需求。
天然气管网涉及的非结构化信息主要为文本记录类信息,如调整方案、记录日志、检修计划,以及总结类的经验知识等。由于文本内容专业性强、各独立文本内容差异大,现阶段还难以通过基于卷积神经网络的语义识别算法进行转化处理。为最大限度提取有效信息,对非结构化信息的利用重点在于信息生成阶段的结构化控制,根据业务梳理出信息结构框架限定文字内容及范围,以形成可筛查可归类的结构化文本信息以满足数据交互需求。
2 数据分析算法应用
2.1 异常数据动态修正
天然气管网运行数据逻辑关系强,在信息传递的每个环节都有多个维度的数据进行交叉验证,通过对数据的闭环控制实现了数据质量的有效提升。
实时数据质量控制采用了与日报数据对照补偿的方式进行动态修正。以用户分输流量为例,高频率采样的瞬时流量存在由通讯中断、信号波动等原因造成的异常值或数据缺失导致数据不稳定。根据正态分布3σ原则对大偏差数据进行识别消除,同时考虑瞬时流量的累计量与日报数据的日结算流量存在业务的对照关系,用两方数据进行比对修正,并反馈修正模型,在实践中有效提高了数据的稳定性。
针对日报数据中存在的错填、漏填问题,以及管存计算中可能存在的误差,调控中心根据管网平衡的业务逻辑建立了进出平衡—管存变化—输差回归的数据修正体系,结合同期对比、前期环比的对照验证,从3个维度对错误数据进行识别验证,在数据入库时对异常数据进行提示显示以帮助数据分析人员快速定位异常数据,有效提高数据可靠性。
2.2 短周期用户用气量预测
天然气管网直供用户的供气类型多样,数据特征复杂。特别是短周期用气量规律对多种复合因素敏感,相较于长周期用气规律计划性更弱,波动频繁,难以用人工经验或简单的线性回归方法进行预测。
递归神经网络是机器学习在工业大数据中有效的算法工具[6-11],对于时间序列的多因素关联数据分析有较精准的预测能力,将时序数据趋势表现作为分析对象来预测数据发展趋势。
通过全时段、高频率的数据采样,可以获得管网直供用户分输流量及压力的高密度数据。基于实时数据累计量与日结算数据的对照关系将实时数据进行修正补齐,实现全时段供气数据的准确监测,同时保证数据流的稳定性。在此基础上采用长短周期记忆循环神经网络(LSTM),将历史分输流量数据的特征参数作为网络输入,将下一时刻的实际分输流量作为网络输出进而对网络进行训练,形成未来一段时间的有效预测模型。在冬季保供实践中,对未来时刻的分输流量趋势、日累计量进行预测,在连续供气的城市燃气、调峰电厂用户短周期天然气消费量预测方面实现了有效应用,全管网分输流量预测精度超过95%。
2.3 压气站过流量数据软测量
与常规机理模型不同,数据驱动方法更关注数据在统计意义上的相关性[12-13]。与水力学模型相比,统计数据能充分体现压缩机实际运行中的特性表现如环境温度、机组本身特征、人工操作影响等,与对复杂因素简化的离散数值模型可作为互相补充,在长输管道运行分析中有一定的应用前景。
将压缩机运行参数与干线超声波流量计量数据组成数据集,使用支持向量回归技术(SVR)对数据集进行回归训练,再将模型应用在其他压气站场,进而对未安装流量计量设备的关键管段进行流量数据的软测量,解决了长期以来天然气干线管道流量计量问题,对关键运行数据进行补齐提高分析水平,同时控制计量设施安装成本,提高管网运行效益(图3)。
图3 压气站过流量软测量技术流程图
3 数据驱动应用案例
3.1 交互式数据可视化展示
在运行数据库结构明确、字段关联的基础上,通过Echarts开源数据可视化图表组件开发天然气管网运行数据应用平台,实现了复杂业务关系报表的可视化展示。通过简洁、友好的数据展板界面,直观了解管网运行数据。
该平台主要特点体现在3个方面:①根据字段汇总组织报表结构,通过下钻层层展开,同时利用条件格式对进度型数据、对比类数据进行标注,以更全面地展示信息;②丰富图表样式展现变化趋势、比例结构等信息,使用点击、拖拽、悬停等交互方法跳出提示工具展示图表中的详细数据信息,拓展展示维度;③根据天然气管网数据内容和地理位置分布特征,与地图、管网拓扑结构图进行交互,通过形状地图对数据进行形象体现。
天然气管网运行数据的交互式可视化展示是数据应用的直观成果,是实现报表自动化、数据可视化、分析智能化的前端平台。
3.2 管网平衡实时监测技术
进出平衡是天然气管网调控的抓手,天然气消费量是组织资源、调节管存的关键指标。特别是冬季运行期间,天然气消费量高企,供需紧平衡、管网高负荷运转,如何在短周期内对平衡和消费量准确预测、实时掌握动态数据是管网调控的关键问题之一。
通过SCADA采集并经过中间数据库(PI数据库)获取管网气源上载点进气流量、下载点分输流量,获得高频次采样数据集。在分析处理层通过与日结算流量数据对照修正,保证数据流的稳定性,通过上载流量、下载流量相减获得管网实时平衡数据流。此外应用LSTM算法对上载、下载气量变化趋势进行短周期预测,并依据每日8:00的日结算管存量作为基础值,与平衡量加和以实现实时管存的监测(图4)。在冬季运行实践中,该技术实现了对全管网平衡的分钟级监测、短周期预测、区域化细分控制,大幅提高了资源调配的效率。
图4 管网平衡实时监测技术图
3.3 管输经济效益指标跟踪
天然气管网运行方案编制及优化长期以来以能耗作为主要优化指标,天然气管网经营作为集团公司的核心业务,要提升经营意识、算好管网运行的“经济账”。在运行实践中,调控中心通过整合图论及最大流理论[14-15]对托运商输送路径进行描述及优化[16],对管网经济效益进行有效监测以指导管网运行(图5)。
图5 管输经济效益指标监测图
根据管输费计价规则以及各管道成员企业费率执行情况,调控中心应用运行数据对周转量及管输费进行计算。通过数据库管理技术及图论理论,开发了一套基于管网运行的经济效益分析工具开发管输费计算程序,对管网实际运行中的管输费及运行成本进行跟踪监测,同时指导方案编制,对管网运行经济效益指标的关键控制点充分掌握。
具体而言,根据实际商务托运过程组合应用现行的周转量计算、指定托运路由、固定费率三种管输费计算方法,应用生产日报数据对管网周转量、管输收益进行有效直观的测算,并对照实际结算费用迭代修正算法。该工具还实现了对单个托运商的托运过程产生费用进行监测分析,提供管输优化服务;监测运行成本,对比相同管输收费情况下不同运行方案的经济成本,探索潜在优化点,为市场开发、建设规划、商务调控决策提供数据支持。
3.4 托运商数据服务
通过对天然气管网运行数据的治理,将低价值密度的数据流转化成了高价值密度的数据资产。在天然气管网设施公平开放的大方向下,为托运商量身定制数据服务及解决方案将进一步挖掘数据价值、优化管网运行。目前数据应用的参与角色主要为:①数据产生者,即管网运行过程中的数据发生来源;②数据管理者,目前天然气管网运行数据的采集管理由调控中心承担;③数据应用者,数据资产的应用成果一方面支持天然气管网的运行决策,另一方面将为托运商提供增值数据服务。天然气托运商既是数据生产的参与方,也是数据价值利用的应用方,通过结构化的数据库对不同托运商进行数据的有序开放,打造“经营数据一张网”,将利用智慧互联管网,在信息公开方面形成公平开放平台、培养创新生态。
4 结论与展望
1)工业数据应用的建设工作需要全流程参与,在信息流转、数据应用过程中找到痛点再着手优化提升。
2)数据条目的复杂性、数据质量的稳定性以及业务需求的不断变化都制约了数据的实用可靠性,需要搭建好结构明确、字段关联、名称规范、高效可用的运行数据库,同时基于业务逻辑深度定制设计,把基础数据库做实做细。
3)关注数据驱动技术在天然气管网运行应用场景中的适用性,要与具体的业务需求紧密结合,基于业务逻辑及实际物理过程进行有效调整干预,避免因过拟合等问题使算法应用沦为数字游戏。
4)工业数据驱动技术有两个实现关键,一是将人工调控运行经验向数学模型及结构化信息的转化,二是将物理过程或工程问题向数据应用问题的转化。与其他数据应用场景不同,相比光、电及金融类、互联网类数据,天然气管网的流量、压力及其他模拟量的数据采集难度更大,数据物理意义更强。在大型复杂天然气管网运行中的数据驱动技术探索,将对工业大数据技术发展进步作出有益贡献。