1 研究现状
1.1 大数据分析技术研究现状
如今是一个信息爆炸的时代,各种行业都会产生巨大的数据量,人们需要对这些数据进行深入的分析,并且探寻数据中的规律。然而,利用传统分析数据的方法来处理这些规模庞大的数据显然是非常困难的,数据呈现出一种数量多、类型多、分析复杂的趋势,这是我们面临的巨大挑战,因此,大数据分析技术应运而生。早在2004年谷歌公司就提出了一种能够作为数据处理和大数据分析的并行计算模型的技术,提高了大数据处理的扩展性和可靠性。目前的大数据处理技术主要有内存计算技术、分布式计算技术以及流式处理技术,分别适用于不同的领域:内存计算技术能高效读取数据并实时处理问题;分布式计算技术能解决大规模数据的存储和处理;流式处理技术能解决实时的、连续的以及不受控制的数据流。
1.2 变电设备状态监测大数据分析研究现状
一个智能变电站的状态监测系统是否优良就在于其是否能够快速有效的存储、查询和分析大规模的状态检测数据。传统的数据分析技术只依赖于几台设备,如要满足如今大数据的处理需求,就会对设备进行纵向扩展。这样的改造不仅需要耗费大量的成本,而且在数量巨大的异构数据前发挥不出应有的优势,这是因为目前的智能变电站状态监测大数据分析方法存在以下问题:首先是大数据的集成和处理。目前各种变电设备的数据不断增多,检测技术也在不断的更新和普及,因此智能变电站状态检测的数据在不断的增加。仅对一个普通省电力公司一年产生的数据量进行估算,就有700多TB的数据量。况且智能变电设备状态检测的数据不仅包括当前采集的数据,还包括许多之前的数据,这样一来,对数据进行采集计算或是存储分析都遇到了巨大的麻烦。同时,目前的智能变电站缩短了状态接入控制器和传感器的采集频率,对状态检测数据进行更加精细的分类。因此,必须运用一种全新的方便快捷的方法对状态检测数据进行集成和处理。其次是数据的不稳定性。传统的数据库是先有一个固定的模式,接着产生相应的数据。但在目前的电力大数据时代中很难再套用传统的模式,因为智能变电站的状态检测数据具有不确定性,只有出现了大量数据之后才能确定对应的模式。此外,这个模式也不是一成不变的,随着数据量的增多,模式也会相应的发生变化。最后是分析需求的深度性。对于状态数据不能只满足于现阶段的检测和分析,而应该根据数据对未来的趋势进行更加深入的预测和分析。应转变自身的观念,从常规分析转化到深度分析,为电网经济安全的运行以及用户的需求考虑。
2 变电设备状态监测大数据分析平台的设计
2.1 传统变电设备状态监测平台架构
目前大多数电力公司的设备状态检测数据中心主要包括四部分,分别是数据获取层、数据存储和管理以及数据访问层。建立状态检测数据平台的基础就是进行数据获取,把那些传统关系型数据库中的历史数据源和变电系统设备状态监测的数据经过抽取、转化、清洗以及装载这四步处理后存储在数据仓库中。首先进行数据抽取,抽取的方法是选取多个不同状态的检测系统,根据主题从里面抽取一些历史数据和实时的监测数据并进行组织。这些数据关系到智能变电站的一些决策分析,每个公司都需要每天更新TB级别甚至高于TB级别的状态检测数据,根据抽取的频率进行数据抽取,在过程中要减少对源系统的修改;其次是数据的转化,这一步可以解决设备监测的状态数据不一致的问题。把从不同设备中抽取的数据进行合并或是转化类型,使所有数据的类型和格式都保持一致。接着是数据的清洗。这一步主要是去除一些无意义的数据的同时抽取下一步可能会用到的数据。把那些不适用的字段过滤掉,这样既可节省存储空间,又节省了以后扫描的成本。最后是数据的装载。上一步去除了一些脏数据,数据装载就是按照数据模型的类型把去除的数据载入相应的数据仓库中。此外,数据装载还能够恢复数据、备份数据以及提供错误报告。构建变电站设备状态监测数据中心的重要环节就是数据存储和分析层,它是通过经典的模型来组织数据,例如星型模型和雪花型模型,再使用OLAP工具读取数据库中的数据,最后通过ROLAP技术来访问数据仓库或是使用MOLAP技术生成数据立方体。ROLAP数据模型大多采用星型模型和雪花型模型,其优点是存储的基础是关系型数据库,而如今的关系型数据库技术发展较为成熟,因此有利于提升效率。然而智能变电站设备状态检测数据的数量级在不断增长,如果仍然只有现有的功能,不能满足当今电力企业的发展。MOLAP技术采用的是多维数据模型,其优点是数据立方体是多维矩阵,存储的是状态检测的维信息,通过索引可以知道监测数据在数据立方体中的详细位置。这样一来,大大提高了OLAP的响应速度。但MOLAP技术也存在着集中存储多维数据模型从而占用大量空间导致存储代价大的缺点。数据访问层包含查询统计和用户接口等一些功能,方便用户提交访问申请和管理数据。这些功能的实施需要数据存储和分析层的支持。各公司间的系统和资源存在差别,因此构建数据平台有一定的难度。传统的状态数据监测平台无法做到存储数据优化和并行处理,而大数据分析技术有效地整合了大规模的数据,提高了数据利用率,实现了信息共享。
2.2 大数据分析技术下变电设备状态监测平台的设计
传统的方法虽然井井有条,但是会导致系统的扩展性变差,同时成本较高,不能达到预测趋势的目的。在大数据分析技术下,应适当的运用一些工具构建一种全新的检测平台。针对大数据变电分析技术和变电设备状态监测大数据分析的研究现状,我们提出一个解决方案。在数据采集层,通过状态接入控制器、传感器等一些设备来采集变电设备数据,用Web服务的方式传送给状态接入网关机。针对设备数据量数量大的特点,应把传统型的关系数据库移到非关系型数据库中;针对数据类型复杂,可利用开源工具对数据进行抽取、转化和装载,等数据进行关联和聚合后再进行存储。在完成查询、计算和统计的分析任务之后,Sqoop可以把分析出的结果导到外部的数据库中以供用户查看。在数据存储层,可根据分布式文件系统HDFS和关系型数据库MySQL的优势对它们进行整合,使它们在各自擅长的领域发挥优势作用。把那些具有统一规范的状态检测数据存储在分布式文件系统HDFS中,把那些变电设备状态检测的各个模型信息和管理Hive的元数据(例如Hive创建的表、字段和间隔符)存储在MySQL中。在数据分析层,可根据检测数据的映射不同,选择不同的数据分析方案对变电设备状态检测数据进行OLAP分析。在数据展现层加入更多的功能组件,如统计查询、数据挖掘以及辅助决策等,为变电设备生产管理和辅助决策提供较为准确的信息,也为各种变电设备提供信息预警、分析、诊断、评估和预测功能。