文档库 最新最全的文档下载
当前位置:文档库 › 基于Hadoop平台的海量数据高效抽取方法及应用

基于Hadoop平台的海量数据高效抽取方法及应用

基于Hadoop平台的海量数据高效抽取方法及应用
基于Hadoop平台的海量数据高效抽取方法及应用

基于Hadoop平台的海量数据高效抽取方法及应用

徐金玲1,金璐1,李昆明2,熊政2,仲春林2,方超2 (1.江苏省南京供电公司,江苏南京,210008;2.江苏方天电力技术有限公司,江苏南京,211102)

【摘要】摘要:本文从数据抽取过程的本质出发,论述了传统数据抽取过程与大数据平台数据抽取过程的异同,以基于Hadoop的大数据平台为例,结合传统的关系型数据库和非关系型数据库(NoSQL)的特点,提出了一种从关系型数据库到大数据平台的高效数据抽取方法,实现了对数据源系统资源占用的最小化,并在电力公司用电大数据抽取中得到广泛应用。

【期刊名称】电子测试

【年(卷),期】2015(000)001

【总页数】3

【关键词】海量数据;数据抽取;NoSQL;大数据平台

0 引言

对于大数据的抽取,一般通过使用Sqoop来实现。但是Sqoop组件自身的局限性导致其对于特定的场景并不适用(例如,进行TB级大数据量数据抽取时效率较低,进行增量数据抽取需改变源数据库表结构,对源数据库性能也有较大影响)。因此,本文提出了基于大数据平台的一种海量数据抽取的高效方法,该方法可以快速、高效、可靠地将海量数据从关系型数据库抽取到大数据平台中。同时,由于通过对数据源日志文件的分析实现对增量数据的抽取,因此该方法在抽取数据时对源数据库的影响非常小。

1 系统开发环境

相关文档