文档库

最新最全的文档下载
当前位置:文档库 > 统计局大数据统计平台建设方案 智慧统计大数据云平台建设方案

统计局大数据统计平台建设方案 智慧统计大数据云平台建设方案

统计局大数据统计平台建设方案 智慧统计大数据云平台建设方案

统计局大数据统计平台

目录

第一章项目概述 (5)

1.1项目名称 (5)

1.2 建设单位 (5)

1.3 编制依据 (5)

1.4项目背景 (5)

1.5建设周期 (8)

1.6建设意义 (9)

第二章建设需求 (11)

2.1建设目标 (11)

2.2 项目建设需求分析 (11)

2.3平台性能需求分析 (15)

第三章应用支撑平台建设方案 (19)

3.1 建设原则 (19)

3.2 建设目标 (21)

3.3 平台架构 (21)

3.4 大数据平台功能 (23)

3.4.1数据交换系统 (23)

3.4.2数据质量管理 (29)

3.4.3基础模型搭建 (34)

3.4.4多维分析模型搭建 (35)

3.4.5定制报表功能 (36)

3.4.6自助取数平台 (38)

3.4.7系统管理功能 (39)

3.5数据库设计 (40)

3.5.1数据库设计目标 (41)

3.5.2数据库架构 (41)

3.6大数据处理设计 (43)

3.6.1并行处理设计 (43)

3.6.2数据算法提速 (47)

3.7大数据存储设计 (51)

3.7.1数据分级存储 (51)

3.7.2分布式数据库 (52)

3.8软硬件配置 (54)

3.8.1 选型原则 (54)

3.8.2 容量估算 (55)

3.8.3 投资估算 (61)

第四章应用系统建设方案 (68)

4.1 应用系统功能架构 (68)

4.1.2 ETL工具 (69)

4.2业务分析系统 (71)

4.2.1“三新”统计 (72)

4.2.2文化产业统计 (76)

4.3 宏观经济预测系统 (86)

4.4 应用系统配套工具 (91)

第五章系统安全设计方案 (93)

5.1 区块链的数据安全 (93)

5.1.1区块链描述 (93)

5.1.2区块链数据保障 (94)

5.2 互联网接入安全 (94)

5.3 集群系统安全 (95)

5.3.1主机安全 (95)

5.3.2操作系统安全 (96)

5.4 数据备份方案 (96)

5.4.1备份策略 (96)

5.4.2分布式系统备份 (97)

5.4.3负载均衡 (97)

第六章项目招标方案 (98)

6.1招标范围 (98)

6.2评审办法建议 (98)

6.2.1评审过程 (98)

6.2.2评审办法 (102)

第七章项目实施进度 (111)

7.1项目建设周期 (111)

7.2 实施进度计划 (111)

7.3进度保障 (112)

第八章项目组织机构和人员培训 (113)

8.1领导和管理机构 (113)

8.2项目实施机构 (113)

8.3人员培训方案 (115)

8.3.1概述 (115)

8.3.2培训目标 (115)

8.3.3培训方式 (116)

第九章项目风险与风险管理 (118)

9.1风险识别和分析 (118)

9.2风险对策和管理 (118)

9.2.1项目风险识别 (119)

9.2.2项目风险估测 (119)

9.2.3项目风险评价 (119)

9.2.3项目风险应付措施 (120)

第十章编制单位介绍 (121)

第一章项目概述

1.1项目名称

XX省统计局大数据统计平台

1.2 建设单位

项目建设单位:

XX省统计局

单位地址:

XX省XX市城关区广场南路13号,邮政编码:730031

1.3 编制依据

XX省统计局大数据统计平台建设方案编制的主要依据是:(1)《2015年政府信息公开工作要点》(国办发〔2015〕22号)(2)《促进大数据发展行动纲要》(国发〔2015〕50号)

(3)《国家电子政务工程建设项目管理暂行办法》(中华人民共和国国家发展和改革委员会第55号令)

1.4项目背景

随着我国经济进入新常态,当前各种经济社会矛盾交织在一起,经济增长下行,压力不断加大,如何准确把握经济社会形势

研判经济社会发展趋势并提出有针对性的政策建议,以及随着经济社会发展,各种新产业、新业态和新商业模式层出不穷,如何界定和测度新经济,这些都是摆在决策者面前的重要课题。

在当今的经济生活中,认识和判断经济形势及其未来走向,是政府、企业和个人进行决策的基础和前提。科学的统计制度方法和真实的统计数据是客观分析经济形势、准确把握经济走势的重要基础,经济形势的客观分析和经济走势的准确把握是科学决策的重要基础,科学决策是经济持续健康发展的重要保障。因此,统计是重要的基础性工作。

统计要想在经济分析、科学决策和保持经济持续健康发展中真正发挥重要作用,一方面要根据不断增长和变化的统计需求进行统计制度方法改革,提高统计制度方法的科学性和适应性,提高统计数据的准确性和及时性;另一方面要充分利用大数据分析技术对丰富的统计信息资料进行深度开发,让这些资源真正体现出应有的价值。

近年来,包括政府统计数据在内的大数据资源迅猛增长,已成为与自然资源、人力资源同样重要的国家基础性战略资源,成为促进经济增长和转型发展的新动力,成为提升政府治理能力的新途径。特别是进入信息化、互联网和大数据时代,大数据带来的一个重大改变就是信息扁平化,人人都是数据的生产者和使用者,对数据的加工、采集、汇总、综合、分析、预测,比任何时候都要迫切。发达国家大力推动大数据发展和应用,纷纷将研究

开发大数据上升为国家战略。党中央、国务院高度重视大数据的开发应用,大力倡导实施国家大数据战略,推进数据资源开放共享;运用大数据技术,提高经济运行信息及时性和准确性。这些都将有力推动我国大数据发展和应用。

统计局作为组织领导和协调统计工作的主管部门,具有统计制度和标准制定、统计数据搜集、加工整理、开发利用、发布等方面的法定职权和技术优势。长期以来,XX省统计局的基本业务开展仍遵循制度设计、调查采集、数据整理上报、数据发布与开发利用的顺序流程,在统计调查方面采用全面定期统计,抽样调查、普查,重点调查,典型调查等方法。近年来,统计工作信息化水平有较大提高,伴随着联网直报系统等信息化项目的应用推广,政府统计逐步实现了网络采集传输、集中存储处理、多工具分析。同时在长期的统计信息建设过程中统计部门积累了大量经济社会数据,政府相关部门也积累了海量经济社会数据。这些数据是价值连城的“宝藏”。但由于各种原因,统计部门自身只开发利用了一小部分,“宝藏”的大部分价值仍有待于进一步开发利用。

2013年全国统计工作会议和随后召开的国家统计局务虚会要求各级统计机构和广大统计人员都要树立大数据意识,结合本专业、本领域、本岗位工作实际,主动思考如何应用大数据。要加强顶层设计,做好统筹规划,找准突破口,集中力量做好系统攻关,加快研究利用搜索技术挖掘统计数据的方法,特别是各专业

要本着先易后难的原则,充分利用互联网上已有的公开信息,充实拓展本专业的资料获取渠道。加快研究将非标准化大数据转化为标准化统计数据的方法,积极开发自动导入企业电子化生产经营记录的软件,加快大数据的应用步伐。

从数据到大数据,不仅是量的积累,更是质的飞跃。海量的、不同来源、不同形式、包含不同信息的数据容易被整合、分析,原本孤立的数据变得互相联通。通过数据分析,能发现小数据时代很难发现的新知识,创造新的价值。XX省统计局大数据统计平台的使命就是通过加工整理、开发利用经济社会数据,为政府决策和社会治理提供科学依据,为促进经济社会发展服务。

1.5建设周期

XX省统计局大数据统计平台项目分两期进行建设:

第一期:将基于XX省统计局内部数据、其他部门数据和网络数据,主要服务于XX省统计局进行宏观经济预判、投资项目统计、“三新”统计和文化产业统计。第一期的建设预计招标时间大致需2个月,预计建设周期9个月,其中系统开发建设6个月,试运行3个月后正式上线运行。

第二期:将基于XX省所有政府部门、工商企业和公民个人的交易数据,建立覆盖XX省全社会、全行业,服务于XX省所有政府部门、工商企业和公民个人的大数据统计平台。力争在平台建成后,接入国家信息内外网,成为国家经济预测预警有力的数据

支撑平台。第二期建设需要调动XX省政府部门、工商企业和公民个人的所有数据资源,因此XX省统计局必须得到省委省政府的高度重视和支持,获得搜集和发布全省所有统计数据的授权。

1.6建设意义

目前XX省统计的主要功能为提供统计信息、为经济决策提供数据支持及监督,现有统计手段由于直报系统,解决了数据实时性和相对准确性等问题,但依然无法解决数据来源单一、重复调查现象严重、数据间相互验证性薄弱、数据孤岛、数据丰富程度不够、数据规范性不够等诸多问题,上述问题严重影响了数据质量, 使得统计数据的运用仅仅停留在领导决策宏观层面的初级判断,缺乏深入研究的数据基础,特别是基于微观数据基础的宏观经济问题分析研究;使得在发达国家本应作为经济决策预测预判依据的统计数据,在现阶段还不能高效精准的为我省宏观经济决策提供服务,不能产生使各方信服的数据结果。

为解决上述数据问题,打通各部门、各行业的数据壁垒,利用大数据时代无所不在的网络及其他数据佐证支持,使得统计局能够真正运用大数据实时挖掘技术,利用各种新兴统计算法对各行业、各部门数据进行深度挖掘,并实时对数据进行分析,使得这些数据形成有效数据结果,为经济决策者提供精准、客观、高质量的风险控制、科学管理和政策调控依据,从而使得决策者更科学的运用数据分析所得,准确判断经济发展趋势,并及时预判、

防范经济发展中可能出现的风险点,从而使得XX省各级政府,能够利用统计局提供的预测预警数据体系,进入到精细化、服务化、预见化管理阶段,为社会经济发展提供有力支撑。

该项目建设使得XX省统计局所统计数据能够成为有多方数据来源支持,多种算法佐证,互相能够印证的数据结果,且该数据结果能够由最终数据端,同步形成对经济决策判断有效结果,且能够实时展现到决策端,为决策者提供实时决策依据。项目建成后,XX省统计局能够依托该数据实时挖掘分析预警平台对数据的有效运用,在经济发展中真正运用所统计数据精准服务、深入参与到经济发展决策中去,成为XX及经济发展辐射区域内经济发展预测权威、全面数据的提供者,社会管理和运行行政记录信息标准规范的制定者和各项数据结果的权威发布者。

第二章建设需求

2.1建设目标

XX省统计局大数据统计平台的建设目标是:建成将互联网云计算技术、大数据挖掘技术、现代统计分析技术充分融合,集数据采集、加工处理、分类计算、分析预警、报告展示、管理服务等功能为一体,实现统计系统内部业务优化整合、行业数据管理网络有效融通、统计数据资源全面开放共享、充分满足社会各界数据需求,系统操作使用简便快捷高效、运行管理安全,可靠的权威性、动态性综合信息管理系统。

XX大数据统计平台的性能要求包括:

?更高可靠性、稳定性的“可管可控”集群;

?更完整地实现与现有统计数据架构融合;

?强大的内存分布式计算能力;

?更高性能、更灵活的各类数据采集支持;

?实现更快速、更灵活的业务开发、扩展;

?为未来提供更好的扩展、扩容支持。

2.2 项目建设需求分析

XX省统计局大数据统计平台的最终建设目标是在省委省政府

的统一领导下,由XX省统计局牵头负责,利用统计局自身拥有的数据资源,力争打破数据孤岛,谋划工商、税务、金融、保险、交通运输、海关、财政、教育、医疗等各个行业数据资源的整合机制,加大对政府公开数据(含政府机构或准政府机构公共公开数据)、商业数据、互联网数据、通讯数据、物联网数据、金融数据等数据的整合力度,实现各部门、各行业、各区块数据资源的交互共享,并推动全省数据资源的整合,实现数据的共享和交互使用,满足XX省社会各界的主要数据需求,建成基于全省大数据统计系统的经济预警平台。

根据XX省统计局当前的实际情况,该项目的建设拟分两期进行,本期建设主要基于XX省统计局的现有数据、其他部门的开放数据和互联网数据,建设成服务于XX省统计局常规统计工作,具有宏观经济预判功能、三新统计功能和服务业统计功能的大数据统计平台。

目前XX省统计业务依托于企业联网直报平台进行相关的业务统计,统计业务数据相对孤立、数据价值难于体现,各部门统计数据之间矛盾日益突出。现大数据高速发展,各项技术手段日渐成熟,期望依托大数据技术,探索出统计体系科学有效的数据收集、挖掘、处理平台,打通各部门之间的屏障,建立统一的标准规范体系、拓展数据获取渠道、整合各行业数据,实现数据之前相互验证,建立统计业务分类体系、通过数据建模手段实现各项指标经济预测。

本期期望建设一套系统支撑平台及四套业务应用软件,具体需求如下:

2.2.1 系统支撑平台建设

建设一套先进、安全、可靠的大数据系统支撑平台,集成软硬件资源为业务应用系统的开发、整合、持续扩展和运行等提供基础性的共性服务。系统支撑平台提供构件级的框架服务,提供数据治理整合服务、并行计算框架、数据挖掘服务、数据安全及监控等基础支撑的平台。

2.2.2 业务分析系统

根据实际业务建设业务分析系统,从而完成各种类型的业务统计。业务分析系统主要包括“三新”统计模块和文化产业统计模块等建设。

(1)“三新”统计

依据现有的统计制度,设置合理的统计指标,实现新产业、新业态、新商业模式专项统计。建设安全的数据采集模块,实现与省发展改革委、省交通运输厅、土地管理局、税务局等相关部门的数据实时对接;建设分类标准体系模块,实现按照国家统计局《新产业、新业态、新商业模式专项统计报表制度》的指标、分组确定指标体系,确定统计口径及数据分类;建设“三新”统计数据挖掘模块,实现电子商务、旅游经济、物流配送、城市商业综合体等领域数据与相关的运营商、不同电商之间的数据交叉挖掘体系,分析“三新”经济的增幅、占比、结构、行业集中度、

变化趋势等,分析判断经济的整体走势。

(2)文化产业统计

依据现有的统计制度,设置合理的统计指标,实现文化产业专项统计,建设安全的数据采集模块,实现与省发展改革委、省交通运输厅、土地管理局、税务局等相关部门的数据实时对接;建设建立统计、宣传联合指标体系模块,实现文化产业数据按照联合国教科文组织的《文化统计框架—2009》的分类标准、对文化产品的生产、文化相关产品的生产、文化生产活动等指标进行数据统计,资源共享;建设文化产业统计数据挖掘模块,实现对历史数据的统计及数据建模,分析文化产业的增幅、占比、结构、行业集中度、变化趋势等,分析判断全省经济的整体走势。

2.2.3宏观经济预测系统

依据现有的统计制度,设置合理的统计指标及经济模型,实现宏观经济预测,建设安全的数据采集模块,依托省发展改革委、省交通运输厅、土地管理局、税务局等相关部门及其他安全来源的数据实时对接处理;建设经济预测模型,根据当前的经济运行状态数据、经济统计指标体系及历史数据,构建模型方程,确定模型所包含的变量、建立经济变量之间的关系,确定模型的数学形式、拟定模型中参数的符号和大小的理论期望值,用以评价模型的估计结果;引入“三新”统计模块、文化产业模块分析结果,并考虑预判期间各种政策因素及突发事件对经济形势的影响,参照《XX统计月报》指标体系,提取部分关注度高及预判相对准

确的指标,对宏观经济走势及发展方向进行预判。

2.2.4 应用系统配套工具

(1)分类挖掘与计算机系统

依据业务统计制度,设置合理的统计指标,实现数据的分类、汇总、计算为一体的数据分析系统。

(2)数据展现系统

依据各种统计指标计算,建设统计报表编制和统计图形制作、输出、上报为一体的数据输出系统。实现数据查询功能、基本统计指标的计算功能、图形展示功能、与office的集成及导出功能。灵活设置查询条件,快速查找符合条件的记录;满足对查询结果进行排序、分组求和等操作;实现数据计算有关指标的最小值、最大值、平均数、分位数、方差和标准差等计算功能;实现数据发展趋势、各项目占比、指标间的相关关系、时间和空间分布等信息图形化展示功能;满足导出到office办公软件里进行编辑。支持常见格式(doc、xls、cvs、html、xml、txt等)的导出,具有离线浏览交互式数据报表功能。

2.3平台性能需求分析

2.3.1 一般性需求

大数据平台应该满足下述性能要求:

(1)可靠性。系统建设采用主流产品,以保证系统的高质量

和稳定性;对系统如硬件、操作系统、网络、数据库应设计尽可能详尽的故障处理方案,使系统在出现故障(硬件、软件、网络)时,能够快速恢复应用系统及其相应的数据。

(2)安全性。充分考虑应用层的安全性,做好信息资源的访问控制;应用系统应能够提供用户权限配置及用户操作审计控制。

(3)扩充性。系统采用分层结构设计,网络基础设施层、应用支撑层和应用层结构易于扩充。

(4)易维护性。充分考虑系统软硬件及网络运行的实际情况,在系统总体设计上注意系统的可维护性;采用易于维护的系统平台;应用软件安装应简单、易于操作。系统数据维护方便,备份及数据恢复快速简单;系统软件配置体现自动化,避免复杂的系统配置文件。

(5)可操作性。界面友好,充分考虑操作人员的特点,使数据处理工作简单、方便、快捷。

2.3.2 业务系统性能需求

业务系统性能主要是指作业响应时间方面的要求,作业响应时间是指完成目标系统中的交互或批量处理所需要的响应时间。

根据业务处理类型的不同,把作业划分为查询类业务和统计分析类业务,分别给出响应时间要求的参考值,包括峰值响应时间和平均响应时间。

(1)查询类业务

如信息查询、统计报表生成或决策支持的信息查询等。查询业务由于受到查询的复杂程度、查询的数据量大小等因素的影响,需要根据具体情况而定,在此给出三个参考范围。

简单查询平均响应时间:不超过10秒;

复杂查询平均响应时间:不超过100秒;

极限数据查询时间:最大样本量时数据查询时间不超过3分钟;

(2)统计分析类业务

一般统计时间:不超过30秒;

一般分析时间:不超过30秒;

2.3.3 数据检索性能需求

根据数据检索方式不同,把作业划分为区块链元数检索、检索引擎检索和流式检索等要求,分别给出响应时间要求的参考值,包括峰值响应时间和平均响应时间。

(1)区块链元数据检索

数据检索并发:每秒600条记录;

单条记录查询时间:不超过10秒;

(2)引擎检索

要求支持OLTP/OLAP双引擎,并且OLTP引擎支持十万级/秒的事务处理速度;

(3)流式检索:

要求支持流要就流式计算性能达到30万条/秒,并且支持高效Sql查询。