仓储
1、()是利用仓库存放、储存和管理未及时使用的货物的行为。(6分)
A.配送
B.运输
C.包装
D.仓储正确答案:D
2、当产品不能被及时消耗掉,需要专门场所存放时,产生了()的仓储。(6分)
A.高效
B.低成本
C.静态
D.动态正确答案:C
3、()主要包括生产企业仓储和流通企业仓储。(6分)
A.自营仓储
B.营业仓储
C.公共仓储
D.战略储备仓储正确答案:A
4、()是仓储经营人以其拥有的仓储设施,向社会提供仓储服务。(6分)
A.自营仓储
B.营业仓储
C.公共仓储
D.战略储备仓储正确答案:B
5、与自用仓库相比,营业仓储的使用效率()。(6分)
A.相同
B.较高
C.较低
D.无法比较正确答案:B
6、()是以保管物原样保持不变的方式所进行的仓储。(6分)
A.专用仓储
B.特殊物品仓储
C.消费式仓储
D.保管式仓储正确答案:D
7、()是指对仓库及其库存物品的管理。(6分)
A.仓储系统
B.配送管理
C.运输管理
D.仓储管理正确答案:D
8、仓储环节的首要作用就在于物品的()。(6分)
A.质量
B.增值
C.贬值
D.保值正确答案: D
9、仓储管理基本任务就是从()出发,搞好物品的入库、保管、保养和出库供应。(6分)
A.利润最大化
B.客户需求
C.低成本
D.高效率正确答案: B
10、仓储企业在进入或者引起竞争时期的服务定位策略是()。(6分)
A.用一定的成本实现较高的仓储服务
B.服务水平不变,尽力降低成本
C.高服务低价格且不惜增加仓储成本
D.大幅降低成本,但也随之降低服务水平正确答案:C
11、按仓储经营主体划分,仓储可分为()。(8分)
A.自营仓储
B.营业仓储
C.公共仓储
D.战略储备仓储正确答案:ABCD
12、按照仓储的保管条件分类,仓储可分为()。(8分)
A.普通物品仓储
B.专用仓储
C.特殊物品仓储
D.公共仓储正确答案:ABC
13、按照仓储物的处理方式分类,仓储可分为()。(8分)
A.普通物品仓储
B.专用仓储
C.保管式仓储
D.消费式仓储正确答案:CD
14、仓储管理的作用包括()。(8分)
A.利润最大化
B.物品的保值
C.降低仓储成本
D.仓储的增值正确答案:BCD
15、仓储管理的基本原则包括()。(8分)
B.经济效益的原则
C.服务的原则
D.最低成本的原则正确答案:ABC
16、为使物品出入库方便,容易在仓库内移动,基本条件是将物品()。(6分)
A.依据先进先出的原则
B.面向通道保管
C.同一品种在同一地方保管
D.根据出库频率选定位置正确答案:B
17、有效利用库内容积,应尽量()。(6分)
A.向低处码放
B.向高处码放
C.向出库口码放
D.向入库口码放正确答案:B
18、出货和进货频率高的物品,应放在(),易于作业的地方。(6分)
A.货架上
B.随机选定位置存储
C.靠近出入口
D.距离出入口稍远的地方正确答案:C
19、为提高作业效率和保管效率,同一物品或类似物品应放在()保管。(6分)
A.同一地方
B.不同地方
C.作业设备相同的地方
D.作业设备不同的地方正确答案:A
20、安排放置场所时,重的物品放在货架的()。(6分)
A.上方
B.下方
C.左方
D.右方正确答案:A
21、依据物品形状来保管也是很重要的,如标准化的物品应放在()来保管。(6分)
A.露天堆场
B.任意储区
C.地面上
D.托盘或货架上正确答案:D
22、保管的一条重要原则是对于易变质、易破损、易腐败的物品及机能易退化、老化的物品应尽可能按()的原则保管。(6分)
A.先进先出
B.先进后出
D.后进后出正确答案:A
23、()是物流的节点,是企业存货管理的核心环节。(6分)
A.仓储
B.装卸搬运
C.包装
D.运输正确答案:A
24、仓储()是指由计算机管理控制仓库的仓储。(6分)
A.机械化
B.现代化
C.自动化
D.标准化正确答案:C
25、()包括仓储的管理体制、治理结构、管理组织、管理方法和管理目标几个方面。(6分)
A.仓储信息系统
B.仓储管理
C.仓库
D.仓储服务企业正确答案:B
26、下列表述中属于仓储的保管原则的有()。(8分)
A.面向通道
B.先进先出
C.根据出库频率选定位置
D.向高处码放正确答案:ABCD
27、仓储管理的发展趋势有()。(8分)
A.仓储信息化、网络化,管理科学化
B.搬运工作机械化、自动化
C.仓储业务集中化、标准化
D.物料堆置高空化正确答案:ABCD
28、仓储管理包括仓储的()几个方面。(8分)
A.管理体制
B.治理结构
C.管理组织
D.管理方法和管理目标正确答案:ABCD
29、仓储管理人员职业道德的基本要求有()。(8分)
A.忠于职守,诚信待人
B.团结协作,顾全大局
C.爱岗敬业,遵纪守法
D.勇于开拓,善于创新正确答案:ABCD
30、仓储管理人员的工作内容主要包括()。(8分)
A.仓储设备
B.仓储安全
C.仓储作业
D.仓储单据正确答案:ABC
31、()是指一个仓库的各个组成部分,在规定的范围内进行平面和立体的全面合理的安排。(6分)
A.仓库设备
B.仓库总平面布局
C.仓储管理
D.仓储规划正确答案:B
32、()对保证仓库生产的顺利进行,实行科学管理和文明生产,提高经济效益等都有重要的意义。(6分)
A.仓库安全
B.仓储人员管理
C.仓库设备管理
D.仓库总平面布局的合理与否正确答案:D
33、不同类型的()对平面布局有不同的要求。(6分)
A.仓库
B.叉车
C.托盘
D.货架正确答案:A
34、下列描述中,不属于影响仓库总平面布局因素的是()。(6分)
A.作业手段
B.作业流程
C.仓库类型
D.政治环境正确答案:D
35、下列描述中,不属于仓库作业优化的是()。(6分)
A.提高作业的连续性,实现一次性作业
B.减少装卸次数,缩短不必要距离
C.使仓库完成单位配送任务所发生的装卸与搬运量最少
D.提高仓库保管成本正确答案:D
36、()包括防火、防爆、防洪和防盗等。(6分)
A.仓储规划
B.仓储管理
C.仓库安全
D.仓库作业优化正确答案:C
37、仓库布局中的(),如专用线与道路、供电、供水、排水、供暖和通信等线路的布置,直接影响投资和运行费用。(6分)
A.公共性设施
B.延伸性设施
C.基础型设施
D.专项设施正确答案:B
38、布局应在确保仓库安全、材质完善、作业优化的前提下,使布局尽量(),以便节约用地,留有一定的备用地。(6分)
A.紧凑
B.开阔
C.横向化
D.立体化正确答案:A
39、()与立体布局要协调设计,综合考虑,使库区总体布局整齐美观。(6分)
A.平面布局
B.整体布局
C.纵向布局
D.横向布局正确答案:A
40、()是仓库的主体部分,是商品储运活动的场所,主要包括储货区、铁路专用线、道路、装卸站台等。(6分)
A.入库作业区
B.辅助生产区
C.行政生活区
D.生产作业区正确答案:D
41、仓库总平面的合理与否,在很大程度上会影响到()。(8分)
A.仓库的作业效率
B.储运质量
C.储运成本
D.盈利水平正确答案:ABCD
42、仓库总平面布局涉及一个仓库的各个组成部分,例如()。(8分)
A.库房
B.辅助建筑物
C.库内道路
D.货棚正确答案:ABCD
43、仓库总平面布局会受到()等主要因素的影响。(8分)
A.周围环境
B.物品构成
C.仓库类型和作业方式
D.技术作业流程正确答案:ABCD
44、下列描述中属于仓库平面布局的基本原则的有()。(8分)
A.有利于物品的储存保管
B.有利于实现作业的优化
C.有利于仓库安全
D.有利于节省投资正确答案:ABCD
45、一个仓库通常由()部分组成。(8分)
A.作业区
B.辅助生产区
C.行政生活区
D.货棚正确答案:ABC
46、对预备存储商品位置的确定,正确的表述方式是()。(6分)
A.角落
B.某商品旁
C.楼上
D.TA0010001 正确答案: D
47、依据商品保管方式的不同,应该为每种商品确定合适的储存单位、储存策略、分配规则,以及其它储存商品要考虑的因素,下列描述中错误的是()。(6分)
A.冷藏的商品就该放冷藏库
B.茶叶可以和洗浴用品放在一起
C.流通速度快的商品就该放置在靠近出口处
D.香皂就不应该和食品放在一起正确答案: B
48、当商品被有效地配置在规划好的储位上之后,接下来的工作就是()。(6分)
A.商品条码的维护
B.盘点
C.储位的维护
D.移库正确答案:C
49、侧重商品保管功能为主的仓库,主要考虑保管空间的()。(6分)
A.储位分配
B.库区划分
C.商品条码管理
D.通风和防潮正确答案:A
50、易污损物品需与其他物品()。(6分)
A.隔离
B.临近储存
C.存储在同一货架不同储位
D.可用同种作业方法正确答案:A
51、()是将库房、货场、货棚、货垛、货架及物品的存放具体位置按顺序统一编列号码,并作出明显标志。(6分)
A.商品条码
B.仓库编号
C.货架编号
D.储位编码正确答案:D
52、()是将物品按其分类内容,加以有次序的编排,用简明的文字、符号或数字,以代替物品的“名称”、“类别”及其他有关资料的一种方式。(6分)
A.货架编码
B.物品编码
C.储位编码
D.仓库编码正确答案:B
53、储存物品编码的伸缩性原则是指()。(6分)
A.使每一个编号代表一种货品
B.号码位数要统一且有一贯性
C.为未来货品的扩展及产品规格的增加预留号码编列
D.能适应事务性机器或计算机处理正确答案:C
54、流水编码方法的缺点是代码本身()给出任何有关商品的其他信息。(6分)
A.不会
B.会
C.有时会
D.完全能够正确答案:A
55、用数字与文字的组合来编号,编号本身暗示货物的内容,()的优点是容易记忆。(6分)
A.数字分段法
B.流水编码方法
C.暗示编号法
D.混合编号法正确答案:C
56、储位管理的基本原则包括()。(8分)
A.明确指示储存位置
B.有效定位物品
C.确定登录变动
D.确定物品价格正确答案:ABC
57、储位规划的基本要素主要包括()。(8分)
A.储存空间的管理
B.仓库安全的管理
D.人员的管理正确答案:ACD
58、下列对物品分区分类储存方法的描述中正确的有()。(8分)
A.按物品的种类和性质分区分类储存
B.按物品的危险性质分区分类储存
C.按物品的发运地分区分类储存
D.按仓库的条件及物品的特性分区分类储存正确答案:ABCD
59、对多层库的编号排列,可采用()方法。(8分)
A.“一号定位”
B.“二号定位”
C.“三号定位”
D.“四号定位”正确答案:BD
60、下列对储位编码的标志设置的描述正确的有()。(8分)
A.仓库标志可在库门外挂牌
B.库房标志可写在库门上
C.货物货位标志可竖立标牌
D.泥土地坪的简易货棚内的货位标志可利用柱、墙、顶、梁刷置或悬挂标牌
正确答案:ABCD
61、仓库是()活动的基本设施。(6分)
A.物流运输
B.仓储管理
C.流通加工
D.物品配送正确答案: B
62、主要用于储存从采购供应商库场调进或在当地收购的商品,既从事批发供货,也从事拆零供货的仓库是()。(6分)
A.批发仓库
B.零售仓库
C.储备仓库
D.中转仓库正确答案:A
63、处于货物运输系统的中间环节,存放那些等待转运的货物,一般货物在此仅做临时停放的仓库是()。(6分)
A.批发仓库
B.零售仓库
C.储备仓库
D.中转仓库正确答案:D
64、仓库按技术处理方式及保管方式分类,可分为普通仓库、冷藏仓库、恒温仓库和()。(6分)
B.危险品仓库
C.食品仓库
D.流通型仓库正确答案: B
65、()是最常见的,也是使用最为广泛的一种仓库建筑类型。(6分)
A.单层仓库
B.多层仓库
C.立体仓库
D.简仓正确答案: A
66、粮食、水泥、化肥等散装颗粒状或粉末状的货物使用封闭式的()仓库。(6分)
A.单层仓库
B.多层仓库
C.立体仓库
D.简仓正确答案:D
67、钢筋混凝土仓库、钢质仓库、砖石仓库等等是按照()的不同分类的。(6分)
A.建筑材料的不同
B.场库的构造
C.保管货物的特性
D.仓库的用途正确答案:A
68、具有储存、发货、配送和流通加工功能的仓库为()。(6分)
A.配送中心型仓库
B.存储中心型仓库
C.物流中心型仓库
D.流通中心型仓库正确答案:C
69、从物流角度,有人又将()称为第一方或第二方物流仓库。(6分)
A.公用仓库
B.自用仓库
C.钢质仓库
D.立体仓库正确答案:B
70、()是一种专业从事仓储经营管理的,面向社会的,独立于其他企业的仓库。(6分)
A.自用仓库
B.储备仓库
C.公用仓库
D.零售仓库正确答案:C
71、仓库按用途来分类,可以分为()。(8分)
A.采购供应仓库、批发仓库
B.零售仓库、储备仓库
C.中转仓库、加工仓库
D.保税仓库、原材料仓库正确答案:ABC
72、仓库按照仓库的构造分类,可以分为()、简仓和露天堆场。(8分)
A.单层仓库
B.多层仓库
C.立体仓库
D.水面仓库正确答案:ABC
73、下列属于特种仓库的是()。(8分)
A.恒温恒湿库
B.金属材料仓库
C.危险品库
D.冷藏库正确答案:ACD
74、仓库按其所处位置分类,可以分为()。(8分)
A.码头仓库
B.车站仓库
C.中转仓库
D.机场仓库正确答案:ABD
75、仓库按保管目的分类,可以分为()。(8分)
A.配送中心型仓库
B.流通中心型仓库
C.存储中心型仓库
D.物流中心型仓库正确答案:ABCD
76、平衡重式叉车主要用于()。(6分)
A.仓库作业
B.厂房作业
C.道路作业
D.露天货场作业正确答案:D
77、下列哪种叉车不但有环保的功效,还能有效提高仓库的利用面积()。(6分)
A.前移式叉车
B.插腿式叉车
C.平衡重式叉车;
D.侧面叉车正确答案:A
78、桥式起重机和门式起重机的区别在于()。(6分)
A.主梁部分
B.桥架部分
C.底梁部分;
D.支撑部分正确答案:B
79、()是桥架在高架轨道上运行的一种桥架型起重机,又称天车。(6分)
A.门式起重机
B.桥式起重机
C.前移式叉车;
D.插腿式叉车正确答案:B
80、()作用是根据控制装置发出的分拣指示,当具有相同分拣信号的物品经过该装置时,该装置自动改变物品运行方向。(6分)
A.控制装置
B.分类装置
C.输送装置;
D.分拣道口正确答案:B
81、识别、接收和处理分拣信号,根据分拣信号的要求指示分类装置的是()。(6分)
A.控制装置
B.分类装置
C.输送装置;
D.分拣道口正确答案:A
82、国际通用的,优先推荐的托盘规格为()。(6分)
A.1100mm*1100mm
B.800mm*1000mm
C.1000mm*1200mm
D.800mm*1200mm 正确答案:C
83、托盘式货架的主要特点是()。(6分)
A.货架结构简单,可调整组合,安装简易,费用经济
B.有效增加空间利用率,通常上层存放轻量物品
C.开放式货架,不便于机械化作业,需配合跨距较宽的设备
D.货架密集相接排列,存取物品时通过手动或电力驱动装置移动正确答案:A
84、下列()货架存取货时受先后顺序的限制。(6分)
A.阁楼式货架
B.移动式货架
C.悬臂式货架
D.驶入式货架正确答案: D
85、航空托盘、轮胎托盘等属于()。(6分)
A.平板托盘
B.滑片托盘
C.轮式托盘
D.特种专用托盘正确答案:D
86、关于货架的概念,下列说法正确的是()。(8分)
A.货架就是存放货物的架子
B.货架是指用支架、隔板或托盘组成的立体储存货物的设施
C.货架是由具有一定强度的材料,按一定要求建成的存放货物的几何建筑体
D.货架是对物品的储存和堆码起重要支撑作用的架子正确答案:ABCD
87、按结构分类,常见托盘有()。(8分)
A.平板托盘
B.复合托盘
C.箱形托盘
D.柱形托盘正确答案:ACD
88、叉车按所用动力分类为()。(8分)
A.内燃机式叉车
B.蓄电池式叉车
C.平衡重力式叉车
D.插腿式叉车正确答案:AB
89、起重机的类型包括()。(8分)
A.桥式起重机
B.门式起重机
C.大型起重机
D.小型起重机正确答案:AB
90、在自动分拣设备中,控制装置的作用是()。(8分)
A.识别分拣信号
B.处理分拣信号
C.接收分拣信号
D.储存分拣信号正确答案:ABC
91、()是生产的终点,又是物流的始点。(6分)
A.搬运
B.运输
C.包装
D.仓储正确答案: C
92、包装能够起到诱导和激发消费者的购买欲望的作用称为()。(6分)
A.保护功能;
B.便利功能;
C.促销功能;
D.加工功能。正确答案:C
93、包装一般可分为运输包装和()。(6分)
B.危险品包装
C.商业包装
D.美化包装正确答案:C
94、工业包装是从物流需要出发,以运输、保管为主要目的的包装,亦称()。(6分)
A.零售包装
B.运输包装
C.消费者包装
D.单个包装正确答案: B
95、()是以促进销售为主要目的的包装,这种包装的特点是外形美观,有必要的装潢,包装单位适于顾客的购买量以及商店陈设的要求。(6分)
A.商业包装
B.运输包装
C.零售包装
D.促销包装正确答案:A
96、下列包装材料中属于软包装材料的是()。(6分)
A.真空镀铝纸
B.牛皮纸
C.铝箔
D.马口铁正确答案: A
97、下列包装材料中属于纸包装材料的是()。(6分)
A.烫金纸
B.镀铝膜
C.蜂窝板
D.中空板正确答案: C
98、“小心轻放”、“防潮湿”、“此端向上”等属于()。(6分)
A.运输标志
B.指示性标志
C.警告性标志
D.商业标志正确答案:B
99、易燃品、有毒品或易爆炸物品等在外包装上必须醒目标明(),以示警告。(6分)
A.运输标志
B.指示性标志
C.警告性标志
D.商业标志正确答案:C
100、对于易碎、需防湿、防颠倒等物品,在包装上应用醒目图形或文字标明()。(6分)
B.指示性标志
C.警告性标志
D.运输标志正确答案:B
101、下列关于包装在物流中的地位的描述正确的有()。(8分)
A.包装处于生产过程的末尾
B.包装处于物流过程的开头
C.包装与物流的关系,比之与生产的关系要密切得多
D.包装应进入物流系统之中,这是现代物流的一个新观念正确答案:ABCD
102、包装的作用主要有()。(8分)
A.保护商品
B.方便运输
C.促进销售
D.便于消费正确答案:ABCD
103、下列描述中从包装的保护技术分类的包装有()。(8分)
A.防潮包装
B.防锈包装
C.防虫包装
D.危险品包装正确答案:ABCD
104、包装的最关键要素包括()。(8分)
A.包装材料
B.包装安全指标
C.包装效率
D.包装操作方式正确答案:AD
105、运输标志,即唛头,包括的内容有()。(8分)
A.目的地名称或代号
B.收货人或发货人的代用简字或代号、件号
C.体积、重量
D.生产国家或地区正确答案:ABCD
106、EAN-13码中,检验码有()位数。(6分)
A.1
B.2
C.3
D.4 正确答案:A
107、我国国家码为()。(6分)
A.690-693
B.690-694
D.690-696 正确答案:C
108、全球卫星定位系统的英文缩写为()。(6分)
A.GPS
B.GPRS
C.FRID
D.PDT 正确答案: A
109、无线射频识别技术英文缩写为()。(6分)
A.GPS
B.GPRS
C.RFID
D.PDT 正确答案: C
110、物流中心的RFID应用,一般不会把RFID标签粘贴在()。(6分)
A.单个商品
B.包装箱
C.托盘
D.叉车正确答案:D
111、在RF物流系统中,信息核心是()。(6分)
A.ERP
B.SCM
C.WMS
D.MRP 正确答案:C
112、下面那个功能模块不属于仓储管理系统()。(6分)
A.收货
B.存货管理
C.订单处理
D.出货正确答案: D
113、()是指令,是整个物流运作的入口和依据,是整个物流系统的内在驱动力之一。(6分)
A.信息
B.订单
C.物品
D.仓储正确答案: B
114、仓储管理包括()的管理和业务运作流程的实现。(6分)
A.仓储单据
B.仓储信息
C.仓储物品
D.仓储资源正确答案:D
115、仓库信息系统中不包括()。(6分)
A.WMS
B.TMS
C.RFID
D.CAPS 正确答案:B
116、标准码共13位数,是由()构成。(8分)
A.国家代码
B.厂商代码
C.产品代码
D.检查码正确答案:ABCD
117、条码的组成包括()。(8分)
A.条
B.空
C.字符
D.字母正确答案:ABC
118、条形码技术的优点有()。(8分)
A.输入速度快
B.准确度高
C.成本低
D.可靠性强正确答案:ABCD
119、仓储管理信息系统(WMS)能够按照运作的业务规则和运算法则(algorithms),对信息和()进行更完美地管理,使其最大化满足有效产出和精确性的要求。(8分)
A.资源
B.行为
C.存货
D.分销正确答案:ABCD
120、仓储管理中,仓储信息化有利于()。(8分)
A.提高效率
B.降低损耗
C.降低成本
D.增加成本正确答案:ABC
大数据技术部 建设数据仓库的八个步骤2017年04月25日编制
建设数据仓库的八个步骤 摘要: 建立数据仓库是一个解决企业问题的过程,业务人员往往不懂如何建立和使用数据仓库,发挥其决策支持的作用;信息部门的人员往往又不懂业务,不知道应该建立哪些决策主题。 关键词:数据仓库元数据 建设数据仓库 建立数据仓库是一个解决企业问题的过程,业务人员往往不懂如何建立和使用数据仓库,发挥其决策支持的作用;信息部门的人员往往又不懂业务,不知道应该建立哪些决策主题,从数据源中抽取哪些数据。因此数据仓库的项目小组应该由业务人员和信息部门的人员共同组成,双方需要相互沟通,协作开发数据仓库。 开发数据仓库的过程包括以下几个步骤。 1.系统分析,确定主题 建立数据仓库的第一个步骤就是通过与业务部门的充分交流,了解建立数据仓库所要解决的问题的真正含义,确定各个主题下的查询分析要求。 业务人员往往会罗列出很多想解决的问题,信息部门的人员应该对这些问题进行分类汇总,确定数据仓库所实现的业务功能。一旦确定问题以后,信息部门的人员还需要确定一下几个因素: ·操作出现的频率,即业务部门每隔多长时间做一次查询分析。 ·在系统中需要保存多久的数据,是一年、两年还是五年、十年。 ·用户查询数据的主要方式,如在时间维度上是按照自然年,还是财政年。 ·用户所能接受的响应时间是多长、是几秒钟,还是几小时。
由于双方在理解上的差异,确定问题和了解问题可能是一个需要多次往复的过程,信息部门的人员可能需要做一些原型演示给业务部门的人员看,以最终确定系统将要实现的功能确实是业务部门所需要的。 2.选择满足数据仓库系统要求的软件平台 在数据仓库所要解决的问题确定后,第二个步骤就是选择合适的软件平台,包括数据库、建模工具、分析工具等。这里有许多因素要考虑,如系统对数据量、响应时间、分析功能的要求等,以下是一些公认的选择标准: ·厂商的背景和支持能力,能否提供全方位的技术支持和咨询服务。 ·数据库对大数据量(TB级)的支持能力。 ·数据库是否支持并行操作。 ·能否提供数据仓库的建模工具,是否支持对元数据的管理。 ·能否提供支持大数据量的数据加载、转换、传输工具(ETT)。 ·能否提供完整的决策支持工具集,满足数据仓库中各类用户的需要。 3.建立数据仓库的逻辑模型 具体步骤如下: (1)确定建立数据仓库逻辑模型的基本方法。 (2)基于主题视图,把主题视图中的数据定义转到逻辑数据模型中。 (3)识别主题之间的关系。
北京甲骨文软件有限公司咨询经理鲁百年博士 一、国内信息化的现状 1、信息化建设的发展历史:在国内信息化建设过程中,基本上是按照当时业务系统的需求进行建设,例如:在一个企业中,财务部门为了减少工资发放的差错,提高发放的效率,先建设一个工资发放和管理程序;为了报账和核对的需求,建设一个财务管理程序;在银行首先为了业务处理的方便,将最基本的手工记帐和处理的业务建成一个系统,过一段时间,如果有新的业务推出,就再建设一个新的系统,或在原系统的基础上增加新的业务处理。这样的结果使每个系统和系统之间缺少真正的信息沟通和信息交换。 2、为何要建立数据仓库:前面我们讲过,业务系统各自为政,相互独立。当很多业务系统建立后,由于领导的要求和决策的需求,需要一些指标的分析,在相应的业务系统基础上再增加分析和相应的报表功能,这样每个系统就增加了报表和分析功能。但是,由于数据源不统一导致了对同一个指标分析的结果不相同。为了解决该问题,Bell Inman提出了数据仓库的概念,其目的是为了分析和决策的需要,将相互分离的业务系统的数据源整合在一起,可以为领导和决策层提供分析和辅助决策。 3、国内企业对数据仓库建设认识的误区: 大家对数据仓库的认识是将业务系统的数据进行数据抽取、迁移和加载(ETL),将这些数据进行整合存放在一起,统一管理,需要什么样的分析就可提供什么样的分析,这就是数据仓库。这样做的结果是花了一年到两年的时间都无法将整个企业业务系统的数据整合在一起,花钱多、见效慢、风险大。一年后领导问起数据仓库项目时,回答往往是资金不足,人力不够,再投入一些资源、或者再延长半年的时间就会见到效果,但是往往半年过后还是仅仅可以看到十几张或者几十张报表。领导不满意,项目负责人压力也很大,无法交待。这时,项目经理或者项目负责人才意识到,项目有问题,但是谁也不敢说项目有问题,因为这样显然是自己当时的决策失误。怎么办?寻找咨询公司或者一些大的厂商,答案往往是数据仓库缺乏数据模型,应该考虑数据模型。如果建设时考虑到整个企业的数据模型,就可以建设成企业级的数据仓库(EDW。什么是数据模型,就是满足整 个企业分析要求的所有数据源。结果会如何,我个人认为:这样做企业级数据仓
成功实施数据仓库项目的七个步骤 建立一个数据仓库并不是一个简单的任务,不应该由一个人单独完成。由于数据仓库最佳结合了业务惯例和信息系统技术,因此,一个成功的数据仓库实施需要这两方面的不断协调,以均衡其所有的需要,要求,任务和成果。我很乐意与大家分享我在规划和管理任何数据库项目时采用的方法,这些数据库包括交易数据库,数据仓库,和混合型数据库。由于我生活在关系数据库和数据仓库以及用以支撑它们的数据提取,转换和加载(ETL )过程中,所以我会集中在这些领域讨论我的方法。然而,您可以将这些方法扩展到整个栈--OLAP立方体和如报告,特征分析(ad-hoc analysis),记分卡和仪表盘展示之类的信息传递应用。 我不是吃撑了要告诉一个真正的项目经理( PM )如何做他或她的工作,相反,我写的这些是为那些数据库管理员和开发者,他们没有好运气能与有经验的项目经理一起工作;同样也适合这样的IT专业人员,他们被突然要求:“建立一个数据仓库“,并且需要自己扮演项目经理的角色。我的讨论不会是完整的,但我希望这会给您足够的信息来让您的项目球滚起来。 如图1所示,数据仓库项目有3个轨道(tracks):数据轨道,技术轨道和应用层轨道。当您在整理任何数据库项目计划时,我建议您以这三个轨道为模板来管理和同步您的活动。当您向技术决策者( TDMs ) ,商业决策者( BDMs ) ,和所有其他该数据仓库项目参与者讲解您的计划时,您也可以把图1当作一个高级的概要图来使用。 使用一种生命周期管理方法 我鼓励您利用您的组织可以提供的资源,比如设计,开发和部署系统和软件的技术和方法。如果贵公司对于这些工作没有采用任何正式的方法,继续前进吧,您可采用我为我自己的数据库项目开发的7D数据库生
第1章数据仓库建设 1.1数据仓库总体架构 专家系统接收增购项目车辆TCMS或其他子系统通过车地通信传输的实时或离线数据,经过一系列综合诊断分析,以各种报表图形或信息推送的形式向用户展示分析结果。针对诊断出的车辆故障将给出专家建议处理措施,为车辆的故障根因修复提供必要的支持。 根据专家系统数据仓库建设目标,结合系统数据业务规,包括数据采集频率、数据采集量等相关因素,设计专家系统数据仓库架构如下: 数据仓库架构从层次结构上分为数据采集、数据存、数据分析、数据服务等几个方面的容: 数据采集:负责从各业务自系统中汇集信息数据,系统支撑Kafka、Storm、Flume
及传统的ETL采集工具。 数据存储:本系统提供Hdfs、Hbase及RDBMS相结合的存储模式,支持海量数据的分布式存储。 数据分析:数据仓库体系支持传统的OLAP分析及基于Spark常规机器学习算法。 数据服务总线:数据系统提供数据服务总线服务,实现对数据资源的统一管理和调度,并对外提供数据服务。 1.2数据采集 专家系统数据仓库数据采集包括两个部分容:外部数据汇集、部各层数据的提取与加载。外部数据汇集是指从TCMS、车载子系统等外部信息系统汇集数据到专家数据仓库的操作型存储层(ODS);部各层数据的提取与加载是指数据仓库各存储层间的数据提取、转换与加载。 1.2.1外部数据汇集 专家数据仓库数据源包括列车监控与检测系统(TCMS)、车载子系统等相关子系统,数据采集的容分为实时数据采集和定时数据采集两大类,实时数据采集主要对于各项检测指标数据;非实时采集包括日检修数据等。 根据项目信息汇集要求,列车指标信息采集具有采集数据量大,采集频率高的特点,考虑到系统后期的扩展,因此在数据数据采集方面,要求采集体系支持高吞吐量、高频率、海量数据采集,同时系统应该灵活可配置,可根据业务的需要进行灵活配置横向扩展。 本方案在数据采集架构采用Flume+Kafka+Storm的组合架构,采用Flume和ETL 工具作为Kafka的Producer,采用Storm作为Kafka的Consumer,Storm可实现对海量数据的实时处理,及时对问题指标进行预警。具体采集系统技术结构图如下:
成功实施数据仓库项目的7个步骤 建立一个数据仓库并不是一个简单的任务,不应该由一个人单独完成。由于数据仓库最佳结合了业务惯例和信息系统技术,因此,一个成功的数据仓库实施需要这两方面的不断协调,以均衡其所有的需要,要求,任务和成果。我很乐意与大家分享我在规划和管理任何数据库项目时采用的方法,这些数据库包括交易数据库,数据仓库,和混合型数据库。由于我生活在关系数据库和数据仓库以及用以支撑它们的数据提取,转换和加载(ETL )过程中,所以我会集中在这些领域讨论我的方法。然而,您可以将这些方法扩展到整个栈--OLAP立方体和如报告,特征分析(ad-hoc analysis),记分卡和仪表盘展示之类的信息传递应用。 我不是吃撑了要告诉一个真正的项目经理( PM )如何做他或她的工作,相反,我写的这些是为那些数据库管理员和开发者,他们没有好运气能与有经验的项目经理一起工作;同样也适合这样的IT专业人员,他们被突然要求:“建立一个数据仓库“,并且需要自己扮演项目经理的角色。我的讨论不会是完整的,但我希望这会给您足够的信息来让您的项目球滚起来。
如图1所示,数据仓库项目有3个轨道(tracks):数据轨道,技术轨道和应用层轨道。当您在整理任何数据库项目计划时,我建议您以这三个轨道为模板来管理和同步您的活动。当您向技术决策者( TDMs ) ,商业决策者( BDMs ) ,和所有其他该数据仓库项目参与者讲解您的计划时,您也可以把图1当作一个高级的概要图来使用。 使用一种生命周期管理方法 我鼓励您利用您的组织可以提供的资源,比如设计,开发和部署系统和软件的技术和方法。如果贵公司对于这些工作没有采用任何正式的方法,继续前进吧,您可采用我为我自己的数据库项目开发的7D数据库生命周期管理方法(Discover, Design, Develop, Deploy, Day to Day , Defend, Decommission), 昵称“7D法”。 我的“7D”数据库生命周期管理方法讲的是数据库的生命周期管理,而不是相关的软件(应用程序)和硬件的生命周期。图1包括了软硬件轨道,但我不会进一步阐述它们的管理。为了成功实施数据库生命周期的方法,有必要调整和同步数据库生命周期的里程碑、硬件和应用软件。
高效实现数据仓库的七个步骤 数据仓库和我们常见的RDBMS系统有些亲缘关系,但它又有所不同。如果你没有实施过数据仓库,那么从设定目标到给出设计,从创建数据结构到编写数据分析程序,再到面对挑剔的用户的评估,整个过程都会带给你一种与以往的项目完全不同的体验。一句话,如果你试图以旧有的方式创建数据仓库,那你所面对的不是预算超支就是所建立的数据仓库无法良好运作。 在处理一个数据仓库项目时需要注意的问题很多,但同时也有很多有建设性的参考可以帮助你更顺利的完成任务。开放思维,不断尝试新的途径,对于找到一种可行的数据仓库实现方法来说也是必需的。 1. 配备一个全职的项目经理或你自己全面负责项目管理 在通常情况下,项目经理都会同时负责多个项目的实施。这么做完全是出于资金和IT资源方面的考虑。但是对于数据仓库项目的管理,绝对不能出现一人身兼数个项目的情况。由于你所处的领域是你和你的团队之前没有进入过的领域,有关数据仓库的一切-数据分析、设计、编程、测试、修改、维护-全都是崭新的,因此你或者你指派的项目经理如果能全心投入,对于项目的成功会有很大帮助。 2. 将项目管理职责推给别的项目经理 由于数据仓库实现过程实在是太困难了,为了避免自虐,你可以在当前阶段的项目完成后就将项目管理职责推给别的项目经理。当然,这个新的项目经理一定要复合第一条所说的具有全职性。为什么要这么做呢?首先,从项目经理的角度看,数据仓库实施过程的任何一个阶段都足以让人身心疲惫。从物理存储设备的开发到Extract-Transform-Load的实现,从设计开发模型到OLAP,所有阶段都明显的比以前接触的项目更加困难。每个阶段不但需要新的处理方法、新的管理方法,还需要创新性的观点。所以将管理职责推给别的项目经理不但不会对项目有损害,还可以起到帮助作用。 3.与用户进行沟通 这里所讲的内容远比一篇文章本身要重要的多。你必须明白,在数据仓库的设计阶段,那些潜在用户自己也不清楚他们到底需要数据仓库为他们做什么。他们在不断的探索和发现自己的需求,而你的开发团队也在和客户的接触中做着同样的事情。更加频繁的与客户接触,多做记录,
数据仓库建设步骤 1.系统分析,确定主题 确定一下几个因素: 操作出现的频率,即业务部门每隔多长时间做一次查询分析。 在系统中需要保存多久的数据,是一年、两年还是五年、十年 用户查询数据的主要方式,如在时间维度上是按照自然年,还是财政年。 用户所能接受的响应时间是多长、是几秒钟,还是几小时。 2.选择满足数据仓库系统要求的软件平台 选择合适的软件平台,包括数据库、建模工具、分析工具等。有许多因素要考虑,如系统对数据量、响应时间、分析功能的要求等,以下是一些公认的选择标准: 厂商的背景和支持能力,能否提供全方位的技术支持和咨询服务。 数据库对大数据量(TB级)的支持能力。 数据库是否支持并行操作。 能否提供数据仓库的建模工具,是否支持对元数据的管理。 能否提供支持大数据量的数据加载、转换、传输工具(ETT)。 能否提供完整的决策支持工具集,满足数据仓库中各类用户的需要。 3.建立数据仓库的逻辑模型 具体步骤如下: 1)确定建立数据仓库逻辑模型的基本方法。 2)基于主题视图,把主题视图中的数据定义转到逻辑数据模型中。 3)识别主题之间的关系。 4)分解多对多的关系。 5)用范式理论检验逻辑数据模型。 6)由用户审核逻辑数据模型。 4.逻辑数据模型转化为数据仓库数据模型 具体步骤如下: 1)删除非战略性数据:数据仓库模型中不需要包含逻辑数据模型中的全部数据项,某些用于操作 处理的数据项要删除。 2)增加时间主键:数据仓库中的数据一定是时间的快照,因此必须增加时间主键。 3)增加派生数据:对于用户经常需要分析的数据,或者为了提高性能,可以增加派生数据。
4)加入不同级别粒度的汇总数据:数据粒度代表数据细化程度,粒度越大,数据的汇总程度越高。 粒度是数据仓库设计的一个重要因素,它直接影响到驻留在数据仓库中的数据量和可以执行的 查询类型。显然,粒度级别越低,则支持的查询越多;反之,能支持的查询就有限。 5.数据仓库数据模型优化 数据仓库设计时,性能是一项主要考虑因素。在数据仓库建成后,也需要经常对其性能进行监控,并随着需求和数据量的变更进行调整。 优化数据仓库设计的主要方法是: 合并不同的数据表。 通过增加汇总表避免数据的动态汇总。 通过冗余字段减少表连接的数量,不要超过3~5个。 用ID代码而不是描述信息作为键值。 对数据表做分区。 6.数据清洗转换和传输 由于业务系统所使用的软硬件平台不同,编码方法不同,业务系统中的数据在加载到数据仓库之前,必须进行数据的清洗和转换,保证数据仓库中数据的一致性。 在设计数据仓库的数据加载方案时,必须考虑以下几项要求: 加载方案必须能够支持访问不同的数据库和文件系统。 数据的清洗、转换和传输必须满足时间要求,能够在规定的时间范围内完成。 支持各种转换方法,各种转换方法可以构成一个工作流。 支持增量加载,只把自上一次加载以来变化的数据加载到数据仓库。 7.开发数据仓库的分析应用 建立数据仓库的最终目的是为业务部门提供决策支持能力,必须为业务部门选择合适的工具实现其对数据仓库中的数据进行分析的要求。 信息部门所选择的开发工具必须能够: 满足用户的全部分析功能要求。数据仓库中的用户包括了企业中各个业务部门,他们的业务不同,要求的分析功能也不同。如有的用户只是简单的分析报表,有些用户则要求做预 测和趋势分析。 提供灵活的表现方式。分析的结果必须能够以直观、灵活的方式表现,支持复杂的图表。 使用方式上,可以是客户机/服务器方式,也可以是浏览器方式。 事实上,没有一种工具能够满足数据仓库的全部分析功能需求,一个完整的数据仓库系统的功能可能是由多种工具来实现,因此必须考虑多个工具之间的接口和集成性问题,对于用户来说,希望看到的是一致的界面。 8.数据仓库的管理
数据仓库构建步骤 数据仓库是面向主题的、集成的、不可更新的、随时间的变化而不断变化的,这些特点决定了数据仓库的系统设计不能采用同开发传统的OLTP数据库一样的设计方法。 数据仓库系统的原始需求不明确,且不断变化与增加,开发者最初不能确切了解到用户的明确而详细的需求,用户所能提供的无非是需求的大的方向以及部分需求,更不能较准确地预见到以后的需求。因此,采用原型法来进行数据仓库的开发是比较合适的,因为原型法的思想是从构建系统的简单的基本框架着手,不断丰富与完善整个系统。但是,数据仓库的设计开发又不同于一般意义上的原型法,数据仓库的设计是数据驱动的。这是因为数据仓库是在现存数据库系统基础上进行开发,它着眼于有效地抽取、综合、集成和挖掘已有数据库的数据资源,服务于企业高层领导管理决策分析的需要。但需要说明的是,数据仓库系统开发是一个经过不断循环、反馈而使系统不断增长与完善的过程,这也是原型法区别于系统生命周期法的主要特点。因此,在数据仓库的开发的整个过程中,自始至终要求决策人员和开发者的共同参与和密切协作,要求保持灵活的头脑,不做或尽量少做无效工作或重复工作。 数据仓库的设计大体上可以分为以下几个步骤: ●概念模型设计; ●技术准备工作; ●逻辑模型设计; ●物理模型设计; ●数据仓库生成; ●数据仓库运行与维护。 下面我们六个主要设计步骤为主线,介绍在各个设计步骤中设计的基本内容。 第一节概念模型设计 进行概念模型设计所要完成的工作是: <1>界定系统边界 <2>确定主要的主题域及其内容 概念模型设计的成果是,在原有的数据库的基础上建立了一个较为稳固的概念模型。因为数据仓库是对原有数据库系统中的数据进行集成和重组而形成的数据集合,所以数据仓库的概念模型设计,首先要对原有数据库系统加以分析理解,看在原有的数据库系统中“有什么”、“怎样组织的”和“如何分布的”等,然后再来考虑应当如何建立数据仓库系统的概念模型。一方面,通过原有的数据库的设计文档以及在数据字典中的数据库关系模式,可以对企业现有的数据库中的内容有一个完整而清晰的认识;另一方面,数据仓库的
建设数据仓库的八个步骤
大数据技术部 建设数据仓库的八个步骤
2017年04月25日编制
建设数据仓库的八个步骤 摘要: 建立数据仓库是一个解决企业问题的过程,业务人员往往不懂如何建立和使用数据仓库 ,发挥其决策支持的作用;信息部门的人员往往又不懂业务,不知道应该建立哪些决策主题。 关键词:数据仓库元数据 建设数据仓库 建立数据仓库是一个解决企业问题的过程,业务人员往往不懂如何建立和使用数据仓库,发挥其决策支持的作 用;信息部门的人员往往又不懂业务,不知道应该建立哪些决策主题,从数据源中抽取哪些数据。因此数据仓库的项 目小组应该由业务人员和信息部门的人员共同组成,双方需要相互沟通,协作开发数据仓库。 开发数据仓库的过程包括以下几个步骤 1.系统分析,确定主题 建立数据仓库的第一个步骤就是通过与业务部门的充分交流,了解建立数据仓库所要解决的问题的真正含义,确 定各个主题下的查询分析要求。 业务人员往往会罗列岀很多想解决的问题,信息部门的人员应该对这些问题进行分类汇总, 确定数据仓库所实现 的业务功能。一旦确定问题以后,信息部门的人员还需要确定一下几个因素: 操作岀现的频率,即业务部门每隔多长时间做一次查询分析。 在系统中需要保存多久的数据,是一年、两年还是五年、十年 用户查询数据的主要方式,如在时间维度上是按照自然年,还是财政年。 用户所能接受的响应时间是多长、是几秒钟,还是几小时 由于双方在理解上的差异,确定问题和了解问题可能是一个需要多次往复的过程,信息部门的人员可能需要做一 些原型演示给业务部门的人员看,以最终确定系统将要实现的功能确实是业务部门所需要的。
数据仓库建设 商务智能(Business Intelligence)用于支持制定业务决策的技能、流程、技术、应用和实践。核心是通过数据提取、整理、分析,最终通过分析结果制定有关策略、规划,帮助企业了解新的趋势、抓住新的市场机会、发现潜在的威胁,达到资源的合理配置,节约成本提高效益。数据仓库是商业智能的基础,它为OLAP、数据挖掘提供分析和决策支持。 一、数据仓库概念 1.数据仓库定义 是一个面向主题的、集成的、相对稳定的、反映有有历史变化的数据集合,用于支持管理决策。具有以下特点: ●详细交易及相关业务数据的集合 ●包含必要的内部与外部信息 ●来自于多个数据源、业务操作系统 ●保存一定的时间周期 ●按照企业内业务规则决定存储模型 2.建设的必要性 目前大多数信息系统由于建设时间、建设方、各阶段需求不同,会出现一系列问题:缺乏整体规则、信息缺乏完整性、缺乏统一的信息管理标准和规范、信息孤岛、不具备大容量的数据管理和分析能力。
3.价值 ●提高管理决策的科学性和管理效率 ●信息的整合,可推动现在有信息管理体系的重构 ●打通信息孤岛全局共享,降低数据获取的难度 ●逐渐取代各类业务管理报表系统 ●运用历史数据发现规律 二、数据仓库建设 1.业务需求定义 梳理出所有业务过程,分析业务内容提取需求,对其相关的数据进行探查,并对各系统核心业务人员访谈,准确的了解业务需求情况,近期调研 2.技术体系结构 生命周期图 技术架构图:
3.数据仓库数据建模 数据模型是抽象描述现实世界的一种方法,是通过抽象的实体及实体之间的联系来表示现实世界中事务的相互关系的一种映射,数据仓库模型是数据模型中针对特定的数据仓库应用系统的特定模型。数据仓库建模方法种类较多,常见的三种是范式建模、维度建模、实体建模,每种方法本质上都是从不同的角度解决业务中的问题。 关于数据仓库建模单独用一篇来详细介绍,这儿仅对维度建模做基本的介绍,维度建模由数据仓库领域另一位大师Ralph Kimall所倡导,是数据仓库工程领域最流行的数仓建模经典。维度建模以分析决策的需求出发构建模型,
1. 数据仓库概述 经过多年IT的建设,信息对于XXX的日常管理已经日益重要,并逐渐成为重要的信息资产,信息资产的管理已经成为日常管理中一个非常重要的环节。如何管理和利用好XXX内部纷繁的数据也越来越成为信息管理的一项重要工作。 在过去相当一段时间内,XXX业务系统的构建主要围绕着业务的数据展开,应用的构建多是自下而上构建,主要以满足某个部门的业务功能为主,我们称之为业务处理的时代。这样的构建方式造成了一个个分立的应用,分立的应用导致了一个个的静态竖井。由于数据从属于应用,缺乏XXX全局的单一视图,形成了一个个信息孤岛,分立的系统之间缺乏沟通,同样数据的孤岛导致只能获得片面的信息,而不是全局的单一视图。存储这些信息的载体可能是各种异构或同构的关系型数据库,也有可能是XML、EXCEL等文件。因此,构建新一代的一体化平台提上了日程并最终促成全域数据的管理方式,目的是覆盖XXX各个环节的关键业务数据,完善元数据管理,形成全局的数据字典、业务数据规范和统一的业务指标含义,能够灵活的获取XXX业务数据的单一视图(需要保证数据的一致性、完整性、准确性和及时性)。数据的交换和共享主要发生在上下级组织机构之间或同级的不同部门之间。最终,这些数据可以为部队分析、决策支持(多维分析、即席查询、数据挖掘)等应用提供更及时、准确、有效的支持。 数据仓库的目标是实现跨系统数据共享,解决信息孤岛,提升数据质量,辅助决策分析,提供统一的数据服务。同时,数据仓库的构建也面临着各种挑战,比如信息整合在技术上的复杂度、信息整合的管理成本、数据资源的获取、信息整合的实施周期以及整合项目的风险等。
2. 全域数据库总体架构 边防一体化其他虚拟传感器摄像头全域数据库总体架构 全域数据库总体的层次,最下面是基础架构层,主要包括支撑这一架构运行的主机系统、存储备份系统、网络系统等内容。从下往上看,再上面是数据源层,既包括各个业务的关系型数据源、内容管理数据源也包括半结构化数据源比如XML 、EXCEL 等,也包括各个总队、支队的业务数据源。 数据源层之上是“交换服务体系”,主要包括信息服务总线和服务总线两部分。信息服务总线主要实现数据层的信息整合和数据转换,而服务总线主要实现应用层的信息交换和整合。信息服务总线主要依托联邦、复制、清洗、转换等技术实现,其主要包括信息整合服务和清洗转换加载服务两部分。通过信息服务总线的信息整合服务(数据联邦、复制),可以透明、实时的访问分布在总队和支队的各个业务系统中的各种同构、异构数据(前提是拥有足够的权限)。信息整合服务在整个XXX 层面保证
第1章数据仓库建设 1.1 数据仓库总体架构 专家系统接收增购项目车辆TCMS或其他子系统通过车地通信传输的实时或离线数据,经过一系列综合诊断分析,以各种报表图形或信息推送的形式向用户展示分析结果。针对诊断出的车辆故障将给出专家建议处理措施,为车辆的故障根因修复提供必要的支持。 根据专家系统数据仓库建设目标,结合系统数据业务规范,包括数据采集频率、数据采集量等相关因素,设计专家系统数据仓库架构如下: 数据仓库架构从层次结构上分为数据采集、数据存、数据分析、数据服务等几个方面的内容: 数据采集:负责从各业务自系统中汇集信息数据,系统支撑Kafka、Stor
m、Flume及传统的ETL采集工具。 数据存储:本系统提供Hdfs、Hbase及RDBMS相结合的存储模式,支持海量数据的分布式存储。 数据分析:数据仓库体系支持传统的OLAP分析及基于Spark常规机器学习算法。 数据服务总线:数据系统提供数据服务总线服务,实现对数据资源的统一管理和调度,并对外提供数据服务。 1.2 数据采集 专家系统数据仓库数据采集包括两个部分内容:外部数据汇集、内部各层数据的提取与加载.外部数据汇集是指从TCMS、车载子系统等外部信息系统汇集数据到专家数据仓库的操作型存储层(ODS);内部各层数据的提取与加载是指数据仓库各存储层间的数据提取、转换与加载。 1.2.1外部数据汇集 专家数据仓库数据源包括列车监控与检测系统(TCMS)、车载子系统等相关子系统,数据采集的内容分为实时数据采集和定时数据采集两大类,实时数据采集主要对于各项检测指标数据;非实时采集包括日检修数据等。 根据项目信息汇集要求,列车指标信息采集具有采集数据量大,采集频率高的特点,考虑到系统后期的扩展,因此在数据数据采集方面,要求采集体系支持高吞吐量、高频率、海量数据采集,同时系统应该灵活可配置,可根据业务的需要进行灵活配置横向扩展。 本方案在数据采集架构采用Flume+Kafka+Storm的组合架构,采用Flume 和ETL工具作为Kafka的Producer,采用Storm作为Kafka的Consumer,Storm可实现对海量数据的实时处理,及时对问题指标进行预警。具体采集系统技术结构图如下:
数据仓库建设方案-2018-3-28
数据仓库建设 商务智能(Business Intelligence)用于支持制定业务决策的技能、流程、技术、应用和实践。核心是通过数据提取、整理、分析,最终通过分析结果制定有关策略、规划,帮助企业了解新的趋势、抓住新的市场机会、发现潜在的威胁,达到资源的合理配置,节约成本提高效益。数据仓库是商业智能的基础,它为OLAP、数据挖掘提供分析和决策支持。 一、数据仓库概念 1.数据仓库定义 是一个面向主题的、集成的、相对稳定的、反映有有历史变化的数据集合,用于支持管理决策。具有以下特点: ●详细交易及相关业务数据的集合 ●包含必要的内部与外部信息 ●来自于多个数据源、业务操作系统 ●保存一定的时间周期 ●按照企业内业务规则决定存储模型 2.建设的必要性 目前大多数信息系统由于建设时间、建设方、各阶段需求不同,会出现一系列问题:缺乏整体规则、信息缺乏完整性、缺乏统一的信息管理标
准和规范、信息孤岛、不具备大容量的数据管理和分析能力。 3.价值 ●提高管理决策的科学性和管理效率 ●信息的整合,可推动现在有信息管理体系的重构 ●打通信息孤岛全局共享,降低数据获取的难度 ●逐渐取代各类业务管理报表系统 ●运用历史数据发现规律 二、数据仓库建设 1.业务需求定义 梳理出所有业务过程,分析业务内容提取需求,对其相关的数据进行探查,并对各系统核心业务人员访谈,准确的了解业务需求情况,近期调研 2.技术体系结构 生命周期图
技术架构图:
3.数据仓库数据建模 数据模型是抽象描述现实世界的一种方法,是通过抽象的实体及实体之间的联系来表示现实世界中事务的相互关系的一种映射,数据仓库模型是数据模型中针对特定的数据仓库应用系统的特定模型。数据仓库建模方法种类较多,常见的三种是范式建模、维度建模、实体建模,每种方法本质上都是从不同的角度解决业务中的问题。 关于数据仓库建模单独用一篇来详细介绍,这儿仅对维度建模做基本的介绍,维度建模由数据仓库领域另一位大师Ralph Kimall所倡导,是数据仓库工程领域最流行的数仓建模经典。维度建模以分析决策的需求出发构建模型,构建的数据模型为分析需求服务,因此它重点解决用户如何更快速完成分析需求,同时还有较好的大规模复杂查询的响应性能。 1.维度模型是什么 维度建模将客观世界划分为度量和上下文。度量是由业务过程和支持它们的业务源系统来捕捉的,常常以数据值形式出现,将其称作“事实”,事实由大量上下文包围着,这些文本形式的上下文被直观地分割成多个独立的逻辑块,我们称其为“维”。维度描述了度量上下文的5W(who、what、when、where、why)信息,以及这些上下文是如何作用的。 企业的每一个业务过程都可以用维度模型来描述,维度模型由一系列含有数值量度量的事实表组成,事实表中的数值则被一系列带有文本属性的维度表环绕。
建设数据仓库的八个步骤 摘要:建立数据仓库是一个解决企业问题的过程,业务人员往往不懂如何建立和使用数据仓库,发挥其决策支持的作用;信息部门的人员往往又不懂业务,不知道应该建立哪些决策主题。 关键词:数据仓库元数据 建设数据仓库 建立数据仓库是一个解决企业问题的过程,业务人员往往不懂如何建立和使用数据仓库,发挥其决策支持的作用;信息部门的人员往往又不懂业务,不知道应该建立哪些决策主题,从数据源中抽取哪些数据。因此数据仓库的项目小组应该由业务人员和信息部门的人员共同组成,双方需要相互沟通,协作开发数据仓库。 开发数据仓库的过程包括以下几个步骤。 1.系统分析,确定主题 建立数据仓库的第一个步骤就是通过与业务部门的充分交流,了解建立数据仓库所要解决的问题的真正含义,确定各个主题下的查询分析要求。 业务人员往往会罗列出很多想解决的问题,信息部门的人员应该对这些问题进行分类汇总,确定数据仓库所实现的业务功能。一旦确定问题以后,信息部门的人员还需要确定一下几个因素: ·操作出现的频率,即业务部门每隔多长时间做一次查询分析。 ·在系统中需要保存多久的数据,是一年、两年还是五年、十年。 ·用户查询数据的主要方式,如在时间维度上是按照自然年,还是财政年。 ·用户所能接受的响应时间是多长、是几秒钟,还是几小时。 由于双方在理解上的差异,确定问题和了解问题可能是一个需要多次往复的过程,信息部门的人员可能需要做一些原型演示给业务部门的人员看,以最终确定系统将要实现的功能确实是业务部门所需要的。 2.选择满足数据仓库系统要求的软件平台 在数据仓库所要解决的问题确定后,第二个步骤就是选择合适的软件平台,包括数据库、建模工具、分析工具等。这里有许多因素要考虑,如系统对数据量、响应时间、分析功能的要求等,以下是一些公认的选择标准: ·厂商的背景和支持能力,能否提供全方位的技术支持和咨询服务。 ·数据库对大数据量(TB级)的支持能力。 ·数据库是否支持并行操作。 ·能否提供数据仓库的建模工具,是否支持对元数据的管理。 ·能否提供支持大数据量的数据加载、转换、传输工具(ETT)。 ·能否提供完整的决策支持工具集,满足数据仓库中各类用户的需要。 3.建立数据仓库的逻辑模型 具体步骤如下:
数据仓库构建实施方法及步骤 数据仓库是面向主题的、集成的、不可更新的、随时间的变化而不断变化的,这些特点决定了数据仓库的系统设计不能采用同开发传统的OLTP数据库一样的设计方法。 数据仓库系统的原始需求不明确,且不断变化与增加,开发者最初不能确切了解到用户的明确而详细的需求,用户所能提供的无非是需求的大的方向以及部分需求,更不能较准确地预见到以后的需求。因此,采用原型法来进行数据仓库的开发是比较合适的,因为原型法的思想是从构建系统的简单的基本框架着手,不断丰富与完善整个系统。但是,数据仓库的设计开发又不同于一般意义上的原型法,数据仓库的设计是数据驱动的。这是因为数据仓库是在现存数据库系统基础上进行开发,它着眼于有效地抽取、综合、集成和挖掘已有数据库的数据资源,服务于企业高层领导管理决策分析的需要。但需要说明的是,数据仓库系统开发是一个经过不断循环、反馈而使系统不断增长与完善的过程,这也是原型法区别于系统生命周期法的主要特点。因此,在数据仓库的开发的整个过程中,自始至终要求决策人员和开发者的共同参与和密切协作,要求保持灵活的头脑,不做或尽量少做无效工作或重复工作。 数据仓库的设计大体上可以分为以下几个步骤: 概念模型设计; 技术准备工作; 逻辑模型设计; 物理模型设计; 数据仓库生成; 数据仓库运行与维护。 下面我们六个主要设计步骤为主线,介绍在各个设计步骤中设计的基本内容。 第一节概念模型设计 进行概念模型设计所要完成的工作是: <1>界定系统边界 <2>确定主要的主题域及其内容 概念模型设计的成果是,在原有的数据库的基础上建立了一个较为稳固的概念模型。因为数据仓库是对原有数据库系统中的数据进行集成和重组而形成的数据集合,所以数据仓库的概念模型设计,首先要对原有数据库系统加以分析理解,看在原有的数据库系统中“有什么”、“怎样组织的”和“如何分布的”等,然后再来考虑应当如何建立数据仓库系统的概念模型。一方面,通过原有的数据库的设计文档以及在数据字典中的数据库关系模式,可以对企业现有的数据库中的内容有一个完整而清晰的认识;另一方面,数据仓库的概念模型是面向企业全局建立的,它为集成来自各个面向应用的数据库的数据提供了统一的概念视图。 概念模型的设计是在较高的抽象层次上的设计,因此建立概念模型时不用考虑具体技术条件的限制。 1 界定系统的边界 数据仓库是面向决策分析的数据库,我们无法在数据仓库设计的最初就得到详细而明确的需求,但是一些基本的方向性的需求还是摆在了设计人员的面前:
数据仓库模型建设规范 1.概述 数据仓库不同于日常的信息系统开发,除了遵循其他系统开发的需求、分析、设计、测试等通常的软件生命周期之外,它还涉及到企业信息数据的集成,大容量数据的阶段处理和分层存储,数据仓库的模式选择等等,因此数据仓库的模型设计异常重要,这也是关系到数据仓库项目成败的关键。 物理模型就像大厦的基础架构,就是通用的业界标准,无论是一座摩天大厦也好,还是茅草房也好,在架构师的眼里,他只是一所建筑,地基—层层建筑—封顶,这样的工序一样也不能少,关系到住户的安全,房屋的建筑质量也必须得以保证,唯一的区别是建筑的材料,地基是采用钢筋水泥还是石头,墙壁采用木质还是钢筋水泥或是砖头;当然材料和建筑细节还是会有区别的,视用户给出的成本而定;还有不可忽视的一点是,数据仓库的数据从几百GB到几十TB不等,即使支撑这些数据的RDBMS无论有多么强大,仍不可避免地要考虑数据库的物理设计。 数据仓库建模的设计目标是模型的稳定性、自适应性和可扩展性。为了做到这一点,必须坚持建模的相对独立性、业界先进性原则。 2.数聚模型架构 在数聚项目实施过程,我们一般将数据仓库系统的数据划分为如下图所示几个层次。
2.1.数据架构图
2.2.架构工作方法规范
2.3.准备层L0 2.3.1.主要数据结构 临时表:从数据源抽取,直接落地到临时表。临时表总是保存这次抽取的数据,不保留历史数据。也就是说,如果是全量抽取的话,就是源系统整个表的数据,如果 是增量抽取的话,就是自从上次修改后的数据。 接口表:从临时表,经过清洗、转换到达接口表。接口表保存历史数据,也就是说,如果是全量抽取的话,就是源系统整个表的数据,如果是增量抽取的话。 接口表里面也是源系统整个表的数据。 转换表:为了进行清洗和转换建立的中间辅助表。 2.3.2.命名规范 临时表:L0_TMP_源系统_具体业务或 L0_TMP_业务主题_具体业务(对单一源)举例:L0_TMP_POS_SALESORDER 接口表:L0_DCI_业务主题_具体业务表 举例:L0_DCI_SALES_SALESORDER 转换表:L0_MAP_具体业务表 举例:L0_MAP_SALES 2.3.3.开发工作 ●开发数据抽取接口,落地TMP区 ●开发数据清洗转换程序,落地DCI区,多源系统进行合并 ●开发数据装载程序,装载到L1层 2.4.原子层L1 2.4.1.主要数据结构 维度表:整个数据仓库一致的维度 代码表:维度属性,非维度代码等。 原子事实表:根据业务主题,形成原子事实表 汇总事实表:根据分析主题,业务主题形成合并或汇总的事实表。
详解数据仓库的实施步骤建立数据仓库是一个解决企业数据问题应用的过程,是企业信息化发展到一定阶段必不可少的一步,也是发展数据化管理的重要基础。数仓的知识市面上的书籍和文章不少,但是实际实施依据行业不同,企业核心诉求不同,从技术到方法论各有不同。 如何实施数仓项目,本文先以传统行业的数仓切入,从整体上讲下数据仓库的实施方法论! 数据仓库的通用实施步骤 一、需求分析 需求分析是数据仓库项目最重要的一个环节,数仓说到底还是服务于业务,支撑于业务,如果需求分析不准确,做了没人用,上了不
好用,会直接影响业务/客户的使用,最终导致项目的失败。为了避免最坏的情况,磨刀不误砍柴工,前期一定要重视需求的调研、挖掘和分析,并采用一些严谨科学的措施和方法去做需求分析。 在实际调研过程中分享几个经验: 1、尽可能与业务方/客户方一起分析需求,引导对方将项目所要实现的整体框架和业务细节部分述清楚,最好的方式就是需求人员和设计人员基于原型来讨论,从而正确理解实际的业务需求。 2、必须实事求是地将数据仓库所能实现的目标和不容易解决的问题与协商清楚。这一个环节趟过不少坑,IT方急着上线,业务方对于项目还处于一知半解,甚至在推动的时候可能避重就轻,比如一期不满足的需求强行上,长远来看项目会产生不少推诿和扯皮,消磨的是对方的信任。 所以在需求讨论的基础上,需要理解业务工作流程,当然如果你已经具备了这个行业丰富的业务知识,那可以在需求调研的时候尽可能地让对方按照自己的思路去完成数据仓库系统的功能设计。 3、需求方群体的分类,BI项目最终的使用对象可以分为以下几类:数据查询者、报表查询者、企业决策者