文档库 最新最全的文档下载
当前位置:文档库 › 票务系统架构分析报告

票务系统架构分析报告

票务系统架构分析报告
票务系统架构分析报告

票务系统架构分析报告

1.概述

该报告用于完成课程设计,旨在了解对构架的分析,以及各种战术的运用。本文档包含四个方面的内容:案例背景、构架商业周期、质量属性需求和功能需求、架构解决方案。

2.案例背景

以目前的市场形势来说,在机票、火车票以及其它旅游票中有着不同的票务系统,票务系统的出现大大降低了买票、查票、退票、改签等活动的难度系数,在日常生活中有着不可替代的作用。一个良好的票务系统,最基本应具有的质量应该是高性能,高可用,安全性高,易用性强的特征。本分析报告研究的是一个火车票票务系统的构架。

3.构架商业周期

构架MVC 模型

票务系统

客户

在线订票的人

开发组织

技术环境 Eclipse 设计师经验 Java web 开发经验

需求

(质量属性) 高可用性 高性能 易用性 高安全性

设计师(小组)

4.质量属性需求和功能需求

4.1 质量属性需求

项目经理从开发组织和客户角度,可以将目标简化为如下:

A.从开发组织角度:开发一个模块性强、实时性高、界面良好、与外部其它系统兼容良好

的系统,这使得开发组织能够把整个产品或者某个木块卖给其他客户,同时由于良好的界面和业务处理效率而受市场的欢迎。

B.从客户的角度:系统容易操作,可维护性号、系统稳定、可以及时准确的处理用户的在

线订票或查询业务。

根据上述的目标,将系统质量属性可以划分为两类:

优先级较高的质量属性:

1.性能

2.安全性

3.易用性

4.可用性

重要但是优先级较低的属性:

1.模块性

2.可维护性

3.可修改性

4.可测试性

4.1 功能需求

根据质量属性场景导出一定的功能需求以及对功能的一些规格,针对各质量属性,可以查看下表:

质量属性属性求精场景

性能响应时间在系统处于高峰时期,保证登陆的每个用户

发出的买票或者查询要求在3S以内,如果需

要等待,则给出友好的提示。

吞吐量系统可以保证同事响应3000个客户。

易用性界面友好,操作简单要求具有基本电脑操作的人,可以根据友好

的界面迅速的学会使用方法。并且熟手还能

够使用快捷键。

及时反馈当系统发生错误或者系统运行时间较长的时

候,用户界面应该为用户提供有意义的反馈

信息,并具备良好的上下文感知功能。

界面一致性用户界面遵循一定的标准和常规,尽可能的

将所有操作集合在一个界面,不要时常出现

弹出框。

安全性机密性允许用户查看本人的订票信息,但不能查看

他人的订票信息,更不能退订或者改签别人

已经订的票。系统管理员不能随意查看用户

的隐私。

封闭性对局域网的用户来说,不能直接访问数据库,

更不能对其进行更改

防止恶意攻击杜绝非法用户试图绕过应用服务器直接连接

到数据库服务器的端口上,屏蔽某IP段时间

内的大量无意义的访问,以防止被挤爆,使

正常用户无法使用。

客户端功能无关性客户端只包含人机交互界面功能,不包含业

务功能描述,即客户端发送给服务器的是用

户请求,而不是业务所代表的的SQL语句,

以防止非法用户修改客户端的SQL语句以实

现越权功能的非法行为。

数据完整性在冰法用户多的情况下,系统保证数据的完

整性

可用性容错性应该容忍用户在使用过程中发生的各种操作

错误,并且能够方便的从错误中恢复过来,

保证系统不受或尽可能少的收到用户错误操

作受到的影响。

备份与恢复备份时间应尽可能的短且在用户访问极少时

进行。系统崩溃能在1小时内恢复

硬件更换硬件发生故障时,可以方便更换

模块性模块职责划分明确系统自上而下划分为:系统-子系统—模块—

子模块

借口清晰模块之间通信通过接口通信,只要是遵循同

一接口完成同一功能的模块即可响应的替

换,由此实现平台的无关性。

可测试性类的测试每个类及其函数都应该单独测试,以验证其

正确性

系统功能模块测试对与功能相应对应的模块进行测试,以保证

业务的完备性。

系统性能测试对整个系统进行压力测试,看能够达到设计

时的访问量。

BETA测试邀请用户代表进行beta测试,体验界面的友

好性和相应速度。

可修改性功能扩展如增加票务预订功能,能在一天内完成,并

且不影响系统的其他部分

界面修改易于修改

文档完备各个模块,系统必须提供详细刻度的文档,

以便维护人员维护

可配置性维护人员可以方便的配置系统参数,业务参

可升级性客户端发现缺陷后,可以自动更新,已解决。

新功能产生或界面更换

可移植性系统在新的操作系统或者新的数据库上能够

正常的运行

根据质量属性场景,导出初步的功能需求为:

a)票务的预订、查询、退订

b)时间响应过长需提醒

5.架构解决方案

在设计构架的时候,通过场景输入以生成构架,采用ADD的设计方案,设计方案的关键在于构架模式,通过采用不同战术来解决不同的质量属性,如下表所示:

目标实现方式所采用的战术

性能用户访问的系统应该能在

规定的时间内作出响应,如

果系统由于网络或者数据

库原因不能再规定的时间

内作出反应,那么系统应该

系统浸膏,不能出现用户无

故长时间等待的情况。限制执行时间,控制访问队列的大小

当应用程序需要在关联关

系之间进行导航的时候,由Hibemate获取关联对象。同

事Hibemate的session在事

物级别进行持久化数据的

缓存操作

二级缓存

安全性遵从J2EE的系统提供了由

容器进行授权校验的基于

角色的安全机制,以及已经

为使用做好准备的程序中

进行授权检查的安全性机

制身份验证授权

数据机密性验证码

并发操作时,保证数据的排锁机制

他性

SpringFranework利用AOF 来实现权限拦截,简洁清晰的安全框架,通过对spring bean的封装机制来实现AOP

Acegi安全框架

可用性在系统试图超出限制范围

来进行票务查询或者订购

票时必须进行错误检测并

且抛出异常,中止进一步的

错误操作

异常检测

遵从J2EE的系统提供了可

以使用的事物服务,通过内

检的故障恢复机制,提高了

应用的可用性以及可靠性

检查点/回滚

模块性根据功能将系统划分为几

个模块,系统满足“高内聚,

低耦合”的设计原则

维持语义一致性

可维护性系统运行有日志记录日志记录工具

系统可以扩展到新的系统配置文件

可修改性在变更到达时,系统在时间

和预算内所完成,测试和部

署的变更局部化修改防止连锁反应推迟绑定时间

可测试性在完成系统开发的一个增

量后,较轻松的对软件进行

测试

输入/输出

大数据处理平台构架设计说明书

大数据处理平台及可视化架构设计说明书 版本:1.0 变更记录

目录 1 1. 文档介绍 (3) 1.1文档目的 (3) 1.2文档范围 (3) 1.3读者对象 (3) 1.4参考文献 (3) 1.5术语与缩写解释 (3) 2系统概述 (4) 3设计约束 (5) 4设计策略 (6) 5系统总体结构 (7) 5.1大数据集成分析平台系统架构设计 (7) 5.2可视化平台系统架构设计 (11) 6其它 (14) 6.1数据库设计 (14) 6.2系统管理 (14) 6.3日志管理 (14)

1 1. 文档介绍 1.1 文档目的 设计大数据集成分析平台,主要功能是多种数据库及文件数据;访问;采集;解析,清洗,ETL,同时可以编写模型支持后台统计分析算法。 设计数据可视化平台,应用于大数据的可视化和互动操作。 为此,根据“先进实用、稳定可靠”的原则设计本大数据处理平台及可视化平台。 1.2 文档范围 大数据的处理,包括ETL、分析、可视化、使用。 1.3 读者对象 管理人员、开发人员 1.4 参考文献 1.5 术语与缩写解释

2 系统概述 大数据集成分析平台,分为9个层次,主要功能是对多种数据库及网页等数据进行访采集、解析,清洗,整合、ETL,同时编写模型支持后台统计分析算法,提供可信的数据。 设计数据可视化平台 ,分为3个层次,在大数据集成分析平台的基础上实现大实现数据的可视化和互动操作。

3 设计约束 1.系统必须遵循国家软件开发的标准。 2.系统用java开发,采用开源的中间件。 3.系统必须稳定可靠,性能高,满足每天千万次的访问。 4.保证数据的成功抽取、转换、分析,实现高可信和高可用。

综合前置系统架构分析

综合前置系统架构分析 摘要: 银行综合前置系统介于外围各业务子系统与银行业务核心系统之间,是银行各种交易渠道的汇总和整合。它通过集中实现不同业务子系统间的协议转换、报文转换、交易路由、安全管理等功能,取代银行种类繁多的前置系统,以达到整合银行IT投资的软硬件资源,简化应用开发与维护目的。 一、系统综述 综合前置系统平台担负着与一系列终端渠道、各种主机系统和第三方系统间的信息处理工作。 主机:指部署在总行数据核心生产系统主机,如账务系统主机,借记卡系统主机等。 渠道:指银行客户在银行使用的各类交易手里终端系统,如柜台终端、自助取款机、电话银行等终端系统。 第三方:指与银行业务有联系的外单位的信息系统,如人行、移动、券商等信息系统。 二、背景介绍 页:1 银行业务可以简单地划分为资产业务、负债业务和中间业务。目前银行之间的竞争焦点是中间业务,中间业务是近年来在银行盈利的重心。 现代商业银行要扩张中间业务空间,开拓新兴服务手段,需要业务与技术密切结合。随着服务品种的增多,服务范围的扩大,用以提供支持的技术系统也日益庞杂,银行技术人员的维护工作量也随之急剧上升。由于竞争剧烈,导致商业银行的很多业务系统在缺乏统一规划的情形下匆匆上马,虽然能够满足一时之需,却使得整个系统架构日渐混乱,导致系统的可靠程度下降,维护和开发新业务的越来越复杂。在银行的机房,经常可以看到各种前置系统(POS、ATM、金卡、呼叫中心、网上银行、银证通、各种代理业务)充斥其间,除了设备需要重复投入,还需要占用技术开发人员大量的精力进行维护和排除故障甚至需要进行辅助的业务,对新业务的开展是十分不利的。 在这种情况下,综合应用前置系统(GAPS即General Application Preposed System,简称大前置系统)就应运而生了。大前置系统是各种交易发起渠道集中、统一的中间接入系统,把各种终端设备的前置系统和外围系统与银行业务主机系统分离,在大前置上集中实现到相关的不同业务子系统的交易路由,是银行开展一般业务是交易发起终端和后台帐务主机间的枢纽控制主机。 以各类外围、外部系统的接入和业务交易(尤其是中间业务交易)处理为重点,建构一个稳定、安全、高性能的业务控制系统。为实现业务发展需要,系统

计算机系统结构发展历程及未来展望

计算机系统结构发展历程及未来展望 一、计算机体系结构 什么是体系结构 经典的关于“计算机体系结构(computer Architecture)”的定义是1964年C.M.Amdahl在介绍IBM360系统时提出的,其具体描述为“计算机体系结构是程序员所看到的计算机的属性,即概念性结构与功能特性” 。 按照计算机系统的多级层次结构,不同级程序员所看到的计算机具有不同的属性。一般来说,低级机器的属性对于高层机器程序员基本是透明的,通常所说的计算机体系结构主要指机器语言级机器的系统结构。计算机体系结构就是适当地组织在一起的一系列系统元素的集合,这些系统元素互相配合、相互协作,通过对信息的处理而完成预先定义的目标。通常包含的系统元素有:计算机软件、计算机硬件、人员、数据库、文档和过程。其中,软件是程序、数据库和相关文档的集合,用于实现所需要的逻辑方法、过程或控制;硬件是提供计算能力的电子设备和提供外部世界功能的电子机械设备(例如传感器、马达、水泵等);人员是硬件和软件的用户和操作者;数据库是通过软件访问的大型的、有组织的信息集合;文档是描述系统使用方法的手册、表格、图形及其他描述性信息;过程是一系列步骤,它们定义了每个系统元素的特定使用方法或系统驻留的过程性语境。 体系结构原理 计算机体系结构解决的是计算机系统在总体上、功能上需要解决的问题,它和计算机组成、计算机实现是不同的概念。一种体系结构可能有多种组成,一种组成也可能有多种物理实现。 计算机系统结构的逻辑实现,包括机器内部数据流和控制流的组成以及逻辑设计等。其目标是合理地把各种部件、设备组成计算机,以实现特定的系统结构,同时满足所希望达到的性能价格比。一般而言,计算机组成研究的范围包括:确定数据通路的宽度、确定各种操作对功能部件的共享程度、确定专用的功能部件、确定功能部件的并行度、设计缓冲和排队策略、设计控制机构和确定采用何种可靠技术等。计算机组成的物理实现。包括处理机、主存等部件的物理结构,器件的集成度和速度,器件、模块、插件、底板的划分与连接,专用器件的设计,信号传输技术,电源、冷却及装配等技术以及相关的制造工艺和技术。 主要研究内容 1·机内数据表示:硬件能直接辨识和操作的数据类型和格式 2·寻址方式:最小可寻址单位、寻址方式的种类、地址运算 3·寄存器组织:操作寄存器、变址寄存器、控制寄存器及专用寄存器的定义、数量和使用规则 4·指令系统:机器指令的操作类型、格式、指令间排序和控制机构 5·存储系统:最小编址单位、编址方式、主存容量、最大可编址空间 6·中断机构:中断类型、中断级别,以及中断响应方式等

关于大数据架构与关键技术

4大数据参考架构和关键技术 4.1大数据参考架构 大数据作为一种新兴技术,目前尚未形成完善、达成共识的技术标准体系。本章结合NIST 和JTC1/SC32的研究成果,结合我们对大数据的理解和分析,提出了大数据参考架构(见图5)。 图5 大数据参考架构图 大数据参考架构总体上可以概括为“一个概念体系,二个价值链维度”。“一个概念体系”是指它为大数据参考架构中使用的概念提供了一个构件层级分类体系,即“角色—活动—功能组件”,用于描述参考架构中的逻辑构件及其关系;“二个价值链维度”分别为“IT价值链”和“信息价值链”,其中“IT价值链”反映的是大数据作为一种新兴的数据应用范式对IT技术产生的新需求所带来的价值,“信息价值链”反映的是大数据作为一种数据科学方法论对数据到知识的处理过程中所实现的信息流价值。这些内涵在大数据参考模型图中得到了体现。 大数据参考架构是一个通用的大数据系统概念模型。它表示了通用的、技术无关的大数据系统的逻辑功能构件及构件之间的互操作接口,可以作为开发各种具体类型大数据应用系统架构的通用技术参考框架。其目标是建立一个开放的大数据技术参考架构,使系统工程师、数据科学家、软件开发人员、数据架构师和高级决策者,能够在可以互操作的大数据生态系统中制定一个解决方案,解决由各种大数据特征融合而带来的需要使用多种方法的问题。它提供了一个通用的大数据应用系统框架,支持各种商业环境,包括紧密集成的企业系统和松散耦合的垂直行业,有助于理解大数据系统如何补充并有别于已有的分析、商业智能、数据库等传统的数据应用系统。

大数据参考架构采用构件层级结构来表达大数据系统的高层概念和通用的构件分类法。从构成上看,大数据参考架构是由一系列在不同概念层级上的逻辑构件组成的。这些逻辑构件被划分为三个层级,从高到低依次为角色、活动和功能组件。最顶层级的逻辑构件是角色,包括系统协调者、数据提供者、大数据应用提供者、大数据框架提供者、数据消费者、安全和隐私、管理。第二层级的逻辑构件是每个角色执行的活动。第三层级的逻辑构件是执行每个活动需要的功能组件。 大数据参考架构图的整体布局按照代表大数据价值链的两个维度来组织,即信息价值链(水平轴)和IT价值链(垂直轴)。在信息价值链维度上,大数据的价值通过数据的收集、预处理、分析、可视化和访问等活动来实现。在IT价值链维度上,大数据价值通过为大数据应用提供存放和运行大数据的网络、基础设施、平台、应用工具以及其他IT服务来实现。大数据应用提供者处在两个维的交叉点上,表明大数据分析及其实施为两个价值链上的大数据利益相关者提供了价值。 五个主要的模型构件代表在每个大数据系统中存在的不同技术角色:系统协调者、数据提供者、大数据应用提供者、大数据框架提供者和数据消费者。另外两个非常重要的模型构件是安全隐私与管理,代表能为大数据系统其他五个主要模型构件提供服务和功能的构件。这两个关键模型构件的功能极其重要,因此也被集成在任何大数据解决方案中。 参考架构可以用于多个大数据系统组成的复杂系统(如堆叠式或链式系统),这样其中一个系统的大数据使用者可以作为另外一个系统的大数据提供者。 参考架构逻辑构件之间的关系用箭头表示,包括三类关系:“数据”、“软件”和“服务使用”。“数据”表明在系统主要构件之间流动的数据,可以是实际数值或引用地址。“软件”表明在大数据处理过程中的支撑软件工具。“服务使用”代表软件程序接口。虽然此参考架构主要用于描述大数据实时运行环境,但也可用于配置阶段。大数据系统中涉及的人工协议和人工交互没有被包含在此参考架构中。 (1)系统协调者 系统协调者角色提供系统必须满足的整体要求,包括政策、治理、架构、资源和业务需求,以及为确保系统符合这些需求而进行的监控和审计活动。系统协调者角色的扮演者包括业务领导、咨询师、数据科学家、信息架构师、软件架构师、安全和隐私架构师、网络架构师等。系统协调者定义和整合所需的数据应用活动到运行的垂直系统中。系统协调者通常会涉及到更多具体角色,由一个或多个角色扮演者管理和协调大数据系统的运行。这些角色扮演者可以是人,软件或二者的结合。系统协调者的功能是配置和管理大数据架构的其他组件,来执行一个或多个工作负载。这些由系统协调者管理的工作负载,在较低层可以是把框架组件分配或调配到个别物理或虚拟节点上,在较高层可以是提供一个图形用户界面来支持连接多个应用程序和组件的工作流规范。系统协调者也可以通过管理角色监控工作负载和系统,以确认每个工作负载都达到了特定的服务质量要求,还可能弹性地分配和提供额外的物理或虚拟资源,以满足由变化/激增的数据或用户/交易数量而带来的工作负载需求。 (2)数据提供者 数据提供者角色为大数据系统提供可用的数据。数据提供者角色的扮演者包括企业、公共代理机构、研究人员和科学家、搜索引擎、Web/FTP和其他应用、网络运营商、终端用户等。在一个大数据系统中,数据提供者的活动通常包括采集数据、持久化数据、对敏感信息进行

系统架构分析

论系统功能架构设计院系 专业 学号 姓名 成绩

摘要 当今,以信息科学技术为先导的社会变革,全面推动着社会的发展,当代社会进入了以网络信息为中心的信息时代。建立以计算机技术、网络技术、现代数据库技术为基础的现代多层人事管理信息系统,不仅是建立现代化企业的需要,也是发展的需要。文章从J2EE技术出发,对Struts、Spring和Hibemate框架进行了分析。Struts是一个MVC模式的框它将业务代码与视图代码分离开,有效的优化了系统结构,提高了系统的扩展性。Spring是一种轻量级的容器,依赖注入动态的使系统各组件间达到松散结合,同时能够很好的兼容各种框架。Hibemate是一个对象/关系数据库映射工具,提供了Java类到数据表之间的映射,实现了对象与数据库关系之间的交互,使系统具有良好的性能和移植性。 关键词:架构、多层分级、struts、Spring、Hibemate

系统功能架构分析与设计 1.系统分层结构应用及MVC框架开发简介 我们在做着表面上看似是对于各种不同应用的开发,其实背后所对应的架 构设计都是相对稳定的。在一个好的架构下编程,不仅对于开发人员是一件赏 心悦目的事情,更重要的是软件能够表现出一个健康的姿态;而架构设计的不 合理,不仅让系统开发人员受苦受难,软件本身的生命周期更是受到严重威胁。 信息系统功能部分一般采用多层架构,是在MVC框架概念上发展而来的, 最适合B/S及C/S程序的模板。而B/S是随着Internet技巧的兴起,对C/S结构的一种变化或者改良的结构。在这种结构下,用户工作界面是通过WWW浏览 器来实现,极少部分事务逻辑在前端实现,但是主要事务逻辑在服务器端实现,形成所谓三层结构,即表现层、业务逻辑层、数据持久层。其中,表现层:包含代码、用户交互GUI、数据验证,这层用于向客户端用户提供GUI交互,它允许用 户在显示系统中输入和编辑数据,同时,系统提供数据验证功能。这样就大大简 化了客户端电脑载荷,减轻了系统保护与升级的成本和工作量,降低了用户的 总体成本。同时也被广泛地应用到工具软件中,成为应用程序的构成基础。MVC把系统的组成分解成模型、视图、控制三个核心组成,三者的分离使得一 个模型可以具有多个显示视图。MVC具有设计清晰,易于扩展,运用可分布的 特点,使得前台后台的数据控制和表现能力彼此分离,加快开发进程及产品推 向市场的时间。 2.SSH开发框架的引入 SSH为Struts+Spring+Hibemate的一个集成框架,是目前比较流行的一种Web应用程序开源框架。集成SSH框架的系统从职责上分为四层:表示层、业 务逻辑层、数据持久层和域模块层,以帮助开发人员在短期内搭建结构清晰、 可复用性好、维护方便的Web应用程序。其中使用Struts作为系统的整体基础框架,充当MVC里的Controller层,在Struts框架的模型部分,利用Hibemate框架对持久层提供支持,业务层用Spring支持。具体做法是:用面 向对象的分析方法根据需求提出一些模型,将这些模型实现为基本的Java对象,

Web应用系统架构演进过程

1 系统架构演化历程 -- 初始阶段架构 初始阶段的小型系统,其特征表现为应用程序、数据库、文件等所有的资源都部署在一台服务器上,我们通俗称为LAMP架构。 特征: 应用程序、数据库、文件等所有的资源都在一台服务器上。 描述: 通常服务器操作系统使用Linux,应用程序使用PHP开发,然后部署在Apache上,数据库使用MySQL,汇集各种免费开源软件以及一台廉价服务器就可以开始系统的发展之路了。 2 系统架构演化历程 -- 应用服务和数据服务分离

好景不长,发现随着系统访问量的增加,Web应用服务器器的压力在高峰期会上升到比较高,这个时候开始考虑增加一台Web应用服务器提供系统的访问效率。 特征: 应用程序、数据库、文件分别部署在独立的资源上。 描述: 数据量增加,单台服务器性能及存储空间不足,需要将应用和数据分离,并发处理能力和数据存储空间得到了很大改善。 3 系统架构演化历程 -- 使用缓存改善性能标题

特征: 数据库中访问较集中的一小部分数据存储在缓存服务器中,减少数据库的访问次数,降低数据库的访问压力。 描述: 1. 系统访问特点遵循二八定律,即80%的业务访问集中在20%的数据上; 2. 缓存分为本地缓存和远程分布式缓存,本地缓存访问速度更快但缓存数据量有限,同时存在与应用程序争用内存的情况。 4 系统架构演化历程 -- 使用应用服务器集群

在对应用系统做完分库分表工作后,数据库上的压力已经降到比较低了,又开始过着每天看着访问量暴增的幸福生活了,突然有一天,发现系统的访问又开始有变慢的趋势了,这个时候首先查看数据库,压力一切正常,之后查看Web Server,发现Apache阻塞了很多的请求,而应用服务器对每个请求也是比较快的,发现问题是由于请求数太高导致需要排队等待,响应速度变慢。 特征: 多台服务器通过负载均衡同时向外部提供服务,解决单台服务器处理能力和存储空间上限的问题。 描述: 1. 使用集群是系统解决高并发、海量数据问题的常用手段。 2. 通过向集群中追加资源,提升系统的并发处理能力,使得服务器的负载压力不再成为整个系统的瓶颈。 5 系统架构演化历程 -- 数据库读写分离

大数据分析系统架构之探讨

一、Hadoop生态圈: (3) Hadoop (3) HBase (5) Hive (5) Apache Pig: (6) Impala: (6) Flume: (6) Sqoop: (7) Chukwa: (7) Mahout: (8) Hama: (8) Giraph: (8) Storm: (8) ZooKeeper: (8) Ambari: (8) Oozie: (8) Cloudera Hue: (9) 二、Spark生态圈: (9) Spark: (9) Spark SQL: (10) Spark Streaming: (11) MLLib: (12) GraphX : (12) SparkR : (13) Tachyon: (14) Mesos: (15) Yarn: (15) BlinkDB : (16) 三、结构化数据生态圈: (16)

OLAP (17) HANA (17) Spark与Hadoop的对比 (18) Spark与Hadoop的结合 (18) Spark的适用场景 (18) 案例: (19)

大数据分析系统架构之探讨 前言: 对于大数据平台,本人也没实际实践过,所以,做为一个初学者的身份与大家探索这个问题,如有欠妥之处,请多多包涵! 首先,先让我们来看看大数据平台架构的集装箱里可有哪些零件。 一、Hadoop生态圈: 数据计算平台: Hadoop Hadoop是Apache软件基金会所开发的并行计算框架与分布式文件系统。最核心的模块包括Hadoop Common、HDFS与MapReduce。HDFS是Hadoop分布式文件系统(Hadoop Distributed File Sys tem)的缩写,为分布式计算存储提供了底层支持。采用Java语言开发,可以部署在多种普通的廉价机器上,以集群处理数量积达到大型主机处理性能。HDFS采用master/slave架构。一个HDFS集群包含一个单

各种系统架构图与详细说明

各种系统架构图与详细说明 2012.07.30

1.1.共享平台逻辑架构设计 如上图所示为本次共享资源平台逻辑架构图,上图整体展现说明包括以下几个方面: 1 应用系统建设 本次项目的一项重点就是实现原有应用系统的全面升级以及新的应用系统的开发,从而建立行业的全面的应用系统架构群。整体应用系统通过SOA面向服务管理架构模式实现应用组件的有效整合,完成应用系统的统一化管理与维护。 2 应用资源采集 整体应用系统资源统一分为两类,具体包括结构化资源和非机构化资源。本次项目就要实现对这两类资源的有效采集和管理。对于非结构化资源,我们将通过相应的资源采集工具完成数据的统一管理与维护。对于结构化资源,我们将通过全面的接口管理体系进行相应资源采集模板的搭建,采集后的数据经过有效的资源审核和分析处理后进入到数据交换平台进行有效管理。 3 数据分析与展现

采集完成的数据将通过有效的资源分析管理机制实现资源的有效管理与展现,具体包括了对资源的查询、分析、统计、汇总、报表、预测、决策等功能模块的搭建。 4 数据的应用 最终数据将通过内外网门户对外进行发布,相关人员包括局内各个部门人员、区各委办局、用人单位以及广大公众将可以通过不同的权限登录不同门户进行相关资源的查询,从而有效提升了我局整体应用服务质量。 综上,我们对本次项目整体逻辑架构进行了有效的构建,下面我们将从技术角度对相关架构进行描述。 1.2.技术架构设计

如上图对本次项目整体技术架构进行了设计,从上图我们可以看出,本次项目整体建设内容应当包含了相关体系架构的搭建、应用功能完善可开发、应用资源全面共享与管理。下面我们将分别进行说明。 1.3.整体架构设计 上述两节,我们对共享平台整体逻辑架构以及项目搭建整体技术架构进行了分别的设计说明,通过上述设计,我们对整体项目的架构图进行了归纳如下: 综上,我们对整体应用系统架构图进行了设计,下面我们将分别进行说明。

很详细的系统架构图

很详细的系统架构图 --专业推荐 2013.11.7 1.1.共享平台逻辑架构设计 1.2. 如上图所示为本次共享资源平台逻辑架构图,上图整体展现说明包括以下几个方面: 1 应用系统建设 本次项目的一项重点就是实现原有应用系统的全面升级以及新的应用系统的开发,从而建立行业的全面的应用系统架构群。整体应用系统通过SOA面向服务管理架构模式实现应用组件的有效整合,完成应用系统的统一化管理与维护。 2 应用资源采集 整体应用系统资源统一分为两类,具体包括结构化资源和非机构化资源。本次项目就要实现对这两类资源的有效采集和管理。对于非结构化资源,我们将通过相应的资源采集工具完成数据的统一管理与维护。对于结构化资源,我们将通过全面的接口管理体系进行相应资源采集模板的搭建,采集后的数据经过有效的资源审核和分析处理后进入到数据交换平台进行有效管理。 3 数据分析与展现 采集完成的数据将通过有效的资源分析管理机制实现资源的有效管理与展现,具体包括了对资源的查询、分析、统计、汇总、报表、预测、决策等功能模块的搭建。 4 数据的应用 最终数据将通过内外网门户对外进行发布,相关人员包括局内各个部门人员、区各委办局、用人单位以及广大公众将可以通过不同的权限登录不同门户进行相关资源的查询,从而有效提升了我局整体应用服务质量。 综上,我们对本次项目整体逻辑架构进行了有效的构建,下面我们将从技术角度对相关架构进行描述。 1.3.技术架构设计 如上图对本次项目整体技术架构进行了设计,从上图我们可以看出,本次项目整体建设内容应当包含了相关体系架构的搭建、应用功能完善可开发、应用资源全面共享与管理。下面我们将分别进行说明。 1.4.整体架构设计 上述两节,我们对共享平台整体逻辑架构以及项目搭建整体技术架构进行了分别的设计说明,

软件架构-案例分析

票务系统架构案例分析?10.1 ATAM方法表述

?10.2 商业动机的表述 ?10.3 构架的表述 ?10.4 质量属性效用树 ?10.5 质量场景的构架分析 ?10.6 对系统构架的再分析 ?10.7 评审结论 10.1 ATAM方法表述 (1) 概述 ATAM(Architecture Tradeoff Analysis Method): SEI提出的一种软件构架评估方法。ATAM评估方法的主 要目的: 1) 提炼出软件质量属性需求的精确描述;

2) 提炼出构架设计决策的精确描述; 3) 评估这些构架设计决策,并判定其是否令人满意的实现了这些质量需求。 ATAM评估方法: 并非把每个可以量化的质量属性都进行详尽的分析,而是使众多的风险承担者(包括经理、开发人员、测试人员、用户、客户等等)都参与进来,由此而达到上述目标的。 ATAM是一种挖掘潜在风险,降低或者缓和现有风险的软件构架评估方法。因此,以下三点是评估中要特别注重的:风险、敏感点和权衡点。 (2) 构架涉众 ·普通用户 ·用户管理员

·票务管理员 ·开发人员 ·测试人员 (3) 评估步骤 ATAM主要分以下几个步骤: 1)ATAM描述; 2)商业动机表述; 3)软件构架表述;4) 确定构架方式; 5)生成效用树; 6)分析构架方式; 7)确定场景及其优先级; 8)进一步分析构架方式; 9)得出结论。

10.2 商业动机的描述 项目经理从开发组织和客户角度,来表述票务系统的商业目标,综合如下: ?从开发组织角度:开发一个模块性强、实时高效、界面良好、与外部其他系统兼容良好的系统,这使得开发组织能够把整个产品或某个模块卖给其他客户,同时由于良好的界面和业务处理效率而受市场欢迎。 ?从客户角度:系统容易操作,可维护性好、系统稳定、可以及时准确的处理用户的在线订票或查询业务。根据上述目标,质量属性可以划分为两类:高优先级质量属性: 1)性能 2)安全性 3)易用性

一线互联网智能推荐系统架构演进

一线互联网智能推荐系统架构演进 作者:fisherman,时任推荐部门推荐系统负责人,负责推荐部门的架构设计及相关研发工作。Davidxiaozhi,时任推荐部门推荐系统架构师,负责推荐系统的架构设计和系统升级。来自:《决战618:探秘京东技术取胜之道》零,题记在电商领域,推荐的价值在于挖掘用户潜在购买需求,缩短用户到商品的距离,提升用户的购物体验。 京东推荐的演进史是绚丽多彩的。京东的推荐起步于2012年,当时的推荐产品甚至是基于规则匹配做的。整个推荐产品线组合就像一个个松散的原始部落一样,部落与部落之前没有任何工程、算法的交集。2013年,国内大数据时代到来,一方面如果做的事情与大数据不沾边,都显得自己水平不够,另外一方面京东业务在这一年开始飞速发展,所以传统的方式已经跟不上业务的发展了,为此推荐团队专门设计了新的推荐系统。随着业务的快速发展以及移动互联网的到来,多屏(京东App、京东PC商城、M站、微信手Q等)互通,推荐类型从传统的商品推荐,逐步扩展到其他类型的推荐,如活动、分类、优惠券、楼层、入口图、文章、清单、好货等。个性化推荐业务需求比较强烈,基于大数据和个性化推荐算法,实现向不同用户展示不同内容的效果。为此,团队于2015年底再次升级推荐系统。2016年618期间,个

性化推荐大放异彩,特别是团队开创的“智能卖场”,实现了 活动会场的个性化分发,不仅带来GMV的明显提升,也大幅降低了人工成本,大大提高了流量效率和用户体验,从而达到商家和用户双赢,此产品获得了2016年度的集团优秀 产品。为了更好地支撑多种个性化场景推荐业务,推荐系统一直在迭代优化升级,未来将朝着“满屏皆智能推荐”的方向 发展。一、推荐产品用户从产生购买意向,到经历购买决策,直至最后下单的整个过程,在任何一个购物链路上的节点,推荐产品都能在一定程度上帮助用户决策。1.1、推荐产品发展过程推荐产品发展历程主要经历了几个阶段(图1),由简单的关联推荐过程到个性化推荐,逐步过渡到场景智能推荐。从相关、相似的产品推荐过渡到多特征、多维度、用户实时行为、结合用户场景进行的全方位智能推荐。图1 推荐产品发展历程1.2、多屏多类型产品形态多类型主要指推荐类 型覆盖到多种类型,如商品、活动、分类、优惠券、楼层、入口图、文章、清单、好货等。在移动互联时代,多屏场景非常普遍,整合用户在多屏的信息,能使个性化推荐更精准。多屏整合的背后技术是通过前端埋点,用户行为触发埋点事件,通过点击流系统进行多屏的行为信息收集。这些行为数据通过实时流计算平台来计算用户的兴趣偏好,从而根据用户兴趣偏好对推荐结果进行重排序,达到个性化推荐的效果。京东多屏终端如图2所示。图2 京东多屏终端二、推荐系

基于大数据的舆情分析系统架构

基于大数据的舆情分析系统架构 前言 互联网的飞速发展促进了很多新媒体的发展,不论是知名的大V,明星还是围观群众都可以通过手机在微博,朋友圈或者点评网站上发表状态,分享自己的所见所想,使得“人人都有了麦克风”。不论是热点新闻还是娱乐八卦,传播速度远超我们的想象。可以在短短数分钟内,有数万计转发,数百万的阅读。如此海量的信息可以得到爆炸式的传播,如何能够实时的把握民情并作出对应的处理对很多企业来说都是至关重要的。大数据时代,除了媒体信息以外,商品在各类电商平台的订单量,用户的购买评论也都对后续的消费者产生很大的影响。商家的产品设计者需要汇总统计和分析各类平台的数据做为依据,决定后续的产品发展,公司的公关和市场部门也需要根据舆情作出相应的及时处理,而这一切也意味着传统的舆情系统升级成为大数据舆情采集和分析系统。 分析完舆情场景后,我们再来具体细化看下大数据舆情系统,对我们的数据存储和计算系统提出哪些需求: ?海量原始数据的实时入库:为了实现一整套舆情系统,需要有上游原始输出的采集,也就是爬虫系统。爬虫需要采集各类门户,自媒体的网页内容。在抓取前需要去重,抓取后还需要分析提取,例如进行子网页的抓取。 ?原始网页数据的处理:不论是主流门户还是自媒体的网页信息,抓取后我们需要做一定的数据提取,把原始的网页内容转化为结构化数据,例如文章的标题,摘要等,如果是商品点评类消息也需要提取有效的点评。 ?结构化数据的舆情分析:当各类原始输出变成结构化的数据后,我们需要有一个实时的计算产品把各类输出做合理的分类,进一步对分类后的内容进行情感打标。根据业务的需求这里可能会产生不同的输出,例如品牌当下是否有热点话题,舆情影响力分析,转播路径分析,参与用户统计和画像,舆论情感分析或者是否有重大预警。

(完整版)很详细的系统架构图-强烈推荐

很详细的系统架构图--专业推荐 2013.11.7

1.1.共享平台逻辑架构设计 如上图所示为本次共享资源平台逻辑架构图,上图整体展现说明包括以下几个方面: 1 应用系统建设 本次项目的一项重点就是实现原有应用系统的全面升级以及新的应用系统的开发,从而建立行业的全面的应用系统架构群。整体应用系统通过SOA面向服务管理架构模式实现应用组件的有效整合,完成应用系统的统一化管理与维护。 2 应用资源采集 整体应用系统资源统一分为两类,具体包括结构化资源和非机构化资源。本次项目就要实现对这两类资源的有效采集和管理。对于非结构化资源,我们将通过相应的资源采集工具完成数据的统一管理与维护。对于结构化资源,我们将通过全面的接口管理体系进行相应资源采集模板的搭建,采集后的数据经过有效的资源审核和分析处理后进入到数据交换平台进行有效管理。 3 数据分析与展现 采集完成的数据将通过有效的资源分析管理机制实现资源的有效管理与展现,具体包括了对资源的查询、分析、统计、汇总、报表、预测、决策等功能模块的搭建。 4 数据的应用 最终数据将通过内外网门户对外进行发布,相关人员包括局内各个部门人员、区各委办局、用人单位以及广大公众将可以通过不同的权限登录不同门户进行相关资源的查询,从而有效提升了我局整体应用服务质量。 综上,我们对本次项目整体逻辑架构进行了有效的构建,下面我们将从技术角度对相

关架构进行描述。 1.2.技术架构设计 如上图对本次项目整体技术架构进行了设计,从上图我们可以看出,本次项目整体建设内容应当包含了相关体系架构的搭建、应用功能完善可开发、应用资源全面共享与管理。下面我们将分别进行说明。 1.3.整体架构设计 上述两节,我们对共享平台整体逻辑架构以及项目搭建整体技术架构进行了分别的设计说明,通过上述设计,我们对整体项目的架构图进行了归纳如下:

很详细的系统架构图-强烈推荐

很详细的系统架构图 专业推荐 2013.11.7

1.1.共享平台逻辑架构设计 如上图所示为本次共享资源平台逻辑架构图,上图整体展现说明包括以下几个方面: 1 应用系统建设 本次项目的一项重点就是实现原有应用系统的全面升级以及新的应用系统的开发,从而建立行业的全面的应用系统架构群。整体应用系统通过SOA面向服务管理架构模式实现应用组件的有效整合,完成应用系统的统一化管理与维护。 2 应用资源采集 整体应用系统资源统一分为两类,具体包括结构化资源和非机构化资源。本次项目就要实现对这两类资源的有效采集和管理。对于非结构化资源,我们将通过相应的资源采集工具完成数据的统一管理与维护。对于结构化资源,我们将通过全面的接口管理体系进行相应资源采集模板的搭建,采集后的数据经过有效的资源审核和分析处理后进入到数据交换平台进行有效管理。 3 数据分析与展现 采集完成的数据将通过有效的资源分析管理机制实现资源的有效管理与展现,具体包括了对资源的查询、分析、统计、汇总、报表、预测、决策等功能模块的搭建。 4 数据的应用 最终数据将通过内外网门户对外进行发布,相关人员包括局内各个部门人员、区各委办局、用人单位以及广大公众将可以通过不同的权限登录不同门户进行相关资源的查询,从而有效提升了我局整体应用服务质量。

综上,我们对本次项目整体逻辑架构进行了有效的构建,下面我们将从技术角度对相关架构进行描述。 1.2.技术架构设计 如上图对本次项目整体技术架构进行了设计,从上图我们可以看出,本次项目整体建设内容应当包含了相关体系架构的搭建、应用功能完善可开发、应用资源全面共享与管理。下面我们将分别进行说明。 1.3.整体架构设计 上述两节,我们对共享平台整体逻辑架构以及项目搭建整体技术架构进行了分别的设计说明,通过上述设计,我们对整体项目的架构图进行了归纳如下:

几种典型的商业智能(BI)系统架构分析

几种典型的商业智能(BI)系统架构分析 1、简单的BI架构这是目前比较常用的商务智能架构,所有的数据集中管理,集中分析,最大的优点是容易管理和部署,系统结构简单,容易维护,适用于小型商务智能系统。缺点是对于跨地域部署比较困难,数据实时性差,可扩展性差。 2、联合的BI架构(Federated BI Architecture)这种架构比较符合实际的需求,能够集成自定义的数据仓库,外包的数据仓库,架构化的数据仓库,非架构化的数据仓库,分析系统等。应用于多数据仓库的集成和管理。特点是适用于加速time-to-market ,需要高层力量的驱动。成功关键因素:共享一致的的重要的Metrics度量和维度;需要提供统一的标准,拥有企业级的ETL工具和集成的元数据;需要贯穿于整个团队的沟通。联合的BI架构包括:集中逆向商务智能架构,分布逆向商务智能架构,集中顺序商务智能架构,分布顺序商务智能架构及混合架构等。 2、1 集中逆向BI架构(Centralized Upstream BI Architecture)·通常用于中小组织·需要良好的保管者的沟通·需要高级执行者买进·受限于逆向成功惯例(成功的变化是与任何单一实体的进行尝试是成反比的) 2、2 分布式逆向BI架构(Distributed Upstream BI Architecture)·中小组织和大型组织都适用·是大多数从下

至上注重实效表现的逼近系统·更多的考虑多数人意见·更多的限制于大多数人意见·实施团队需要良好的沟通 2、3 集中式的顺序BI架构(Centralized Downstream BI Architecture)·适用于长期数据仓库项目·用于紧密配合多管道的在巨大组织中到处存在的DW/DM系统·经常目标设定为特殊功能组织或行政中心·需要高层在所有的拥有者进行决策·需要为已有系统在实施团队和支持团队建进行良好的沟通 2、4 分布式顺序BI架构(Distributed Downstream BI Architecture)·适用于大型多元化组织·容易适应各种不同的冲突·容易转换到不同的环境·需要为已有系统在实施团队和支持团队间进行良好的沟通 2、5 混合型BI架构(Hybrid BI Architecture)·比任何理想化模型更接近现实情况·更适应自然的联盟·元数据集成更具有挑战性

大数据 技术架构解析

大数据技术架构解析 作者:匿名出处:论坛2016-01-22 20:46 大数据数量庞大,格式多样化。大量数据由家庭、制造工厂和办公场所的各种设备、互联网事务交易、社交网络的活动、自动化传感器、移动设备以及科研仪器等生成。它的爆炸式增长已超出了传统IT基础架构的处理能力,给企业和社会带来严峻的数据管理问题。因此必须开发新的数据架构,围绕“数据收集、数据管理、数据分析、知识形成、智慧行动”的全过程,开发使用这些数据,释放出更多数据的隐藏价值。 一、大数据建设思路 1)数据的获得 大数据产生的根本原因在于感知式系统的广泛使用。随着技术的发展,人们已经有能力制造极其微小的带有处理功能的传感器,并开始将这些设备广泛的布置于社会的各个角落,通过这些设备来对整个社会的运转进行监控。这些设备会源源不断的产生新数据,这种数据的产生方式是自动的。因此在数据收集方面,要对来自网络包括物联网、社交网络和机构信息系统的数据附上时空标志,去伪存

真,尽可能收集异源甚至是异构的数据,必要时还可与历史数据对照,多角度验证数据的全面性和可信性。 2)数据的汇集和存储 数据只有不断流动和充分共享,才有生命力。应在各专用数据库建设的基础上,通过数据集成,实现各级各类信息系统的数据交换和数据共享。数据存储要达到低成本、低能耗、高可靠性目标,通常要用到冗余配置、分布化和云计算技术,在存储时要按照一定规则对数据进行分类,通过过滤和去重,减少存储量,同时加入便于日后检索的标签。 3)数据的管理

4)数据的分析

5)大数据的价值:决策支持系统

大数据的神奇之处就是通过对过去和现在的数据进行分析,它能够精确预测未来;通过对组织内部的和外部的数据整合,它能够洞察事物之间的相关关系;通过对海量数据的挖掘,它能够代替人脑,承担起企业和社会管理的职责。 6)数据的使用

银行综合前置解决方案

银行综合前置解决方案 概述 在银行的业务系统中,前置层负责差异转换、服务整合和控制、业务流程化组装等处理。由于前置系统的建设,一般是伴随具体业务开展,逐步完成,引发了没有整体规划、运行维护复杂、各种资源不易共享、变化频繁等问题;而外系统的各种接口、安全要求不同,使接口调试工作风险大;对于业务流程组合创新的需求,涉及多项目组,沟通、协调较困难。 近年来,随着客户服务渠道不断增加,业务上要求集中、节约化和精细化管理,各行开始建设综合前置,希望形成统一、集中的服务整合点,为客户提供一致、全面的体验流程。

综合前置系统的实现,应以功能组合为体,渠道控制为用,统筹行内系统和外部系统的功能和信息,智能化识别客户,形成银行独特的组合服务能力。 我公司推出的综合前置解决方案,使用总线技术,完成渠道、服务集成;遵循SOA理念,规范服务和发布服务;具备产品定义和组合功能,按渠道、功能、价格、客户、外部系统等角度,多维组装,形成可营销的业务产品。 方案具备功能完善、管理便捷、模型化复用、扩展快速、7x24小时不间断服务等特点,开发人员可以借鉴和复用成熟业务模型,系统运行维护人员可以随时随地了解系统运行情况并快速排除故障,业务人员可以方便的设计出针对不同客户的个性化服务并获得需要的分析报表。

方案篇 应用模式 与渠道系统、核心系统一起,形成粗粒度的MVC结构业务系统;构筑行内系统的信息总线,行外系统的统一接入点;专注于控制层的集中管理和分配调度功能;快速实现业务要求的,渠道、客户、业务流程等方面的各种个性化控制处理。

业务功能 渠道整合系统,实现柜台、呼叫中心、网银、手机银行、短信银行、自助终端、外系统直联等渠道接入。 支付结算业务系统,实现银联、大小额、财税库行、同城交换、现金管理、电子票据、国际结算、SWIFT报文处理。 中间业务系统,实现联机和脱机代理业务、银保、银税、财政非税、社保、银期转账、资金托管、代保管等业务处理。 控制管理业务系统,实现客户签约、客户理财、客户营销、客户财务管理、业务管理、业务监控、票据影像、反洗钱、身份联网核查等管理业务。

很详细的系统架构图-强烈推荐

很详细的系统架构图 专业推荐 2013.11.7

1.1.共享平台逻辑架构设计 如上图所示为本次共享资源平台逻辑架构图,上图整体展现说明包括以下几个方面: 1 应用系统建设 本次项目的一项重点就是实现原有应用系统的全面升级以及新的应用系统的开发,从而建立行业的全面的应用系统架构群。整体应用系统通过SOA面向服务管理架构模式实现应用组件的有效整合,完成应用系统的统一化管理与维护。 2 应用资源采集 整体应用系统资源统一分为两类,具体包括结构化资源和非机构化资源。本次项目就要实现对这两类资源的有效采集和管理。对于非结构化资源,我们将通过相应的资源采集工具完成数据的统一管理与维护。对于结构化资源,我们将通过全面的接口管理体系进行相应资源采集模板的搭建,采集后的数据经过有效的资源审核和分析处理后进入到数据交换平台进行有效管理。 3 数据分析与展现 采集完成的数据将通过有效的资源分析管理机制实现资源的有效管理与展现,具体包括了对资源的查询、分析、统计、汇总、报表、预测、决策等功能模块的搭建。 4 数据的应用 最终数据将通过内外网门户对外进行发布,相关人员包括局内各个部门人员、区各委办局、用人单位以及广大公众将可以通过不同的权限登录不同门户进行相关资源的查询,从而有效提升了我局整体应用服务质量。 综上,我们对本次项目整体逻辑架构进行了有效的构建,下面我们将从技术角度对相关架

构进行描述。 1.2.技术架构设计 如上图对本次项目整体技术架构进行了设计,从上图我们可以看出,本次项目整体建设内容应当包含了相关体系架构的搭建、应用功能完善可开发、应用资源全面共享与管理。下面我们将分别进行说明。 1.3.整体架构设计 上述两节,我们对共享平台整体逻辑架构以及项目搭建整体技术架构进行了分别的设计说明,通过上述设计,我们对整体项目的架构图进行了归纳如下:

大数据架构的介绍及分析

大数据架构的介绍及分析 数据分析工作虽然隐藏在业务系统背后,但是具有非常重要的作用,数据分析的结果对决策、业务发展有着举足轻重的作用。随着大数据技术的发展,数据挖掘、数据探索等专有名词曝光度越来越高,但是在类似于Hadoop系列的大数据分析系统大行其道之前,数据分析工作已经经历了长足的发展,尤其是以BI 系统为主的数据分析,已经有了非常成熟和稳定的技术方案和生态系统,对于BI 系统来说,大概的架构图如下: 可以看到在BI系统里面,核心的模块是Cube,Cube是一个更高层的业务模型抽象,在Cube之上可以进行多种操作,例如上钻、下钻、切片等操作。大部分BI系统都基于关系型数据库,关系型数据库使用SQL语句进行操作,但是SQL 在多维操作和分析的表示能力上相对较弱,所以Cube有自己独有的查询语言MDX,MDX表达式具有更强的多维表现能力,所以以Cube为核心的分析系统基本占据着数据统计分析的半壁江山,大多数的数据库服务厂商直接提供了BI套装软件服务,轻易便可搭建出一套Olap分析系统。不过BI的问题也随着时间的推移逐渐显露出来: BI系统更多的以分析业务数据产生的密度高、价值高的结构化数据为主,对于非结构化和半结构化数据的处理非常乏力,例如图片,文本,音频的存储,分析。 由于数据仓库为结构化存储,在数据从其他系统进入数据仓库这个东西,我

们通常叫做ETL过程,ETL动作和业务进行了强绑定,通常需要一个专门的ETL团队去和业务做衔接,决定如何进行数据的清洗和转换。 随着异构数据源的增加,例如如果存在视频,文本,图片等数据源,要解析数据内容进入数据仓库,则需要非常复杂等ETL程序,从而导致ETL变得过于庞大和臃肿。 当数据量过大的时候,性能会成为瓶颈,在TB/PB级别的数据量上表现出明显的吃力。 数据库的范式等约束规则,着力于解决数据冗余的问题,是为了保障数据的一致性,但是对于数据仓库来说,我们并不需要对数据做修改和一致性的保障,原则上来说数据仓库的原始数据都是只读的,所以这些约束反而会成为影响性能的因素。 ETL动作对数据的预先假设和处理,导致机器学习部分获取到的数据为假设后的数据,因此效果不理想。例如如果需要使用数据仓库进行异常数据的挖掘,则在数据入库经过ETL的时候就需要明确定义需要提取的特征数据,否则无法结构化入库,然而大多数情况是需要基于异构数据才能提取出特征。 在一系列的问题下,以Hadoop体系为首的大数据分析平台逐渐表现出优异性,围绕Hadoop体系的生态圈也不断的变大,对于Hadoop系统来说,从根本上解决了传统数据仓库的瓶颈的问题,但是也带来一系列的问题:从数据仓库升级到大数据架构,是不具备平滑演进的,基本等于推翻重做。 大数据下的分布式存储强调数据的只读性质,所以类似于Hive,HDFS 这些存储方式都不支持update,HDFS的write操作也不支持并行,这些特性导致其具有一定的局限性。 基于大数据架构的数据分析平台侧重于从以下几个维度去解决传统数据仓库做数据分析面临的瓶颈: 分布式计算:分布式计算的思路是让多个节点并行计算,并且强调数据本地性,尽可能的减少数据的传输,例如Spark通过RDD的形式来表现数据的计算逻辑,可以在RDD上做一系列的优化,来减少数据的传输。

相关文档
相关文档 最新文档