文档库 最新最全的文档下载
当前位置:文档库 › 数据管理技术的产生和发展

数据管理技术的产生和发展

数据管理技术的产生和发展
数据管理技术的产生和发展

数据管理技术的产生和发展

摘要:随着计算机技术的发展,特别是在计算机软件.硬件与网络技术发展的前提下,人们的数据处理要求不断提高,在此情况下,数据管理技术也不断改进。数据库技术是计算机科学技术中发展最快的领域之一,也是应用最广的技术之一,它成为计算机信息系统与应用系统的核心技术和重要基础。

关键字:人工管理、文件系统、数据库系统。

数据管理的水平是和计算机硬件、软件的发展相适应的,是随着计算机技术的发展人们的数据管理技术经历了三个阶段的发展:人工管理阶段;文件系统阶段;数据库系统阶段。

1.人工管理阶段:

20世纪50年代中期以前,计算机主要用于科学计算。硬件方面,计算机的外存只有磁带、卡片、纸带,没有磁盘等直接存取的存储设备,存储量非常小;软件方面,没有操作系统,没有高级语言,数据处理的方式是批处理,也即机器一次处理一批数据,直到运算完成为止,然后才能进行另外一批数据的处理,中间不能被打断,原因是此时的外存如磁带、卡片等只能顺序输入。

人工管理阶段的数据具有以下的几个特点。

(1)数据不保存。由于当时计算机主要用于科学计算,数据保存上并不做特别要求,只是在计算某一个课题时将数据输入,用完就退出,对数据不作保存,有时对系统软件也是这样。

(2)数据不具有独立。数据是作为输入程序的组成部分,即程序和数据是一个不可分隔的整体,数据和程序同时提供给计算机运算使用。对数据进行管理,就像现在的操作系统可以以目录、文件的形式管理数据。程序员不仅要知道数据的逻辑结构,也要规定数据的物理结构,程序员对存储结构,存取方法及输入输出的格式有绝对的控制权,要修改数据必须修改程序。要对100组数据进行同样的运算,就要给计算机输入100个独立的程序,因为数据无法独立存在。

(3)数据不共享。数据是面向应用的,一组数据对应一个程序。不同应用的数据之间是相互独立、彼此无关的,即使两个不同应用涉及到相同的数据,也必须各自定义,无法相互利用,互相参照。数据不但高度冗余,而且不能共享。

(4)由应用程序管理数据:数据没有专门的软件进行管理,需要应用程序自己进行管理,应用程序中要规定数据的逻辑结构和设计物理结构(包括存储结构、存取方法、输入\输出方式等)。因此程序员负担很重。

综上所说,所以有人也称这一数据管理阶段为无管理阶段。

2.文件系统阶段:

20世纪50年代后期到60年代中期,数据管理发展到文件系统阶段。此时的计算机不仅用于科学计算,还大量用于管理。外存储器有了磁盘等直接存取的存储设备。在软件方面,操作系统中已有了专门的管理数据软件,称为文件系统。从处理方式上讲,不仅有了文件批处理,而且能够联机实时处理,联机实时处理是指在需要的时候随时从存储设备中查询、修改或更新,因为操作系统的文件管理功能提供了这种可能。这一时期的特点是:(1)数据长期保留。数据可以长期保留在外存上反复处理,即可以经常有查询、修改和删除等操作。所以计算机大量用于数据处理。

(2)数据的独立性。由于有了操作系统,利用文件系统进行专门的数据管理,使得程序员可以集中精力在算法设计上,而不必过多地考虑细节。比如要保存数据时,只需给出保存指令,而不必所有的程序员都还要精心设计一套程序,控制计算机物理地实现保存数据。在读取数据时,只要给出文件名,而不必知道文件的具体的存放地址。文件的逻辑结构和物理存储结构由系统进行转换,程序与数据有了一定的独立性。数据的改变不一定要引起程序的改变。保存的文件中有100条记录,使用某一个查询程序。当文件中有1000条记录时,仍然使用保留的这一个查询程序。

(3)可以实时处理。由于有了直接存取设备,也有了索引文件、链接存取文件、直接存取文件等,所以既可以采用顺序批处理,也可以采用实时处理方式。数据的存取以记录为基本单位。

上述各点都比第一阶段有了很大的改进。但这种方法仍有很多缺点,主要是:

(1)数据共享性差,冗余度大。当不同的应用程序所需的数据有部分相同时,仍需建立各自的独立数据文件,而不能共享相同的数据。因此,数据冗余大,空间浪费严重。并且相同的数据重复存放,各自管理,当相同部分的数据需要修改时比较麻烦,稍有不慎,就造成数据的不一致。比如,学籍管理需要建立包括学生的姓名、班级、学号等数据的文件。这种逻辑结构和学生成绩管理所需的数据结构是不同的。在学生成绩管理系统中,进行学生成绩排列和统计,程序需要建立自己的文件,除了特有的语文成绩、数学成绩、平均成绩等数据外,还要有姓名、班级等与学籍管理系统的数据文件相同的数据。数据冗余是显而易见的,

此外当有学生转学走或转来时,两个文件都要修改。否则,就会出现有某个学生的成绩,却没有该学生的学籍的情况,反之亦然。如果系统庞大,则会牵一发而动全身,一个微小的变动引起一连串的变动,利用计算机管理的规模越大,问题就越多。常常发生实际情况是这样,而从计算机中得到的信息却是另一回事的事件。

(2)数据和程序缺乏足够的独立性。文件中的数据是面向特定的应用的,文件之间是孤立的。不能反映现实世界事物之间的内在联系。在上面的学籍文件与成绩文件之间没有任何的联系,计算机无法知道两个文件中的哪两条记录是针对同一个人的。要对系统进行功能的改变是很困难的。如在上面的例于中,要将学籍管理和成绩管理从两个应用合并成一个应用中,则需要修改原来的某一个数据文件的结构,增加新的字段,还需要修改程序,后果就是浪费时间和重复工作。此外,应用程序所用的高级语言的改变,也将影响到文件的数据结构。比如BASIC语言生成的文件,COBOL语言就无法如同是自己的语言生成的文件一样顺利地使用。总之数据和程序之间缺乏足够的独立性是文件系统的一个大问题。

文件管理系统在数据量相当庞大的情况下,已经不能满足需要。美国在60年代进行阿波罗计划的研究。阿波罗飞船由约200万个零部件组成。分散在世界各地制造。为了掌握计划进度及协调工程进展,阿波罗计划的主要合约者罗克威尔(Rockwell)公司曾研制了一个计算机零件管理系统。系统共用了18盘磁带,虽然可以工作,但效率极低,维护困难。18盘磁带中60%是冗余数据。这个系统一度成为实现阿波罗计划的严重障碍。应用的需要推动了技术的发展。文件管理系统面对大量数据时的困境促使人们去研究新的数据管理技术,数据库技术应运而生了!例如,最早的数据库管理系统之一IMS就是上述的罗克威尔公司在实现阿波罗计划中与IBM公司合作开发的,从而保证了阿波罗飞船1969年顺利登月。

3.数据库系统阶段

从20世纪60年代后期开始,数据管理进入数据库系统阶段。这一时期用计算机管理的规模日益庞大,应用越来越广泛,数据量急剧增长,数据要求共享的呼声越来越强。这种共享的含义是多种应用、多种语言互相覆盖地共享数据集合。此时的计算机有了大容量磁盘,计算能力也非常强。硬件价格下降,编制软件和维护软件的费用相对在增加。联机实时处理的要求更多,并开始提出和考虑并行处理。

在这样的背景下,数据管理技术进入数据库系统阶段。

现实世界是复杂的,反映现实世界的各类数据之间必然存在错综复杂的联系。为反映这种复杂的数据结构,让数据资源能为多种应用需要服务,并为多个用户所共享,同时为让

用户能更方便地使用这些数据资源,在计算机科学中,逐渐形成了数据库技术这一独立分支。计算机中的数据及数据的管理统一由数据库系统来完成。

数据库系统的目标是解决数据冗余问题,实现数据独立性,实现数据共享并解决由于数据共享而带来的数据完整性、安全性及并发控制等一系列问题。为实现这一目标,数据库的运行必须有一个软件系统来控制,这个系统软件称为数据库管理系统(Database Management System,DBMS)。数据库管理系统将程序员进一步解脱出来,就像当初操作系统将程序员从直接控制物理读写中解脱出来一样。程序员此时不需要再考虑数据中的数据是不是因为改动而造成不一致,也不用担心由于应用功能的扩充,而导致程序重写,数据结构重新变动。在这一阶段,数据管理具有下面的优点:

(1)数据结构化:数据结构化石数据库系统与文件系统的根本区别。在文件系统中,相互独立的文件的记录内部是有结构的,传统文件的最简单形式是等长同格式的记录集合。这样就可以节省许多储存空间.

数据的结构化是数据库主要特征之一。这是数据库与文件系统的根本区别。至于这种结构化是如何实现的,则与数据库系统采用的数据模型有关,后面会有较详细的描述。

(2)数据共享性高,冗余度小,易扩充。数据库从整体的观点来看待和描述数据,数据不再是面向某一应用,而是面向整个系统。这样就减小了数据的冗余,节约存储空间,缩短存取时间,避免数据之间的不相容和不一致。对数据库的应用可以很灵活,面向不同的应用,存取相应的数据库的子集。当应用需求改变或增加时,只要重新选择数据子集或者加上一部分数据,便可以满足更多更新的要求,也就是保证了系统的易扩充性。

(3)数据独立性高。数据库提供数据的存储结构与逻辑结构之间的映像或转换功能,使得当数据的物理存储结构改变时,数据的逻辑结构可以不变,从而程序也不用改变。这就是数据与程序的物理独立性。也就是说,程序面向逻辑数据结构,不去考虑物理的数据存放形式。数据库可以保证数据的物理改变不引起逻辑结构的改变。

数据库还提供了数据的总体逻辑结构与某类应用所涉及的局部逻辑结构之间的映像或转换功能。当总体的逻辑结构改变时,局部逻辑结构可以通过这种映像的转换保持不变,从而程序也不用改变。这就是数据与程序的逻辑独立性。举例来讲,在进行学生成绩管理时,姓名等数据来自于数据的学籍部分,成绩来自于数据的成绩部分,经过映像组成局部的学生成绩,由数据库维持这种映像。当总体的逻辑结构改变时,比如学籍和成绩数据的结构发生了变化,数据库为这种改变建立一种新的映像,就可以保证局部数据——学生数据的逻辑结构不变,程序是面向这个局部数据的,所以程序就无需改变。

(4)统一的数据管理和控制功能,包括数据的安全性控制、数据的完整性控制及并发控制、数据库恢复。

数据库是多用户共享的数据资源。对数据库的使用经常是并发的。为保证数据的安全可靠和正确有效,数据库管理系统必须提供一定的功能来保证。

数据库的安全性是指防治非法用户的非法使用数据库而提供的保护。比如,不是学校的成员不允许使用学生管理系统,学生允许读取成绩但不允许修改成绩等。

数据的完整性是指数据的正确性和兼容性。数据库管理系统必须保证数据库的数据满足规定的约束条件,常见的有对数据值的约束条件。比如在建立上面的例子中的数据库时,数据库管理系统必须保证输入的成绩值大于0,否则,系统发出警告。

数据的并发控制是多用户共享数据库必须解决的问题。要说明并发操作对数据的影响,必须首先明确,数据库是保存在外存中的数据资源,而用户对数据库的操作是先读入内存操作,修改数据时,是在内存在修改读入的数据复本,然后再将这个复本写回到储存的数据库中,实现物理的改变。

由于数据库的这些特点,它的出现使信息系统的研制从围绕加工数据的程序为中心转变到围绕共享的数据库来进行。便于数据的集中管理,也提高了程序设计和维护的效率。提高了数据的利用率和可靠性。当今的大型信息管理系统均是以数据库为核心的。数据库系统是计算机应用中的一个重要阵地。

参考文献:《数据库原理及应用》(北京邮电大学出版社)

信息管理专业认识

信息需求产生与满足过程的分析 信息管理和信息系统专业已经走过了近半个世纪的历程,其研究范畴逐步扩大,已经取得了一系列研究成果。在信息化社会里,信息及信息资源越来越成为社会发展的决定性力量,日益成为科技、经济、教育社会发展的主导因素。信息管理专业是隶属于管理科学与工程类的专业,是综合运用信息科学、管理科学、系统科学、数学、计算机科学及工程方法解决社会、经济、工程等方面的信息管理问题的一门学科。它是一门实践性较强的专业,为了满足社会信息化和发展的要求,加强对信息管理专业人才的培养研究是必不可少的。 信息只有通过人类的使用才能转化为生产力,因此怎样满足用户的信息需求成为信息管理专业研究的关键,同样,加强学生的信息素质培养也成为了提高人才素质的关键。为了了解更多关于信息管理人才培养方面的知识,我产生了对信息的一些需求,比如:信息管理人才培养的现状、我国信息管理发展的状况和同学对信息管理专业的看法和期望等。 为了解决这些困扰我的问题,我通过查阅资料和上网查询对信息管理专业的现状有了一些初步的了解,发现信息管理专业存在以下主要问题:一、基础建设力量较为薄弱;二、过度强调理论知识;三、研究工作人员的机构和地区的分布极度不平衡;四、课程设置体系不够规范。由于经济、管理是两大类学科,涉及面广,专业知识十分丰富,各专业之间的课程差异大,如何平衡各专业课程在信息管理与信息系统专业中的比重,没有一个明确的结论;五、研究目标以及方向不够明确,学生对该专业的性质、理论体系认识不够清晰;六、绝大部分是对本国信息管理与信息系统的研究,对国外研究很少。 看到这样的情况,我对信息管理专业人才的培养计划更加关注。我通过查阅资料了解到,信管专业的学生培养的核心问题是培养目标的方向性,专业设置的合理性,课程体系设置的科学性三个关键问题,应把信息管理与信息系统专业的人才培养目标定位为以培养行业技术型管理人才为主。 为了使我对培养计划有更加深刻的认识,我上网阅读一些著名教授的文献,我发现这些专业文献里对信息管理人才的培养对很注重以下几个方面:一、信管专业的培养从实践教学中的活动形式出发,可以建立与时俱进的科研组,提高师资水平;二、完备计算机课程的设置,提高学生的技术水平;三、丰富课堂教学

数据管理技术知识点整理

数据管理技术知识点整理 必须保留好和考纲一起保留好 第一章:认识数据管理技术 1.1感受数据管理技术 数据是人类社会的一种重要信息资源,是对现实世界中客观事物的符号化表示。 数据管理是指对数据的收集、分类、组织、编码、存储、查询和维护等活动。 数据管理技术就是指与数据管理活动有关的技术。 数据库技术主要应用于数据密集型应用的领域,这种数据密集型应用主要由以下一些特点:(1)涉及的数据量很大,数据一般需要存放在外存中,内存只能暂时存储很小的一部分。 (2)数据必须长期保留在计算机系统中,不随应用程序运行的结束而消失,如银行系统必须长久的保存储蓄用户的信息。 (3)数据要为多个应用程序所共享,或者要求在一个单位或更大范围内共享。 1.2了解数据管理技术的变迁 (1)人工管理阶段 1、没有专门的软件用来管理数据,管理数据需要依赖应用程序本身来处理。 2、数据和程序是紧密联系,一组数据只能对应一个应用程序,而数据又不能共享。 3、数据通常包含在程序中,不具有独立性,一旦数据的结构发生变化,应用程序就要 作相应的修改。 (2)文件系统阶段 1、数据独立性差 2、数据冗余度大(没用的数据太多) 3、数据的安全性和完整性难以保障。 (3)数据库系统阶段 数据库管理系统:DBMS 数据库:DB 数据库管理系统是对数据库进行管理的通用软件系统,是数据库系统的核心。 数据库管理系统具有三大功能:数据定义 数据操纵 数据库运行控制 数据库管理系统提供两种不同类型的语言: 数据定义语言:定义数据库结构 数据操纵语言:表达数据库的查询和更新 数据库系统与人工管理和文件系统相比的区别: 1、数据结构化。与文件系统的根本区别。 2、数据共享。文件系统基本不能共享。数据库系统可以,且冗余度(没用的东西)

大数据处理常用技术简介

大数据处理常用技术简介 storm,Hbase,hive,sqoop, spark,flume,zookeeper如下 ?Apache Hadoop:是Apache开源组织的一个分布式计算开源框架,提供了一个分布式文件系统子项目(HDFS)和支持MapReduce分布式计算的软件架构。 ?Apache Hive:是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,通过类SQL语句快速实现简单的MapReduce 统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。 ?Apache Pig:是一个基于Hadoop的大规模数据分析工具,它提供的SQL-LIKE语言叫Pig Latin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。 ?Apache HBase:是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。 ?Apache Sqoop:是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。 ?Apache Zookeeper:是一个为分布式应用所设计的分布的、开源的协调服务,它主要是用来解决分布式应用中经常遇到的一些数据管理问题,简化分布式应用协调及其管理的难度,提供高性能的分布式服务?Apache Mahout:是基于Hadoop的机器学习和数据挖掘的一个分布式框架。Mahout用MapReduce实现了部分数据挖掘算法,解决了并行挖掘的问题。 ?Apache Cassandra:是一套开源分布式NoSQL数据库系统。它最初由Facebook开发,用于储存简单格式数据,集Google BigTable的数据模型与Amazon Dynamo的完全分布式的架构于一身 ?Apache Avro:是一个数据序列化系统,设计用于支持数据密集型,大批量数据交换的应用。Avro是新的数据序列化格式与传输工具,将逐步取代Hadoop原有的IPC机制 ?Apache Ambari:是一种基于Web的工具,支持Hadoop集群的供应、管理和监控。 ?Apache Chukwa:是一个开源的用于监控大型分布式系统的数据收集系统,它可以将各种各样类型的数据收集成适合Hadoop 处理的文件保存在HDFS 中供Hadoop 进行各种MapReduce 操作。 ?Apache Hama:是一个基于HDFS的BSP(Bulk Synchronous Parallel)并行计算框架, Hama可用于包括图、矩阵和网络算法在内的大规模、大数据计算。

高中信息技术 感受数据管理技术的应用教案 粤教版选修4

感受数据管理技术的应用 一、案例背景信息 1.模块:数据管理技术(选修四) 2.年级:高中二年级 3.所用教材版本:广东教育出版社 4.学时数:一课时 非上机时间10 分钟,上机操作时间15 分钟,其他活动(如:阅读、讨论、评价、展示、小结等)大约用20 分钟。 5. 设计组成员资料: 姓名性别通信地址QQ号码电子邮箱 王健男株洲北师大附校495931434 Janssen0313@https://www.wendangku.net/doc/1118952025.html, 张喜女株洲县第一中学405384475 Zhangxi086@https://www.wendangku.net/doc/1118952025.html, 易李平女醴陵市第一中学529024569 llyzylp@https://www.wendangku.net/doc/1118952025.html, 汪博男醴陵市第四中学10266775 Wangbo830309@https://www.wendangku.net/doc/1118952025.html, 二、教学设计 教学目标: 1、认识了解数据管理技术及数据库的概念。 2、知道利用数据管理技术能达到什么样的管理效果。 3、实例分析、实践操作感受并理解数据管理技术。 4、激发学生学习本门课的兴趣。 内容分析: 本节课是《数据管理技术》课的开篇,是在《信息技术基础》课的基础上对数据管理知识的进一步认识、拓展与加深。共有两方面的主要内容,一是体验数据管理技术,二是数据管理技术的应用。这节课既要学生了解认识数据库,又要学生理解数据管理技术的一些概念,并且激发学生对数据管理技术的兴趣,为以后的教学打下基础。 教学重点: 认识掌握数据、数据库、数据管理技术的基本概念,体验并认识数据管理技术对人类社会影响,激发学生学习本门课程的兴趣。 教学难点: 让学生了解数据库管理技术的重要性,激发学生学习本门课程的兴趣。 学生分析: 数据管理技术对学生来说既熟悉又陌生,在《信息技术基础》中,学生已经学习了信息资源管理的相关知识,对数据库的一些基础知识都有初步的了解,而且有些同学在上 Internet 网的时候上过类似数据库的网站,或者接触过 Access 数据库,但又比较陌生是因为只见过没有真正去认识,认真的用过、理解过。 教学策略设计: 1.教学方法设计 因为数据管理技术相对来说是比较枯燥的一门课,因此针对学生对象的分析,运用“任务驱动”,“情感引导”,“分层探究”,“分组协作”的教学模式,来达到教学效果的实现。 2.关于教-学流程和教-学活动的设计思路: 激趣导入新课讲授探究、讨论案例分析

管理信息系统发展的历程.

第四站管理信息系统发展的历程 和现代企业信息管理理念 一、管理信息系统的发展历程 二、现代企业管理理念 三、管理以人为本 四、案例及案例导读(见CAI光碟) 欢迎进入本课程的第四站:“管理信息系统的发展历程和现代企业管理理念”。 这一站,我们将概要地向你介绍管理信息系统发展的整个概貌和现代企业管理理念,强调“管理以人为本”。通过这一站的学习,你将对管理信息系统有个总体的认识,了解到任何管理信息系统都只是某一时期管理思想即理念的载体,认识到无论是再先进的技术、再先进的理念,都离不开人的管理,人,才是企业管理中最重要的因素。 一、管理信息系统的发展历程 要了解管理信息系统从产生到现在的发展历程,我们要追溯到1946年。这一年,一项最伟大的发明产生了,这就是第一台计算机的诞生,地点是美国宾夕法尼亚大学。这一时期的计算机主要是用来进行科学计算。 随着计算机技术的发展和应用的需要,计算机的应用逐渐由科学计算发展到过程控制,到1954年美国通用电器公司首次利用计算机计算职工的薪金,计算机就应用到了数据处理领域,这就产生了最早的管理软件,即最简单的信息系统,计算机被用到了企业信息管理之中。自此以后,西方的很多国家开始着手信息系统的开发。到60年代末计算机用于企业信息管理在西方逐步普及。发展到目前计算机在企业信息管理中的应用已从简单的数据处理到了电子商务。 我国计算机用于管理起步较晚,1979年财政部拨款500万在长春第一汽车制造厂实施信息系统的开发是我国计算机用于管理的里程碑。经过二十几年,我国管理信息系统的发展经历了一个与国外管理信息系统发展相似的历程。让我们透过这个梯型图来了解和回顾二十几年来我国管理信息系统发展的概貌。 我国管理信息系统的发展过程可以划分为5代。早期的应用是80年代末期基于DOS平台的单项核算财务软件,主要是工资核算,我们称之为第一代;随着计算机的发展,90年代出现了局域网,管理软件的应用范围由单项的财务核算发展到整个财务核算,包括帐务、工资、成本、材料、报表等,我们称之为第二代;90年代中期,利用核算型财务软件产生的数据进行财务统计、查询,产生了包括全面核算财务的管理型财务软件,我们称之为第三代;随着全球经济的一体化,仅仅实现财务管理信息化已经不能满足企业管理的需要,必须对企业的所有资源进行管理,因此90年代末期全面管理企业资源的企业资源计划软件ERP在国外面世并被引入我国,我们称之为第四代;随着Internet网的发展,企业的竞争已不再是一个企业与一个企业之间的竞争,而是一个企业的供需链与另一个企业的供需链之间的竞争,因此必须加强对供需链上合作伙伴的管理,降低成

数据管理技术样本

信息技术( 选修4) 数据管理技术复习提纲 概要: 信息技术学科模块4——《数据管理技术》, 全书以应用数据管理技术解决问题为主线, 按照”分析问题——设计数据库——建立数据库——使用数据库——管理数据库”这一线索呈现学习内容。全书分五章, 下面介绍第一章至第五章的主要内容: 第一章认识数据管理技术 一、数据管理基本知识 1、数据管理技术的基本概念 数据: 是人类社会的一种重要信息资源, 是对现实世界中客观事物的符号。计算机中的数据分为数值型数据与非数值型数据。 例题: 如商品价格、销售数量等数据是( ) A、数值数据 B、非数值数据 说明: 数据是信息的符号表示或称为载体。即为了表示信息( 抽象概念) , 必须使用某种符号, 这些符号就叫数据, 如字符、图表、图形、图像、声音、视频等都能够称为数据。信息依赖数据来表示, 是数据的内涵, 是对数据语义的解释。 数据管理: 是指对数据的收集、分类、组织、编码、存储、查询和维护等活动。 数据管理技术: 指与数据管理活动有关的技术。

数据库( DB) : 是指按照某种模型组织起来的, 能够被用户或应 用程序共享的数据的集合。 数据库系统( DBS) : 是指采用的数据库技术的完整的计算机系 统。 数据库管理系统( DBMS) : 是能够建立数据库、 维护数据库及管 理数据库的一个开发平台。 数据库应用系统 : 说明: 数据库系统的核心为数据库管理系统, 数据库管理系统的核心为数据库( 或数据) 例题: 下列软件中, 不属于数据库应用系统的是( ) A 、 学籍管理系统 B 、 中考成绩查询系统 C 、 Linux 操作系统 D 、 网络售票系统 例题: 数据库管理系统英文简写是( ) A 、 D B B 、 DBS C 、 DBMS D 、 Access 2、 数据管理技术的变迁 系统软件应用软件数据库系统结构示意图

信息管理与信息系统专业就业形势及发展方向

信息管理与信息系统专业就业形势及发展方向: 21世纪是信息科学技术飞跃发展的时代,信息技术在经济管理领域应用广泛,网络经济的发展对电子商务、金融工程等人才的需求势必增加,随着全球经济一体化形势的发展,信息管理与信息系统专业培养的人才将受到人才市场的青睐。经济全球化和我国加入WTO,IT企业迎来前所未有的发展机遇和压力,这些企业不仅需要计算机软、硬件工程师,网络工程师,通信工程师,更需要信息化建设的复合型开发和管理人才,以便进行企事业和部门的应用系统的开发、维护,进行信息资源的开发利用。 进入新世纪,我国开始了第三步战略目标的奋斗历程,国家提出了“以信息化带动工业化,以工业化促进信息化”的战略举措,提出了我国国家信息化宏伟蓝图。对于这样一个伟大的历史进程,应该而且必须有强有力的学科支持,以便培养数以千万计、几千万计的管理人才、IT人才及其综合型的复合人才。 一、就业前景 毕业后可报考信息管理与信息系统专业及相关专业的研究生;国家和省市各级信息产业、财政和金融部随着信息技术的迅猛发展,信息技术与管理的关系日渐紧密,也日趋融合,信息和信息技术已经并将进一步对经济社会发展产生巨大影响。以管理信息系统规划,开发与管理,信息产业管理,系统仿真与知识管理等内容为主的该研究方向一直是重点研究领域,而且随着我国国民经济和社会信息化进程的加快,研究方向近年来除了在原有领域继续开展研究外,加强了对电子商务和企业管理信息化的研究。 二、毕业生适应的工作领域 主要到国家各级管理部门、工商企业、金融机构、科研单位等部门从事信息系统分析、设计、实施管理和评价等方面的工作。 据最新全国普通高校本科毕业生就业基本情况统计分析,不同行业单位,不同省市地区对专业人才的需求有所不同,下面就是有关详情: 1.机关单位接受本科毕业生数量最多的10种专业是:法学、计算机科学与技术、侦察学、英语、电子信息工程、通信工程、汉语言文学、交通运输、刑事科学技术、会计学等。 2.科研设计单位接受毕业生最多的10种专业是:土木工程、机械设计制造及其自动化、电子信息工程、自动化、计算机科学与技术、建筑学、电器工程及其自动化、通信工程、测控技术与仪器、热能与动力工程。 3. 高等学校接受本科毕业生专业最多的10个专业是:英语、计算机科学与技术、体育教育、法学、临床医学、数学与应用数学、机械设计制造极其自动化、电子信息工程、思想政治教育、会计学。 4. 医疗卫生单位接受本科毕业生最多的10种专业是:临床医学、预防医学、药学、口腔医学,护理学,医学检验、中医学、麻醉学、医学影象学、公共事业管理。 5.金融单位接受本科毕业生最多的10种专业是:金融学、会计学、法学、计算机科学与技术,国际经济与贸易、经济学、信息管理与信息系统、工商管理、财政学、英语。 (注:高校除个别专业如:英语、数学、计算机等热门专业外,已不接收本科学历学生。)

数据管理技术发展的三个阶段

数据管理技术发展的三个阶段 数据管理技术发展的三个阶段 数据管理技术的发展可以大归为三个阶段:人工管理、文件系统和数据库管理系统。 一、人工管理 这一阶段(20世纪50年代中期以前),计算机主要用于科学计算。外部存储器只有磁带、卡片和纸带等还没有磁盘等直接存取存储设备。软件只有汇编语言,尚无数据管理方面的软件。数据处理方式基本是批处理。这个阶段有如下几个特点: 计算机系统不提供对用户数据的管理功能。用户编制程序时,必须全面考虑好相关的数据,包括数据的定义、存储结构以及存取方法等。程序和数据是一个不可分割的整体。数据脱离了程序就无任何存在的价值,数据无独立性。 数据不能共享。不同的程序均有各自的数据,这些数据对不同的程序通常是不相同的,不可共享;即使不同的程序使用了相同的一组数据,这些数据也不能共享,程序中仍然需要各自加人这组数据,谁也不能省略。基于这种数据的不可共享性,必然导致程序与程序之间存在大量的重复数据,浪费了存储空间。 不单独保存数据。基于数据与程序是一个整体,数据只为本程序所使用,数据只有与相应的程序一起保存才有价值,否则就毫无用处。所以,所有程序的数据均不单独保存。

二、文件系统 在这一阶段(20世纪50年代后期至60年代中期)计算机不仅用于科学计算,还利用在信息管理方面。随着数据量的增加,数据的存储、检索和维护问题成为紧迫的需要,数据结构和数据管理技术迅速发展起来。此时,外部存储器已有磁盘、磁鼓等直接存取的存储设备。软件领域出现了操作系统和高级软件。操作系统中的文件系统是专门管理外存的数据管理软件,文件是操作系统管理的重要资源之一。数据处理方式有批处理,也有联机实时处理。这个阶段有如下几个特点: 数据以“文件”形式可长期保存在外部存储器的磁盘上。由于计算机的应用转向信息管理,因此对文件要进行大量的查询、修改和插人等操作。 数据的逻辑结构与物理结构有了区别,但比较简单。程序与数据之间具有“设备独立性”,即程序只需用文件名就可与数据打交道,不必关心数据的物理位置。由操作系统的文件系统提供存取方法(读/写)。 文件组织已多样化。有索引文件、链接文件和直接存取文件等。但文件之间相互独立、缺乏联系。数据之间的联系要通过程序去构造。 数据不再属于某个特定的程序,可以重复使用,即数据面向应用。但是文件结构的设计仍然是基于特定的用途,程序基于特定的物理结构和存取方法,因此程序与数据结构之间的依赖关系并未根本改

大数据关键技术

大数据关键技术 大数据技术,就就是从各种类型得数据中快速获得有价值信息得技术。大数据领域已经涌现出了大量新得技术,它们成为大数据采集、存储、处理与呈现得有力武器. 大数据处理关键技术一般包括:大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘、大数据展现与应用(大数据检索、大数据可视化、大数据应用、大数据安全等)。 一、大数据采集技术 数据就是指通过RFID射频数据、传感器数据、社交网络交互数据及移动互联网数据等方式获得得各种类型得结构化、半结构化(或称之为弱结构化)及非结构化得海量数据,就是大数据知识服务模型得根本.重点要突破分布式高速高可靠数据爬取或采集、高速数据全映像等大数据收集技术;突破高速数据解析、转换与装载等大数据整合技术;设计质量评估模型,开发数据质量技术。 大数据采集一般分为大数据智能感知层:主要包括数据传感体系、网络通信体系、传感适配体系、智能识别体系及软硬件资源接入系统,实现对结构化、半结构化、非结构化得海量数据得智能化识别、定位、跟踪、接入、传输、信号转换、监控、初步处理与管理等。必须着重攻克针对大数据源得智能识别、感知、适配、传输、接入等技术.基础支撑层:提供大数据服务平台所需得虚拟服务器,结构化、半结构化及非结构化数据得数据库及物联网络资源等基础支撑环境。

重点攻克分布式虚拟存储技术,大数据获取、存储、组织、分析与决策操作得可视化接口技术,大数据得网络传输与压缩技术,大数据隐 私保护技术等. 二、大数据预处理技术 主要完成对已接收数据得辨析、抽取、清洗等操作。1)抽取:因获取得数据可能具有多种结构与类型,数据抽取过程可以帮助我们将这些复杂得数据转化为单一得或者便于处理得构型,以达到快速分析处理得目得。2)清洗:对于大数据,并不全就是有价值得,有些数据并不就是我们所关心得内容,而另一些数据则就是完全错误得干扰项,因此要对数据通过过滤“去噪”从而提取出有效数据. 三、大数据存储及管理技术 大数据存储与管理要用存储器把采集到得数据存储起来,建立相 应得数据库,并进行管理与调用。重点解决复杂结构化、半结构化与非结构化大数据管理与处理技术。主要解决大数据得可存储、可表示、可处理、可靠性及有效传输等几个关键问题。开发可靠得分布式文件系统(DFS)、能效优化得存储、计算融入存储、大数据得去冗余及高效低成本得大数据存储技术;突破分布式非关系型大数据管理与处理技术,异构数据得数据融合技术,数据组织技术,研 究大数据建模技术;突破大数据索引技术;突破大数据移动、备份、复制等技术;开发大数据可视化技术. 开发新型数据库技术,数据库分为关系型数据库、非关系型数据库以及数据库缓存系统。其中,非关系型数据库主要指得就是NoSQ

数据管理技术的产生和发展

数据管理技术的产生和发展 摘要:随着计算机技术的发展,特别是在计算机软件.硬件与网络技术发展的前提下,人们的数据处理要求不断提高,在此情况下,数据管理技术也不断改进。数据库技术是计算机科学技术中发展最快的领域之一,也是应用最广的技术之一,它成为计算机信息系统与应用系统的核心技术和重要基础。 关键字:人工管理、文件系统、数据库系统。 数据管理的水平是和计算机硬件、软件的发展相适应的,是随着计算机技术的发展人们的数据管理技术经历了三个阶段的发展:人工管理阶段;文件系统阶段;数据库系统阶段。 1.人工管理阶段: 20世纪50年代中期以前,计算机主要用于科学计算。硬件方面,计算机的外存只有磁带、卡片、纸带,没有磁盘等直接存取的存储设备,存储量非常小;软件方面,没有操作系统,没有高级语言,数据处理的方式是批处理,也即机器一次处理一批数据,直到运算完成为止,然后才能进行另外一批数据的处理,中间不能被打断,原因是此时的外存如磁带、卡片等只能顺序输入。 人工管理阶段的数据具有以下的几个特点。 (1)数据不保存。由于当时计算机主要用于科学计算,数据保存上并不做特别要求,只是在计算某一个课题时将数据输入,用完就退出,对数据不作保存,有时对系统软件也是这样。 (2)数据不具有独立。数据是作为输入程序的组成部分,即程序和数据是一个不可分隔的整体,数据和程序同时提供给计算机运算使用。对数据进行管理,就像现在的操作系统可以以目录、文件的形式管理数据。程序员不仅要知道数据的逻辑结构,也要规定数据的物理结构,程序员对存储结构,存取方法及输入输出的格式有绝对的控制权,要修改数据必须修改程序。要对100组数据进行同样的运算,就要给计算机输入100个独立的程序,因为数据无法独立存在。 (3)数据不共享。数据是面向应用的,一组数据对应一个程序。不同应用的数据之间是相互独立、彼此无关的,即使两个不同应用涉及到相同的数据,也必须各自定义,无法相互利用,互相参照。数据不但高度冗余,而且不能共享。

新型大数据管理技术-复旦大学研究生院

新型大数据管理技术 Introduction to Data Science 随着大数据时代的到来,数据分析技术是近年来计算机领域非常活跃的领域。出现了很多新型的研究领域,本课程将邀请目前活跃在数据管理领域前沿的三位高水平研究人员授课,分别对目前最新的研究领域进行介绍,并结合这些新型的研究问题通过研讨的形式提高对学生从事科学研究的能力。 课程将围绕大数据分析的最新技术组织课程内容。具体内容包括: ●大规模图数据管理技术。汪卫教授将结合目前大规模中文知识图谱的构建与 管理展开介绍,并着重结合一些实际应用包括深度阅读、智慧城市等介绍大规模图数据的管理技术 ●移动环境下的大数据管理技术。 Hui Xiong教授将对移动环境下的大数据管 理技术,包括移动大数据管理的挑战、计算模型、不确定性数据管理等内容进行系统介绍。 ●大数据下的查询处理技术。 Zhiyuan Chen 教授将对大数据管理以及大数据 环境下SQL查询的处理技术进行系统介绍。 三位主讲人具有很强的研究能力。他们在VLDB、SIGMOD、SIGKDD、TODS等数据库领域的顶级国际学术会议和期刊上发表了大量的论文。相信通过参与该课程有助于学生了解数据管理和分析领域面临的主要问题,提高他们的研究能力。 教师风采 复旦大学计算机科学技术学院副院长,1998年获复旦大学 计算机科学博士学位,长期从事数据库与数据挖掘领域的 研究和开发工作。在SIGKDD、SIGMOD、VLDB、WWW、 ICDE、IEEE TKDE、JIIS等国际权威的学术会议上发表论 文近20余篇,引用500余次。作为主要参与者获得上海市 科技进步一等奖一项,二等奖两项,三等奖一项,并或高等教育国家级教学成果二等奖一次。2005入选教育部“新世纪优秀人才支持计划”。目前担任中国计算机学会数据库专业委员会委员,上海市计算机学会理事,数据库专业委员会副主任。并担任ICDM、SIAM DM、CIKM等重要国际学术会议的程序委员。

01第一章信息管理的产生与发展

---------------------------------------------------------------最新资料推荐------------------------------------------------------ 01第一章信息管理的产生与发展网上辅导(一)第一章信息管理的产生与发展南京电大杨文珊【本章主要内容】本章主要讨论现代信息管理的基本内涵。 从信息管理活动发展三个历史时期的不同特点出发,揭示现代信息管理的基本面貌;从信息管理的起源、信息管理的层次、信息管理的模式等角度剖析现代信息管理的内容;从国内外两个方面分别论述信息管理思想的发展历史分期、信息管理的主要代表思想等。 最后,讨论知识管理的概念、要素及技术类型及其与信息管理的关系。 【教学媒体】《信息管理概论》: 第一章信息管理的产生与发展。 【复习与思考】 1.古代、近代和现代时期的信息管理活动各有何特点? 2.现代信息管理起源于哪些领域?它是如何从这些领域中发展出来的? 3.现代信息管理从认识层次上可以划分为哪几个层次?各有何特点? 4.现代信息管理有几种模式?各有何特点? 5.国外对信息管理思想的历史发展分期的认识有何共同点?有何不同? 6.国内对信息管理思想的历史发展分期与国外对这个问题的认识有何区别? 7.国外对信息管理思想的表法有几种代表现点?它们之间有何关系? 8.国内对信息管理思想的认识是否受到了国外的影响?与国外学者的认识有何区别? 9.简述知识管理的概念。 10.知识管理技术的分类思想主要有哪些? 11.信息管理与知识 1 / 3

管理之间的关系如何? 12.对某单位信息管理活动的组织与管理进行调查,明确其信息管理活动有何特点,与其组织结构和组织性质有何关系。 【基本术语与学习要点】第一节信息管理的发展历程【学习要点】一、古代信息管理活动时期(一)我国古代时期信息管理活动的概况语言是表达人类思想以及人类认识自然与改造自然结果的重要载体。 在文字发明以前,人们使用声音语言来传递信息、表达情感。 在古代时期,我国的信息管理活动在全世界是最具有代表性的。 如将分类管理的思想应用到信息管理活动之中,编制出了经世济用的四部分类法,即以经、史、子、集为主的分类体系。 古代封建社会的信息资源主要以文献信息资源为主,信息管理对象以纸制手抄本以及印刷本为主,信息管理重心集中于藏。 古代的图书整理活动到清朝达到极致,其代表性事件就是《四库全书》的出版。 其倡导的信息管理方法四部分类法成为人类信息管理方法与思想的精华而永载史册。 (二)我国古代时期信息管理活动的特点 1、没有形成社会规模; 2、社会信息资源数量有限,并且以纸制手抄本及印刷本为主; 3、信息存储的方式是封闭的、私有化的; 4、信息管理的手段与方法以手工为主,创造出了适用于当时的信息资源状况的独特方法,并且将此方法与学术研究及其方法结合在一起; 5、文献资源的所...

大数据管理及应用专业

大数据管理及应用专业 招生简章 东凌经济管理学院计划于2019年面向全校2018级本科生招收30名“大数据管理与应用”专业学生。 专业介绍 大数据已成为推动经济转型发展的新动力、提升国家竞争优势的新机遇。国家大数据产业“十三五”规划正在启动实施阶段,社会对大数据人才的需求日益迫切。为主动适应国家和经济社会发展需要,东凌经济管理学院开设“大数据管理及应用”本科专业方向班,现面向全校一年级学生招生,欢迎大家报名。 大数据管理及应用专业依托北京科技大学东凌经济管理学院的管理科学与工程系建设。管理科学与工程系是北京市重点学科,具有悠久的办学历史和强大的师资队伍。目前拥有专职教师26人,其中教授9人,副教授10人,讲师7人,95%的教师具有博士学位,80%的教师具有海外学习或进修经历。教师中1人入选爱思唯尔(Elsevier)2014年中国高被引学者榜单,2人获评教育部新世纪优秀人才,2人获评北京市教学名师。近5年获得国家自然科学基金项目14项,其中包含重点项目2项,发表学术论文300余篇。此外,该系拥有一流的实验和应用实践平台和基础设施技术保障。包括200核高性能服务器,300T的专用网络存储设备,万兆交换机以及云存储管理平台,可以同时为2个班60名学生开展大数据管理与应用相关实验。

大数据管理和应用专业将突出大数据科学专业特色,注重人才培养的科学性、前瞻性。本专业毕业生应熟练掌握大数据平台技术(设计、部署、管理、运维等)、大数据分析技术(统计计算、人工智能、数据挖掘等方法)、大数据开发与应用等基本工程能力,具备创新意识和合作精神,具有较高的分析问题、解决问题、自主学习以及创新能力。毕业生适合在信息技术企业、企事业单位、科研机构、高等院校的信息技术或管理部门,以大数据采集与预处理、存储与管理、分析与挖掘、展现与应用等为主要内容,从事商务数据分析学科的科研、教学、管理等工作。 大数据是国家重点支持的发展领域,具有良好的就业前景和用武之地。欢迎有志于国家大数据事业发展的同学踊跃选报大数据管理及应用专业!

第一章-信息管理的产生与发展 (1)

网上辅导(一) 第一章信息管理的产生与发展 南京电大杨文珊 【本章主要内容】 本章主要讨论现代信息管理的基本内涵。从信息管理活动发展三个历史时期的不同特点出发,揭示现代信息管理的基本面貌;从信息管理的起源、信息管理的层次、信息管理的模式等角度剖析现代信息管理的内容;从国内外两个方面分别论述信息管理思想的发展历史分期、信息管理的主要代表思想等。最后,讨论知识管理的概念、要素及技术类型及其与信息管理的关系。 【教学媒体】 《信息管理概论》:第一章信息管理的产生与发展。 【复习与思考】 1.古代、近代和现代时期的信息管理活动各有何特点? 2.现代信息管理起源于哪些领域?它是如何从这些领域中发展出来的? 3.现代信息管理从认识层次上可以划分为哪几个层次?各有何特点? 4.现代信息管理有几种模式?各有何特点? 5.国外对信息管理思想的历史发展分期的认识有何共同点?有何不同? 6.国内对信息管理思想的历史发展分期与国外对这个问题的认识有何区别? 7.国外对信息管理思想的表法有几种代表现点?它们之间有何关系? 8.国内对信息管理思想的认识是否受到了国外的影响?与国外学者的认识有何区别? 9.简述知识管理的概念。 10.知识管理技术的分类思想主要有哪些? 11.信息管理与知识管理之间的关系如何? 12.对某单位信息管理活动的组织与管理进行调查,明确其信息管理活动有何特点,与其组织结构和组织性质有何关系。

【基本术语与学习要点】 第一节信息管理的发展历程 【学习要点】 一、古代信息管理活动时期 (一)我国古代时期信息管理活动的概况 语言是表达人类思想以及人类认识自然与改造自然结果的重要载体。在文字发明以前,人们使用声音语言来传递信息、表达情感。 在古代时期,我国的信息管理活动在全世界是最具有代表性的。如将分类管理的思想应用到信息管理活动之中,编制出了经世济用的“四部分类法”,即以经、史、子、集为主的分类体系。 古代封建社会的信息资源主要以文献信息资源为主,信息管理对象以纸制手抄本以及印刷本为主,信息管理重心集中于“藏”。 古代的图书整理活动到清朝达到极致,其代表性事件就是《四库全书》的出版。其倡导的信息管理方法——四部分类法成为人类信息管理方法与思想的精华而永载史册。 (二)我国古代时期信息管理活动的特点 1、没有形成社会规模; 2、社会信息资源数量有限,并且以纸制手抄本及印刷本为主; 3、信息存储的方式是封闭的、私有化的; 4、信息管理的手段与方法以手工为主,创造出了适用于当时的信息资源状况的独特方法,并且将此方法与学术研究及其方法结合在一起; 5、文献资源的所有者或者是官方指定的官员是信息管理的主体,由其完成信息管理活动,执行信息管理行为。 二、近代信息管理活动时期 (一)我国近代时期信息管理活动的概况 这一时期,社会信息资源因为科学技术的发展而快速增加,特别是新型的机器印刷的出现加快了文献信息的生产,使得社会信息积聚不断加快;信息载体仍旧以纸制印刷品为主;信息传递的渠道增多,信息交流的广度和深度大大加强。 对于信息保存来说,藏书楼式的藏书制度被彻底打破。在以图书文献为主要的社会信息资源的社会背景下,保存文献信息资源的责任义无反顾地选择了这一时期新型的信息存储机构——图书馆。 图书馆的出现是人类文明的一大进步,它不同于传统的藏书楼,它将信息管理的目的从简单的“藏”发展到“藏”与“用”相结合。 图书馆的出现促进了信息的管理思想及管理手段与方法的变化。联合国教科文组织认定的图书馆四项职能是:保存人类文化遗产,社会信息流整序,传递情报,启发民智的文

大数据处理常用技术有哪些

大数据处理常用技术有哪些? storm,hbase,hive,sqoop.spark,flume,zookeeper如下 ?Apache Hadoop:是Apache开源组织的一个分布式计算开源框架,提供了一个分布式文件系统子项目(HDFS)和支持MapReduce分布式计算的软件架构。 ?Apache Hive:是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,通过类SQL语句快速实现简单的MapReduce 统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。 ?Apache Pig:是一个基于Hadoop的大规模数据分析工具,它提供的SQL-LIKE语言叫Pig Latin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。 ?Apache HBase:是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。 ?Apache Sqoop:是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。 ?Apache Zookeeper:是一个为分布式应用所设计的分布的、开源的协调服务,它主要是用来解决分布式应用中经常遇到的一些数据管理问题,简化分布式应用协调及其管理的难度,提供高性能的分布式服务?Apache Mahout:是基于Hadoop的机器学习和数据挖掘的一个分布式框架。Mahout用MapReduce实现了部分数据挖掘算法,解决了并行挖掘的问题。 ?Apache Cassandra:是一套开源分布式NoSQL数据库系统。它最初由Facebook开发,用于储存简单格式数据,集Google BigTable的数据模型与Amazon Dynamo的完全分布式的架构于一身 ?Apache Avro:是一个数据序列化系统,设计用于支持数据密集型,大批量数据交换的应用。Avro是新的数据序列化格式与传输工具,将逐步取代Hadoop原有的IPC机制 ?Apache Ambari:是一种基于Web的工具,支持Hadoop集群的供应、管理和监控。 ?Apache Chukwa:是一个开源的用于监控大型分布式系统的数据收集系统,它可以将各种各样类型的数据收集成适合Hadoop 处理的文件保存在HDFS 中供Hadoop 进行各种MapReduce 操作。 ?Apache Hama:是一个基于HDFS的BSP(Bulk Synchronous Parallel)并行计算框架, Hama可用于包括图、矩阵和网络算法在内的大规模、大数据计算。

现代数据管理技术综述

2009年第12期 福建电脑 现代数据管理技术综述 李强,郁芸,华东,张炯 (南京医科大学数学与计算机教研室江苏南京210029) 【摘要】:随着计算机软硬件技术、通讯技术以及信息处理技术的飞速发展与广泛应用,现代数据管理技术也在加速发展。本文由当前数据库技术所面临新的问题和主要挑战谈起,从XML数据管理、数据仓库与联机分析处理等几个方面,对现代数据管理技术的研究现状和发展趋势进行评述。 【关键词】:Web;XML;数据管理;数据仓库;OLAP 1、引言 数据库技术的发展以采用的数据模型(Data Model)可划分为:第一代,层次(hierarchica1)数据库&网状(network)数据库--6O年代;第二代,关系(Relational)数据库--流行的RDBMS有: Oracle,Sybase,Informix,SQL Server,FoxPro等。这些数据库系统有着技术成熟、应用广泛、数据管理能力强(包括存储、检索、修改等)、数据安全程度高、稳定可靠的并发访问机制等特点;第三代,后关系(Post-relational)数据库,改造并扩充了关系数据库,以适应新的应用领域及其应用需求。随着Web的流行,越来越复杂的应用环境以及硬件的飞速发展,动摇了传统数据库的基本前提假设,新一代数据库系统必将应运而生。 何谓数据库系统?归结起来,数据库在数据管理方面具有管理方便、存贮占用空间小、检索速度快、修改效率高、安全性好等优点,但客观上需要用一种应用方式将其丰富的数据有效地发布出来,以消除平台差异、增强语义描述功能、降低环境要求。当前主流的数据库产品都宣布了对XML的支持。XML的最突出的特点就是功能强大又易于使用,它使网页能够容纳更丰富的信息资源。其中元数据管理、语义透明性和自主主体都是XML所独有的概念。而XML对统一结构化语法和半结构化语法的承诺,将有助于把几乎不可能完成的事变成切实可行的。无论如何,XML正在迅速地发展和不断地完善中,前景非常光明。 2、XML数据管理 2.1XML与半结构化数据 2.1.1XML的特点及应用 现在看到的丰富的Web页面很多都是使用HTML制作的,或者通过其他编程语言在运行过程中动态生成的HTML页面。虽然HTML也提供了简单的结构概念,如标题、段落或列表等,但只包含有限的标志集合,不包含元素,也不能为元素指定特殊的属性,HTML不能提供一致的数据结构,这样的一个结果就是HTML提供的各种信息虽然是人可阅读的,但不是机器可阅读的,例如搜索引擎的查询结果经常不能令人满意。XML是指可扩展标记语言,是一种可以用来定制其他语言的语言,web设计者可以根据自己的需要来构造自己需要的数据结构。XML具有跨平台,与语言和应用程序无关、自描述等特点,任何一种可以识别文本语言和XML意义的应用程序都可以用它来传递和接收数据。 XML的应用是非常广泛的。在以数据为中心的应用中, XML能够为各种应用程序之间的数据交换提供一种通用的数据结构。在以文档为中心的应用中,XML为各种应用程序操作同一文档提供了可能。VRML已经被修改为基于XML的一种语言,这意味着理解XML的浏览器可以显示VRML。VRML也使用XML来描述图像,而不是以向量或数学的格式来描述,从而可以用许多不同的方式对图像进行动态的分类和处理。可以看出,XML是未来所有分布式解决方案中的重要部分,它在未来的数据和信息管理、电子商务以及网络数据交换等方面具有不可替代的作用。 2.1.2半结构化数据 Web可以看成是一个巨大的、异构的、分布的、由超文本链接所构成的文档集合,对这样的数据进行查询与传统的数据库查询有着明显的不同。首先,已有的数据模型不能很好地适应网上数据的特点,需要引入新的数据模型;其次,由于Internet上的许多数据经常缺乏明确的模式,存在不规则的数据形式,这就给查询和处理提出了新的挑战,由此人们提出了半结构化数据的概念。半结构化数据是介于严格结构化的数据(如关系数据库中的数据)和完全无结构的数据(如声音、图像文件)之间的数据形式。 半结构化数据存在一定的结构,但这些结构或者没有被清晰地描述,或者是经常动态变化的,或者过于复杂而不能被传统的模式定义来表现。半结构化数据的模式与传统的关系和面向对象数据的模式不同,主要有如下一些特点:①对半结构化数据来说,是先有数据,后有模式;②半结构化数据的模式是用于描述数据的结构信息,而不是对数据结构进行强制性的约束;③半结构化数据的模式是非精确的,它可能只描述数据的一部分结构,也可能根据数据处理的不同阶段的视角而不同;④半结构化数据的模式可能规模很大,甚至超过源数据的规模,而且会由于数据的不断更新而处于动态的变化过程中,没有强制性的模式限制,使得半结构化数据具有很大的灵活性,能够满足网络这种复杂分布环境的需要,但是也给数据的处理带来了很大的困难。 2.2XML模式研究 XML图是一种非常灵活的数据模型,它能很容易地构造关系数据和面向对象数据。从另一方面看,数据(包括不规则数据)与XML图能很方便地直接映射。XML图非常适合描述分布式的、多态的、动态改变的Web数据。在OEM模型与XML图之间的对应非常简单:OEM对象对应于XML中的元素(element), OEM中的子对象关系反映了XML中的元素嵌套。它们之间的不同之处在于XML的子元素可能是有序的,以及XML元素可能包含(属性,值)列表。为了支持XML的这两个特点,在OEM模型中引入如下三个新特性:有序的子对象、(属性、值)列表以及参照边(reference edge),就可以成为支持XML的数据模型了。 为了更有效地进行XML数据的处理,学者们提出了许多关于XML模式描述的方案,如文档类型定义DTD等。在XML模式的研究领域,还有待于进一步的研究与交流,以形成功能完备、形式简洁并被一致认同的规范。 2.3XML查询和XML数据索引 XML数据与关系数据和面向对象数据不同,因此传统的查询语言不能直接用于XML。然而XML数据模型与近年来数据库界研究的半结构化数据模型很相似,一些处于研究阶段的查询语言已被设计并运用于半结构化数据,在此基础上提出了一种基于XML的查询语言,称为XML-QL,它用查询的方式可实现XML数据的检索、转换和集成。 XML-QL是在查询语言(UnQL和StruQL)基础上设计的,它能对XML文档进行查询、构造、转换和集成。XML-QL集中了查询语言技术和XML语法格式,它通过说明路径表达式和模式的方式,给出XML数据的提取条件(WHERE子句)。同时XML-QL 52

相关文档