文档库 最新最全的文档下载
当前位置:文档库 › 大数据时代医学专业图书馆面临的挑战与对策

大数据时代医学专业图书馆面临的挑战与对策

大数据时代医学专业图书馆面临的挑战与对策
大数据时代医学专业图书馆面临的挑战与对策

DOI :10.3969/j.issn.1671-3982.2014.01.001

·述评·

专家简介陈

锐(1963-),女,解放军医学图书馆馆长、研究馆员、军事医学科学院硕士生导师。现任中国图书馆学

会第八届常务理事,

中国图书馆学会第八届学术研究委员会用户研究与服务专业委员会委员,中国图书馆学会医院图书馆委员会第六届主任委员,中国图书馆学会专业图书馆委员会第六届理事会常务理事,中华医学会医学信息学分会第六届委员会副主任委员兼秘书长,中华预防医学会预防情报专业委员会第四届委员会常务委员,世界中医药学会联合会信息专业委员会第一届理事会常务理事,中国中西医结合学会第一届信息专业委员会常务委员,中国白求恩精神研究会副会长,第四届中国老年学会老年医学会副主任委员,第九届全军医学科学技术委员会卫生信息学委员会副主任委员,第九届全军医学图书情报分委会主任委员,军队院校图书情报协作联席会委员,《中华医学图书情报杂志》第五届编辑委员会主任委员,《图书情报工作》第十届编辑委员会委员,《中国中医药图书情报杂志》第一届编辑委员会委员,《新华书目报·图书馆报》编辑委员会编委,《中华医学科研管理杂志》编辑委员会特邀编委等。

大数据时代医学专业图书馆面临的挑战与对策

锐,冯占英

[摘要]介绍了大数据的概念与涵义,调研了大数据在生物医学领域中的应用,分析了医学专业图书馆的职能变化,指出了医学专业图书馆在数据、硬件设施、软件技术、人才和服务范式等方面面临的挑战,从发展对外合作联盟、共建云计算中心和对内加强机构、人才建设和转变服务模式等方面提出了医学专业图书馆应对大数据的策略。[关键词]大数据;医学图书馆;数据策管;服务范式[中图分类号]

G250;R-58[文献标志码]

A [文章编号]

1671-3982(2014)01-0002-05Challenges to medical libraries in big data era and their countermeasures CHEN Rui ,FENG Zhan -ying

(Medical Library of Chinese PLA ,Beijing 100039,China )

Abstract ]After a description of the concept and meaning of big data ,the application of big data in biomedical field was investigated ,the changes in medical library functions were analyzed ,the challenges to medical libraries were pointed in terms of their data ,hardware infrastructures ,software technologies ,talents and service modes ,and how to respond to the big data in medical libraries was proposed from the aspects of strengthening the external collabo-ration ,co -developing cloud computing center ,intensifying the construction of related organizations and talents ,and changing the service modes.

[Key words ]Big data ;Medical library ;Data management ;Service mode ;

[作者单位]解放军医学图书馆,北京100039

大数据及其分析,将会在未来十年内改变几乎每一个行业的业务功能

[1]

。美国奥巴马政府于

2012年2月推出的《大数据研究与发展计划》将大

数据上升为国家发展战略,加速了大数据的发展进程。图书馆作为重要的信息中心和情报机构,与数据发展息息相关。国内外已有不少学者对大数据时代下的图书馆进行了研究,如张文彦

[2]

研究了图书

馆已有的大数据研究实践及可能产生的问题,王天

泥[3]着重探讨了大数据时代下图书馆的知识服务增长点—知识咨询,樊伟红[4]讲述了大数据给图书馆带来的机遇和挑战,Laura G[5]分析了大数据给图书馆员带来的机遇,Andrew[6]探讨了提升图书馆知识发现能力的大数据挖掘。本文基于大数据在生物医学领域的应用,分析了大数据时代医学专业图书馆面临的挑战,并提出了相应的策略。

1大数据的概念与涵义

大数据(big data)目前还没有统一的定义。全球知名咨询公司麦肯锡提出[7],“大数据”为大小超出了典型数据库软件的采集、储存、管理和分析等能力的数据集;维基百科则将“大数据”定义为“所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理,并整理称为帮助企业经营决策积极目的的资讯”[8]。

对大数据的“大”也有不同认识。IBM认为大数据具有“4V”特点,即大量(Volume)、多样(Variety)、高速(Velocity)和精确(Veracity)[9];IDC将“4V”解释为海量的数据规模(Volume)、快速的数据流转和动态的数据体系(Velocity)、多样的数据类型(Variety)和巨大的数据价值(Value)[10]。有一点大家普遍认可,那就是大数据并不仅仅指数据的容量,也涉及数据源的其他特征及从众多数量庞大、种类繁杂的数据中快速获取有用信息。随着大数据应用的不断延伸,大数据的“大”可能会被赋予更多的涵义。

2大数据与医学专业图书馆

2.1大数据对生物医学的影响

生物医学领域的数据种类多、数量大、更新快,具备大数据的典型特征,主要来源于生命科学研究、药物研发、电子病历、临床医疗、健康管理、患者行为和社交网络、科学文献7个方面。生物医学数据正海量递增,如一张CT图像含有150M的数据,一个基因组序列文件大小约为750MB,一个标准的病理图接近5GB。据英特尔全球医疗解决方案架构师吴闻新介绍:“到2020年,医疗数据将增至35ZB,相当于2009年数据量的44倍[11]。”

大数据正深刻影响着生物医学的科研及应用。随着数据的几何增长和数据处理分析技术的发展,数据蕴含的价值越来越大。E-Science环境下,科学研究范式范式转变为以密集型数据为基础进行科学发现的第四范式,科技创新越来越依赖于海量数据的挖掘和再利用。以前执行效率很低或无法进行的临床治疗与健康监控正逐渐走向高效和现实。如Bina平台应用大数据技术在5个小时内就完成了过去需要几天(甚至一周)才能完成的几百人的基因序列分析[12];美国Metropolitan儿科重症病房应用大数据技术研发的临床决策支持系统,使药品不良反应事件数量两个月内减少了40%[13];谷歌2009年已经开始利用大数据预测冬季流感的传播[14];中国中医科学院联合20多家中医院和临床基地正在进行“中医临床科研共享系统”项目研究,采用以数据为导向的临床科研一体化新范式,在保持个体化诊疗正常进行的情况下,通过大数据、全样本,让数据发声,找出“相关关系”,回答“是什么”,从而弥补传统医学难以用精确数据说明的不足,提高中药临床疗效[15];美国Hitype公司用大数据技术分析电子书读者的阅读习惯和爱好,构建知识服务社区实体行为智能分析引擎[16]。

2.2大数据时代下的医学专业图书馆

2.2.1医学专业图书馆的职能变化

大数据对生物医学科研及应用的影响也对医学专业图书馆的服务模式提出了新的时代要求。一是大数据的量大、类多,使得收集数据资源范围越来越广;二是科学研究第四范式推动了科技情报服务范式的转型,科技情报服务正成为一种基于海量数据的知识发现过程和知识分析过程[17];三是开放获取、开放知识及开放创新,呼唤图书馆成为开放知识服务支持平台[18];四是对科研过程的关注推动图书馆实施数据策管(Data Curation)业务,从收集科研成果的机构库建设转型到收集科研数据的知识库建设;五是职能转变为适应用户“弱信息”需求、“战略性阅读”和交互合作学习的数据中心及知识创新的服务机构[19]。2.2.2医学专业图书馆拥有的大数据

目前医学专业图书馆已经初步拥有大数据,主要包括以下四类。一是传统的馆藏数据,主要包括电子图书、电子期刊、会议文献、科技报告等馆藏文献,读者检索主题、下载次数等资源检索利用信息和馆际共享传统数据资源。二是以前忽视的数据资源[20],主要包括从科研项目申请到科学出版整个科研过程数据产生的科学数据集,用户访问记录及个

人信息等。三是新出现的数据资源,主要包括携带语义数据的原始文档、与外部相关资源实现自动链接的文章、添加语义标签的文献等语义出版物[21],各医院和医学研究单位的机构知识库,读者在固定网络和移动网络上资源检索历史、浏览历史、搜索时间以及读者的个人信息、位置信息等历史数据,网络日志、个人博客、微博、社交网络信息等非结构化数据。四是可开放获取的数据资源,主要包括开放学术资源,专利数据库、标准数据库、社会经济数据等国内外政府公开数据。

2.2.3大数据在医学专业图书馆的应用

大数据分析处理技术的成熟与应用,为作为大数据拥有者、分析者和使用者的图书馆提供了新的发展机遇。应用大数据技术对数据进行深度挖掘和向生物医学领域的各种用户提供高附加值的知识服务,是医学专业图书馆提升自身核心竞争力的重要途径。

应用大数据建立各类知识服务系统,如基础和临床医学的知识发现和数据关联系统,科学数据与阅读文献的交互操作系统,促进生物医学信息与科研诊疗相连接;建立新型知识服务引擎、资源及学术搜索引擎、资源与服务推荐引擎、用户知识需求预测引擎、知识服务社区实体行为智能引擎等,提升图书馆的知识服务能力;开展生物医学专业科技情报服务,围绕重点领域进行数据挖掘、科技态势监测、科技趋势预见等决策支撑服务;进行图书馆用户流失分析和价值分析,如通过读者数据和社区网络数据了解用户行为、医院、业务需求、知识能力等,细分人群,提供个性化服务,对资源建设提供建议;建设开放知识服务支持平台,服务大众社会。

3医学专业图书馆面临的挑战

3.1数据资源方面的挑战

数据获取渠道、数据隐私、数据产权和数据质量都是非常重要的问题。从获取渠道上看,医学专业图书馆本身拥有一部分大数据,也可以获取一些开源数据,但是相对于整个生物医学领域来说,大部分数据产生于医院和网络,图书馆拥有的数据仅是冰山一角。如何获取这些数据是一个需要深入思考的问题。从数据隐私上看,医学数据中有相当一部分与个体有关,如何协调并保护个人隐私尤为重要。从数据产权上看,知识产权目前已有成熟的法律法规可以遵循,而一些行为和网络数据的产权归属还有待进一步明确。从数据质量上看,生物医学领域密切涉及个体生命与健康,而一份不正确的数据产生错误结果时还牵扯到责任问题。但无论如何,数据是图书馆生存的最重要基础,更是大数据时代图书馆提高竞争力的核心要素。

3.2硬件设施方面的挑战

数据量及非结构化数据的迅速增加,迫使图书馆不断扩大存储及计算规模,导致图书馆成本急剧上升,而建设一个数据中心所需的投资又超出了单个图书馆的财力范围。尽管云计算的出现使得海量数据的存储与运算得到了解决,但其自身存在的安全等问题依然不能让用户安全放心地使用。

3.3软件技术方面的挑战

数据收集、整理、存储、处理、应用每一个技术环节都影响着大数据分析。目前图书馆主要面临三方面的技术挑战。一是数据的统一表示、融合和元数据标准化。图书馆要通过对海量的异构资源数据进行抽取、映射等一系列处理,形成格式统一、结构清晰、内容丰富的数据,工作量极其巨大,现有的技术不能满足需要,必须借助新的技术手段来跟进数据加工的要求。二是大规模的存储和移动技术。复杂海量的数据对图书馆的数据存储能力提出了更高的要求,大量过时数据的移动技术则又对图书馆的数据管理能力提出了挑战。尽管目前MPP架构(计算分布+存储分布)成为主流,但有相当多的技术瓶颈需要解决。三是数据的分析、挖掘及可视化展示技术。传统的数据挖掘技术对非结构化和半结构化数据显得力不从心,NoSQl,MapReduce和Hadoop等非关系型数据库计算模型在很大程度上能弥补关系型数据库在这方面的不足,云计算可初步实现更加复杂和大规模的大数据处理。但这类技术仍不够成熟,需要进一步探讨[4]。

3.4人才方面的挑战

人才缺乏是医学专业图书馆面临的重要挑战。麦肯锡预计[7],截至2018年,美国需要增加150万个数据分析师和管理者。大数据是一项革命性的前沿技术,需要跨学科的知识储备。生物医学图书馆大数据服务馆员不仅要处理大量的结构化和非结构化数据,还要能够应用大数据分析技术对数据进行

处理和深度挖掘,为专业人员提供知识服务。目前兼通生物医学、信息技术和情报技术的复合型数据馆员凤毛麟角。

3.5服务范式转型的挑战

大数据时代下科学研究新范式的兴起,强力推动着图书馆信息情报服务范式的转型。一是科学研究第四范式催生科研数据的管理和共享,科研数据的收集、描述和再利用等一系列的数据监管将成为图书馆新的服务内容[22]。二是大数据时代的爆炸式数据资源催促图书馆服务内容转变,目前主流的订购信息产品服务将向挖掘揭示信息内容深层次知识服务转变,知识服务能力将成为新的竞争力。三是用户通过多种途径远程获取资源成为主流,图书馆的服务模式将从目前的被动服务向用户驱动的主动服务转变。四是信息共享空间建设将是图书馆提升服务能力的新途径。

4大数据时代下医学专业图书馆的对策

4.1发展合作联盟

大数据时代,单靠一个医学专业图书馆的力量挖掘大数据蕴含的价值是不现实的。为了更好地利用大数据产生更大的知识服务价值,图书馆一方面应积极促进发展同行业、同体系或区域内图书馆的合作联盟,如生物医学图书馆联盟、军事医学图书馆联盟、北京地区图书馆联盟等;另一方面可以加大与业界的合作联盟,如与医院、公共卫生机构、大数据技术研究公司、医学网站、医学社区等建立合作联盟。联盟成员通过协议共享数据资源,制定联盟标准,协商数据安全与产权等问题,实现优势互补、互利共赢。4.2共建大数据中心

具有高存储能力和并行计算能力的云计算中心是大数据技术发展的重要支撑。对于不同要求的数据,可根据实际情况灵活解决存储和计算问题;非涉密数据,可放置公共云平台进行存储和计算;对于保密要求较高的专业数据,同类医学专业图书馆可联合共建云计算中心,建设云图书馆,为合作各方提供云存储和云计算服务。

4.3成立专门机构

大数据是一项有序的、动态的、可发展的系统工程,顶层设计和运行机制尤为重要。图书馆可设立专门机构负责数据管理,建立统一的数据获取、使用、管理、分享的制度,如配置数据馆员专门负责数据收集整理、统一加工、元数据标准、数据共享和重用、研发先进的知识服务引擎等,配置数据策管分析数据集合存储需求、制定科研过程数据的管理规划、收集与传播数据等,使图书馆由单纯的资源收藏者转变为知识管理、利用提供的全能者。

4.4培养一支高素质数据管理队伍

美国研究图书馆协会提出,研究数据管理是下一代图书馆员的能力之一。研究型生物医学专业图书馆应尽快引进或培养一支大数据管理专业队伍。当前的任务是如何在现有基础上,拓宽馆员知识面,增强业务能力,使之成为大数据知识服务信息资源的组织者、传播者、导航者和教育者。

4.5转变服务模式

加强战略规划研究,制定并有效落实以用户为中心的发展策略;更新服务理念,深入推进学科化服务,建立各种功能空间,满足个性化要求;从资料性、事实性的一般资料收集、整理、翻译转变为综述性情报分析与研究,应用多种新型智能化分析工具进行计算性的知识挖掘和知识分析;积极参与开放获取,探索开放知识创新途径,融入开放知识服务平台建设体系;借助云计算技术构建移动图书馆,设置虚拟图书社区,由固定服务向移动服务转变,由阵地服务向移动服务转变。

5结语

大数据为社会变革源源不断注入新的活力。医学专业图书馆为生物医学领域提供医学情报知识服务,在大数据时代下机遇与挑战并存,大数据技术将有力推动医学图书情报服务向更深层次和更广范围拓展。医学专业图书馆积极应对大数据将对图书馆未来核心竞争力产生较大影响。

【参考文献】

[1]徐子沛.大数据[M].桂林:广西师范大学出版社,2012:xi.[2]张文彦,武瑞原,于洁.大数据时代的图书馆初探[J].图书与情报,2012(6):15-21.

[3]王天泥.知识咨询:大数据时代图书馆的知识服务增长点[J].图书与情报,2013(2):74-77.

[4]樊伟红,李晨晖,张兴旺,等.图书馆需要怎样的“大数据”[J].图书馆杂志,2012,31(11):63-77.

[5]Laura GM.Big Data:A Opportunity for Librarians[EB/OL].[2013-11-10].http://www.questia.com/library/1G1-

301969491/big-data-a-big-opportunity-for-librarians.

[6]Nagy A.Data Mining“Big Data”:A Strategy for Improving Library Discovery[EB/OL].(2013-04-25)[2013-11-10].http://www.

serialssolutions.com/en/words/detail/data-mining-big-data-a-

strategy-for-improving-library-discovery.

[7]安晖,陈阳,张鼎,等译.大数据:创新、竞争和生产力的下一个前沿领域[R].赛迪译丛,2012(25):2.

[8]维基百科.Big_data[EB/OL].[2013-11-10]http://en.wiki-pedia.org/wiki/Big_data.

[9]IBM全球企业咨询服务部.分析:大数据在现实世界中的应用[R].2012:3.

[10]IDC定义大数据四大特征[EB/OL].(2012-07-24)[2013-04-16].http://www.c114.net/news/212/a705382.html.[11]云计算和大数据助力医疗协同[EB/OL].[2013-04-16].http://www.c114.net/news/212/a759967.html.

[12]大数据基因测序表明:个性化医疗的时代即将来临[EB/OL].[2013-04-16].http://news.hc3i.cn/art/201304/24073.htm.[13]医疗行业大数据应用的15个场景[EB/OL].(2010-02-20)[2013-11-10].http://tech.hexun.com/2012-02-20/

138442723.html.

[14](英)迈尔-舍恩伯格,(英)库克耶,著.大数据时代:生活、工作、思维的大变革[M].盛杨燕,周涛,译.浙江人民出版社,2013:2-4.[15]刘保延.大数据为中医药发展带来“大价值”[EB/OL].[2013-09-12].http://news.xinhuanet.com/yzyd/tech/

20130912/c_117335971_2.html.

[16]New Start-Up Aims to Be Google Analytics for E-Books[EB/ OL].[2012-07-31].http://www.digitalbookworld.com/2012/

new-start-up-aims-to-be-google-analytics-for-e-books.[17]张志强.论科技情报研究新范式[J].情报学报,2012,31(8):788-797.

[18]张晓林.开放获取、开放知识、开放创新推动开放知识服务模式:3O会聚与研究图书馆范式再转变[J].现代图书情报技

术,2013(2):1-10.

[19]张晓林.颠覆数字图书馆的大趋势[J].中国图书馆学报,2011,37(5):4-12.

[20]时婉璐,任树怀.数据策管-图书馆服务的新创举[J].图书馆杂志,2012,31(10):24-34.

[21]张晓林.开放获取学术信息资源:逼近“主流化”转折点[J].图书情报工作,2012,56(9):42-47.

[22]刘明,李娜.大数据趋势与专业图书馆[J].中华医学图书情报杂志,2013,22(2):1-6.

[收稿日期:2013-11-10]

[本文编辑:王颖]

2014年哲学社会科学基金项目指南:图书馆、情报与文献学

全国哲学社会科学规划领导小组发布了《国家社科基金项目2014年度课题指南》,其中“图书馆、情报与文献学”共75项,本刊摘其重点报道如下:

1.各级图书馆发展的社会支撑体系研究

2.跨系统区域图书馆联盟建设与发展实证研究

3.图书馆在推进职业素养教育与培训中的作用研究

4.图书馆开展数字人文项目相关问题研究

5.面向图书馆的电子书服务模式与服务平台研究

6.基于信息觅食理论的数字图书馆学科服务模式创新研究7.图书编目的变革与创新研究

8.图书馆资源组织中的数据关联机制研究

9.基于关联数据的数字图书馆动态服务组合研究

10.图书馆服务定位和建设策略研究

11.基于物联网环境的图书馆数据管理与信息服务共享技术研究12.网络时代战略情报研究的理论、方法和组织架构研究13.全球中文网站基本情况研究

14.网络舆情视角下非常规突发事件应急管理机制研究15.面向供应链管理的企业竞争情报运作模式和实施策略研究16.影响情报分析的非智力心理因素及其调节研究

17.大数据环境下情报学理论体系研究

18.大数据环境下的信息管理学科内涵创新研究

19.大数据的发展趋势与创新管理研究

20.大数据环境下情报分析方法与工具集成研究

21.大数据时代情报数据融合与分析技术研究

22.面向大数据的知识组织方法体系及其应用模式研究23.大数据环境下知识的自组织机制研究

24.大数据环境下数据耕耘模型研究

25.我国科研成果开放获取战略及政策研究

26.科研数据管理关键技术与服务机制研究

27.科研“E化”环境下的数据管理研究

28.网络环境下的跨学科科学家协作行为与特征分析

29.我国图书情报学科知识结构及演化动态研究30.学科网络信息深度聚合框架创新研究

31.信息服务法律制度研究

32.人机交互环境下文献数据库用户心智模型动态演变研究

33.网络用户信息搜索认知模型研究

34.社交网络中基于用户的知识组织研究

35.移动互联网用户信息利用行为研究

36.网络信息资源的用户评价与分享行为研究

37.面向主题的网络信息追溯与长期保存研究

38.网络资源聚合单元分类体系的构建与评估研究

39.创新领军人才的个性化知识服务研究

40.面向社交网络的个性化知识服务研究

41.产业融合背景下数字内容产业成长的动力机制与创新模式研究42.面向学科网络信息资源聚合的语义相关性研究

43.面向功用的科技信息深度语义挖掘研究

44.面向区域创新的信息资源管理与优化研究

45.基于信息生态视角的信息资源协同研究

46.信息消费与信息资源产业发展研究

47.信息消费与知识产权研究

48.社会化媒体环境下的信息质量研究

49.个人信息利用与安全管理研究

50.学术信息的时序多维可视化研究

51.基于智能移动终端的知识传播与学习能力实证研究

52.科技知识转移提升科技成果转化效果的实证研究

53.基于全球科技态势的战略性新兴产业预测研究

54.国外政府数据开放政策研究

55.面向政府决策的档案知识库构建研究

56.军民融合式档案工作发展策略研究

57.全球数字化转型背景下我国文件档案信息集成管理与集成服务模式研究58.业务驱动模式中的电子文件管理流程与方法研究

信息来源:http://www.npopss-cn.gov.cn/n/2013/1210/c219457-23797888.html

大数据时代的图书馆

大数据时代的图书馆 北京联合大学杨宗琳 2013.3 与云时代息息相关的“大数据”是指互联网用户网络行为数据。“互联网上一天”的数据可以刻满1.68亿张DVD;发出的邮件有2940亿封之多,每天卖出的手机为37.8万台,高于全球每天出生的婴儿数量37.1万……。截止到2012年,数据量已经从TB(1024GB=1TB)级别跃升到PB(1024TB=1PB)、EB(1024PB=1EB)乃至ZB(1024EB=1ZB) 级别。2009年的数据量为0.8ZB,2010年增长为 1.2ZB,2011年的数量更是高达1.82ZB,相当于全球每人产生200GB以上的数据。而到2012年为止,人类生产的所有印刷材料的数据量是 200PB,全人类历史上说过的所有话的数据量大约是5EB。整个人类文明所获得的全部数据中,有90%是过去两年内产生的。而到了2020年,全世界所产生的数据规模将达到今天的44倍。 我国当然也进入了大数据时代。目前,我国互联网大型服务器已达370万台,全国建立了45万个以上数据中心,数据中心总耗电量达到364亿千瓦小时,高达全国电力消耗的1%。 在大数据时代,图书馆将在数据存储、数据挖掘、数据分析等方面面临巨大挑战,复杂数据的处理也将成为图书馆发展的主旋律,通过大量的非结构化数据、半结构化数据去寻找隐藏在数据背后的世界,进而为图书馆服务的模式、对未来发展趋势提供分析与预测将成为大数据时代图书馆的一大主要服务内容。图书馆将进入由藏书楼、阅览室到使用网线解决人们阅读需求的数字图书馆时代,读者通过手机等移动终端可以访问数字图书馆,查询世界、国家和各省、市级数字图书馆的资源。 未来时代将是大数据引领科技发展的时代,大数据技术应用将是未来图书馆服务创新的重要领域。本文讨论在大数据时代的图书馆,如何与时俱进提升管理与服务水平。 1.大数据时代图书馆特点 资源数字化、服务网络化、管理知识化是大数据时代图书馆的主要特点,换言之,图书馆从图书的保管者成为面向服务的信息提供者,从单 一纸媒体到多媒体,从本馆收藏到无边界图书馆,从我们到图书馆去到 图书馆来到我们中间,从按时提供到及时提供,从馆内处理到外包处理, 从区域服务到国际服务。 大数据时代的图书馆就是数字图书馆。

大数据时代下的数据挖掘试题和答案及解析

A. 变量代换 B. 离散化 海量数据挖掘技术及工程实践》题目 、单选题(共 80 题) 1) ( D ) 的目的缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得 到 和原始数据相同的分析结果。 A. 数据清洗 B. 数据集成 C. 数据变换 D. 数据归约 2) 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数 据挖 掘的哪类问题 (A) A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理 3) 以下两种描述分别对应哪两种对分类算法的评价标准 (A) (a) 警察抓小偷,描述警察抓的人中有多少个是小偷的标准。 (b) 描述有多少比例的小偷给警察抓了的标准。 据相分离 (B) 哪一类任务 (C) A. 根据内容检索 B. 建模描述 7) 下面哪种不属于数据预处理的方法 (D) A. Precision,Recall B. Recall,Precision A. Precision,ROC D. Recall,ROC 4) 将原始数据进行集成、 变换、维度规约、数值规约是在以下哪个步骤的任务 (C) 5) A. 频繁模式挖掘 C. 数据预处理 B. D. 当不知道数据所带标签时, 分类和预测 数据流挖掘 可以使用哪种技术促使带同类标签的数据与带其他标签的数 6) A. 分类 C. 关联分析 建立一个模型, B. D. 聚类 隐马尔可夫链 通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的 C. 预测建模 D. 寻找模式和规则

C.聚集 D. 估计遗漏值 8) 假设12 个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15 在第几个箱子内(B) A. 第一个 B. 第二个 C. 第三个 D. 第四个 9) 下面哪个不属于数据的属性类型:(D) A. 标称 B. 序数 C.区间 D. 相异 10) 只有非零值才重要的二元属性被称作:( C ) A. 计数属性 B. 离散属性 C.非对称的二元属性 D. 对称属性 11) 以下哪种方法不属于特征选择的标准方法:(D) A. 嵌入 B. 过滤 C.包装 D. 抽样 12) 下面不属于创建新属性的相关方法的是:(B) A. 特征提取 B. 特征修改 C. 映射数据到新的空间 D. 特征构造 13) 下面哪个属于映射数据到新的空间的方法(A) A. 傅立叶变换 B. 特征加权 C. 渐进抽样 D. 维归约 14) 假设属性income 的最大最小值分别是12000元和98000 元。利用最大最小规范化的方 法将属性的值映射到0 至 1 的范围内。对属性income 的73600 元将被转化为:(D) 15) 一所大学内的各年纪人数分别为:一年级200人,二年级160人,三年级130 人,四年 级110 人。则年级属性的众数是:(A) A. 一年级 B. 二年级 C. 三年级 D. 四年级 16) 下列哪个不是专门用于可视化时间空间数据的技术:(B) A. 等高线图 B. 饼图

大数据带来的给予和挑战

大数据带来的机遇和挑战 互联网高端技术的创新与发展,给人类社会带来了巨大变化。今后20年全球将步入大数据新时代。高端互联网将再铸新世界。我们正处在一个数据爆发增长的时代。移动互联网、移动终端和数据感应器的出现,使数据以超出人们想象的速度在快速增长。据国际数据资讯公司(GlobalPulse)估测,数据数量一直在快速增加,每年增长50%,这个速度不仅是指数据流的增长,而且还包括全新的数据种类的增多。据统计,全球企业2010年在硬盘上存储了超过7EB的新数据,消费者在PC和笔记本电脑等设备上存储了超过6EB新数据,而1EB数据就相当于美国国会图书馆中存储数据的4000多倍。目前数据容量增长的速度,已经大大超过了硬件技术的发展速度,并正在引发数据存储和处理的危机。 有研究统计,从人类文明开始到2003年,人类共创造了5TB(兆亿字节)的信息,而现在,这样的数据量却仅需两天就被创造出来,且速度仍在加快。数据显示,2011年全球创建和复制的数据总量,就达到了1.8ZB(1ZB等于10的21次方比特),相当于全球每人产生300GB以上的数据。目前这个数字仍在快速增长,预计2020年,全球产生的数据量更将超过80ZB。由此可见,我们的确已经迈入了大数据时代。 2012年3月,美国奥巴马政府发起了《大数据研究和发展倡议》,将大数据定义为“未来的新石油”,称将斥资2亿美元用于大数据研究,以应对大数据革命正在带来的大机遇。据美国咨询机构Gartner预测,从现在起到2015年,大数据将会在世界范围内创造440万个工作岗位。 “大数据”,这一新兴概念,正在被赋予极其丰富的内涵,并被寄予特别巨大的希望……大数据时代,我们该如何寻找对策,迎接挑战? 一、“大数据资源”成为重要战略资源 互联网时代,“资源”的含义正在发生极大的变化,它已不再仅仅只是指煤、石油、矿产等一些看得见、摸得着的实体,“大数据”,也正在演变成不可或缺的战略资源。互联网、物联网每天都在产生大量的数据,这些庞大的数据资源,为人们依据数据了解世界、了解市场、了解人们的生活提供了可能。大数据已经被视为一种资产、一种财富、一种可以被衡量和计算的价值。得大数据者得天下,是一些推崇大数据时代的变革者所坚信不疑的判断。

大数据时代的机遇与挑战论文3000字[精品文档]

大数据时代的机遇与挑战 什么是大数据时代? “大数据”在物理学、生物学、环境生态学等领域以及军事、金融、通讯等行业存在已有时日,却因为近年来互联网和信息行业的发展而引起人们关注。最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡,麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。” 大数据时代是怎样产生的? 物联网、云计算、社交网络、社会媒体以及信息获取技术的飞速发展,数据正以前所未有的速度迅速增长和积累,数据是人类社会最重要的财富大数据时代的到来 大数据时代的特点? 1.数据量大(Volume) 第一个特征是数据量大。大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)。 2.类型繁多(Variety) 第二个特征是数据类型繁多。包括网络日志、音频、视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提出了更高的要求。 3.价值密度低(Value) 第三个特征是数据价值密度相对较低。如随着物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,如何通过强大的机器算法更迅速地完成数据的价值“提纯”,是大数据时代亟待解决的难题。 4.速度快、时效高(Velocity) 第四个特征是处理速度快,时效性要求高。这是大数据区分于传统数据挖掘最显著的特征。既有的技术架构和路线,已经无法高效处理如此海量的数据,而对于相关组织来说,如果投入巨大采集的信息无法通过及时处理反馈有效信息,那将是得不偿失的。可以说,大数据时代对人类的数据驾驭能力提出了新的挑战,也为人们获得更为深刻、全面的洞察能力提供了前所未有的空间与潜力。 大数据时代的机遇 大数据技术通过对海量数据的快速收集与挖掘、及时研判与共享,成为支持社会治理科学决策和准确预判的有力手段,为社会转型期的社会治理创新带来了机遇。建立大数据中心,及时搜集、实时处理数据信息,为科学决策提供坚实基础。对社会大数据进行历时性和实时性分析,加强社会风险控制,提高政府预测预警能力和应急响应能力。

大数据的应用及带给企业的挑战

大数据的应用及带给企业的挑战 随着信息技术特别是信息通讯技术的发展,互联网、社交网络、物联网、移动互联网、云计算等相继进入人们的日常工作和生活中,全球数据信息量呈指数式爆炸增长之势。根据国际数据公司IDC发布的研究报告,预计全球数据量大约每两年翻一番,到2020年全球将达到35ZB的数据信息量。随着前所未有巨量数据信息的聚集,“大数据”已得到广泛关注。本文将分企业数据、机器数据和社会化数据三类,针对企业数据处理面临的挑战、机器数据应用场景、社会化数据带来的变革展开讨论。 1、企业数据处理面临的挑战 中国的企业已经认识到大数据蕴含着巨大的商业价值,但国内互联网巨头作为率先使用大数据技术的用户,仅仅是基于开源软件自主开发大数据应用,未形成企业级的个性化应用。 (1)非结构化和结构化数据的统一及整合 随着互联网和通信技术的迅猛发展,企业中的数据类型早已不是单一的以文本为主的结构化数据,还充斥着广泛存在于社交网络、物联网、电子商务等之中的网络日志、音频、视频、图片、地理位置信息等多类型的数据。这些数据称为非结构化数据。据统计,企业中

85%的数据属于非结构化数据。但是企业现有的数据处理方法仅适用于结构化数据,无法将大量的非结构化数据与结构化数据进行统一、整合,就无法发掘数据中的价值。 (2)跨业务平台数据的关联 当今企业环境中存在着:不同业务模块的数据分布在不同的系统平台,这些被割裂的数据在单一业务平台无法得到有效利用;不同业务模块的数据无法实现共享、关联;仅对关键业务的数据进行收集、整合和利用,非关键业务的数据被忽视等现状。企业中的数据由于业务模块的划分而被割裂开来.单一业务模块的数据价值远远小于所有业务模块数据关联起来进行分析运用,企业将如何实现跨业务平台数据的关联与整合将面临巨大的挑战。 (3)面向数据的实时分析 随着经济的飞速发展,企业所面临的市场行情也在瞬息万变,企业曾经惯用的事后处理机制已经不能应对,企业需要实时洞察业务运营状态,以便迅速应对不断变化的市场形势。 企业业务的运营状态将体现在海量数据的快速处理和有效进行 实时分析的基础上。但随着大数据的爆炸式增长,与企业相关的数据可能在无限量的不断增长,这些不断变化的数据,需要企业进行全面、实时的分析。

大数据题目及参考答案

公需科目大数据培训考试 考试时间:120分钟 选择题中红色代表正确答案,判断题X为错,R为对。 1.根据涂子沛先生所讲,摩尔定律是在哪一年提出的?(单选题1分) A.1988年 B.2004年 C.1965年 D.1989年 2.2015年,贵阳市的呼叫服务产业达到()坐席。(单选题1分) A.3万 B.5万 C.10万 D.20万 3.以下说法错误的是哪项?(单选题1分) A.大数据的思维方式遵循因果逻辑推理 B.摩尔定律是戈登?摩尔提出的 C.图灵测试是阿兰·图 D.ENIAC于1946年诞生 4.茂名PX事件发生后,下列哪个学校的化工系学生在网上进行了一场“PX词条保卫战”?(单选题1分) A.北大 B.清华 C.浙大 D.复旦 5.促进大数据发展部级联席会议在哪一年的4月13日召开了第一次会议?(单选题1分) A.2014年 B.2015年 C.2013年 D.2016年 6.根据涂子沛先生所讲,哪一年被称为大数据元年?(单选题1分) A.2012年 B.2010年 C.2008年 D.2006年 7.数据、信息与知识三者之间的变化趋势是(单选题1分) A.价值先增后减 B.价值递减 C.价值递增 D.价值不变 8.具体来说,摩尔定律就是每()个月,产品的性能将提高一倍。(单选题1分) A.18 B.16 C.12 D.6 9.“()大数据交易所”2015年4月14日正式运营,目前,交易所已有包括京东、华为、阿里巴巴等超过300家会员企业,交易总金额突破6000万元。(单选题1分)

A.毕节 B.安顺 C.贵阳 D.遵义 10.()说明如果联网越多,从介入方式、技术上越来越突破,则网络规模越大、成本越低,网络的成本可能会趋向于零。(单选题1分) A.吉尔德定律 B.摩尔定律 C.梅特卡尔夫定律 D.新摩尔定律 11.以下说法错误的是哪项?(单选题1分) A.大数据会带来机器智能 B.大数据不仅仅是讲数据的体量大 C.大数据的英文名称是large data D.大数据是一种思维方式 12.美国首个联邦首席信息官是下列哪位总统任命的?(单选题1分) A.克林顿 B.奥巴马 C.小布什 D.老布什 13.截至2015年年底,全国电话用户总数达到()。(单选题1分) A.13.37亿户 B.12.37亿户 C.14.37亿户 D.15.37亿户 14.2012年全国各城市支付宝人均支出排名中,位居第七位的是()(单选题1分) A.嘉兴市 B.台中市 C.高雄市 D.嘉义市 15.吴军博士认为过去五十年是()的时代。(单选题1分) A.科尔定律 B.艾尔定律 C.摩尔定律 D.拉尔定律 16.ENIAC诞生于哪一年?(单选题1分) A.1946年 B.1938年 C.1940年 D.1942年 17.梅特卡尔夫定律主要是描述信息网络,指出网络的价值在于网络的互联,联网的接点数与其价值呈现()的方式,联网越多,系统的价值越大。(单选题1分) A.正比 B.对数 C.指数 D.反比 18.根据周琦老师所讲,高德交通报告针对全国()个城市交通状态进行挖掘分析。(单选题1分) A.38 B.21 C.25 D.30 19.2012年全国各城市支付宝人均支出排名中,位居第三位的是()(单选题1分) A.嘉义市 B.杭州市 C.嘉兴市 D.高雄市

大数据时代信息安全面临的挑战与机遇

大数据时代信息安全面临的挑战与机遇 2013-7-11 10:17:00来源:中国科技网 根据有关学者的研究,数据密集型科学将成为继实验科学、理论科学、计算机科学之后,人类科学研究的第四个范式。以大数据为代表的数据密集型科学将成为新一次技术变革的基石。随着数据的进一步集中和数据量的增大,对海量数据进行安全防护变得更加困难,数据的分布式处理也加大了数据泄露的风险,信息安全正成为制约大数据技术发展的瓶颈。 大数据时代已经到来 物联网、云计算、移动互联网等新技术的发展,使得手机、平板电脑、PC及遍布地球各个角落的传感器,成为数据来源和承载方式。据估计,互联网上的数据量每两年会翻一番,到2013年,互联网上的数据量将达到每年667EB(1EB=230GB)。这些数据绝大多数是“非结构化数据”,通常不能为传统的数据库所用,但这些庞大的数据“宝藏”将成为“未来的新石油”。 1.大数据具有四个典型特征 大数据(Big Data)是指“无法用现有的软件工具提取、存储、搜索、共享、分析和处理的海量的、复杂的数据集合”。业界通常用四个V来概括大数据的特征。 ——数据体量巨大(Volume)。到目前为止,人类生产的所有印刷材料的数据量是200PB(1PB=210TB),而历史上

全人类说过的所有的话的数据量大约5EB(1EB=210PB)。当前,典型个人计算机硬盘的容量为TB量级,而一些大企业的数据量已经接近EB量级。 ——数据类型繁多(Variety)。这种类型的多样性也让数据被分为结构化数据和非结构化数据。相对于以往便于存储的以文本为主的结构化数据,非结构化数据越来越多,包括网络日志、音频、视频、图片、地理位置信息等,这些多类型的数据对数据的处理能力提出了更高要求。 ——价值密度低(Value)。价值密度的高低与数据总量的大小成反比。以视频为例,一部1小时的视频,在连续不间断的监控中,有用数据可能仅有一两秒。如何通过强大的机器算法更迅速地完成数据的价值“提纯”,成为目前大数据背景下亟待解决的难题。 ——处理速度快(Velocity)。这是大数据区分于传统数据挖掘的最显著特征。根据IDC的“数字宇宙”报告,预计到2020年,全球数据使用量将达到35.2ZB(1ZB=210EB)。在如此海量的数据面前,处理数据的效率就是企业的生命。 2.大数据成为国家和企业的核心资产 2012年瑞士达沃斯论坛上发布的《大数据大影响》报告称,数据已成为一种新的经济资产类别,就像货币或黄金一样。奥巴马政府已把“大数据”上升到国家战略层面,2012年3月,美国宣布投资2亿美元启动“大数据研究和发展计划”,借以增强收集

大数据时代的机遇和挑战

大数据时代的机遇和挑战 【】First of all ,the paper makes a simple analysis of the concept and characteristics of large data. Secondly ,it explores the opportunities and challenges that big data brings to all aspects of economic life. Finally ,it explores how to deal with opportunities and challenges ,and improve the development environment of big data. improve the environment for the development of big data ,so as to make a certain contribution to the economic development in the era of big data. 【Keywords】big data age ;quantitative economics ;application 1引言 “大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。被称为“第三次浪潮的华彩乐章”。近几年来,大数据吸引了越来越多的关注,

人们随时都能感觉到生活在一个日益信息化的世界中。随着网络技术的发展,越来越多的人使用社交软件进行网上聊天,发布个人心情状态,对网络中的信息进行评论,这些都极大的丰富了我们的生活。同时,网上每天都会产生大量的数据,根据有关统计,每天网络中大约出现220 万TB 的新数据, 而且这个速度还在不断增加 伴随着大数据时代的到来,数据资源越来越庞大,数据处理速度越来越快,人们可以通过大数据技术实现各种构想。学者能够利用大数据这一有利条件进行更加科学且贴近现实的经济研究。银行能够通过大数据考查企业的诚信状况,并决定是否放贷。而计算机则可以在海量的数据中统计分析出人的行为、习惯等方式,从而更好地学习模拟人类智能。随着科学技术的不断发展,未来大数据会发挥出更加强大的作用, 而如何应对大数据时代的机遇与挑战,有效利用大数据资源,是各行各业应关注的焦点。 2大数据时代的特点 大数据又可以称之为巨量资料,它的概念比较抽象,其定义是依靠互联网技术下的主流软件对一些规模较大、较复杂的资料进行处理、分析、管理,从而形成对经济发展更加有用的信息。大数据的主要特点就是信息量大、多样化、高速等。大数据的形成需要特殊专业的技术,例如互联网、数据挖掘电子网或者大规模并行处理数据库等软件,通过有效的掌握丰富的数据资源,并对这些数据进行专业化的处理,从而在经济社会的发展中实现盈利,把对大数据的处理加工有效的转变为信息资

图书馆管理系统大数据流图

1.1 系统分析 1.1.1 图书馆管理信息系统的基本任务 “图书馆管理信息系统”是一个面向具有万人以上用户,位于某中型企事业单位内的图书馆管理系统,藏书规模约100 多万册,每天的借阅量近万册。在手工操作方式下,图书的编目和借阅等工作量大,准确性低且不易修改维护,读者借书只能到图书馆手工方式查找书目,不能满足借阅需求。需要建立一套网络化的电子图书馆信息系统。 该系统服务对象有两部分人:注册用户和一般读者。一般读者经注册后成为注册用户,注册用户可以在图书馆借阅图书,其他人员只可查阅图书目录,但不能借阅图书。系统同时考虑提供电子读物服务,目前只提供电子读物的目录查询服务,不久的将来将提供电子读物全文服务。用户可通过网络方式访问图书馆管理信息系统。 1.1.2 系统内部人员结构、组织及用户情况分析 为了对系统有一个大致了解,现给出系统内部人员结构、组织及用户情况等基本信息。图书馆管理系统的组织结构如图1.1 所示。 图1.1 图书馆管理信息系统的组织结构

图书馆由馆长负责全面工作,下设办公室、财务室、采编室、学术论文室、图书借阅室、电子阅览室、期刊阅览室和技术支持室。各部门的业务职责如下。 办公室:办公室协助馆长负责日常工作,了解客户需求,制定采购计划。 财务室:财务室负责财务方面的工作。 采编室:采编室负责图书的采购,入库和图书编目,编目后的图书粘贴标签,并送图书借阅室上架。 学术论文室:负责学术论文的收集整理。 图书借阅室:提供对读者的书目查询服务和图书借阅服务。 电子阅览室:收集整理电子读物,准备提供电子读物的借阅服务,目前可以提供目录查询。 期刊阅览室:负责情况的收集整理和借阅。 技术支持室:负责对图书馆的网络和计算机系统提供技术支持。 1.1.3 系统业务流程分析 系统的业务流程要达到的业务目标,业务流程分析是系统分析的基础环节。图书馆管理信息系统的业务流程如图1.2所示。

浅谈大数据时代的机遇与挑战

湖南农业大学课程论文学院:信息科学技术学院班级:计算机1班姓名:XXX 学号:2015XXXX 课程论文题目:浅谈大数据时代的机遇与挑战 课程名称: 评阅成绩: 评阅意见: 成绩评定教师签名: 日期:年月日

课程论文题目 ——浅谈大数据时代的机遇与挑战 学生:XXX (信息科学技术学院计算机1班) 摘要:随着时代的发展,大数据这个词慢慢进入了人们的视野的当中,而大数据也与我们的生活关联越来越紧密,对我们的影响也越来越大。怎么样才能把握住机遇,在大数据时代中脱颖而出,怎么样才能在大数据时代到来的挑战中稳步前行。 关键词:大数据;机遇与挑战;大数据时代分析 Abstract:with the development of The Times, the word big data slo wly into the people's horizons, and big data is linked to our life more and more closely, to our influence is growing. How to seize the opportunity, in the era of big data, how can ability in the er a of big data move steadily in the coming challenges. Key Words: Big data; Opportunities and challenges; The era of big da ta analysis

一、绪论 (一)什么是大数据? “大数据”作为时下最火热的IT行业的词汇在互联网时代显得越来越重要。大数据究竟有多大?大数据能做些什么?在新互联网时代,这些词汇让我们应接不暇。大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。大数据还有四个特性分别是数据量大,种类多,速度快,价值大。大数据技术,是指从各种各样类型的数据中,快速获得有价值信息的能力。最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡,麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”(二)大数据能做些什么? 大数据的应用示例包括了大科学、传感设备网络、天文学、大气学、基因组学、生物学、大社会数据分析、互联网文件处理、制作互联网搜索引擎索引、通信记录明细、军事侦察、社交网络、通勤时间预测、医疗记录、照片图像和图像封存、大规模的电子商务等。仅仅十余年,现在越来越多的政府、企业等组织机构意识到数据正在成为组织最重要的资产,数据分析能力正在成为组织的核心竞争力。大数据不仅是一种海量的数据状态及其相应的数据处理技术,更是一种思维方式,一项重要的基础设施。这或是明天我们治理交通拥堵、雾霾天气、看病难、食品安全等“城市病”的利器,也会为政府打开了解社情民意的更大窗口。众所周知,大数据已经不简简单单是数据大的事实了,而最重要的现实是对大数据进行分析,只有通过分析才能获取很多智能的、深入的、有价值的信息。二、本论 (一)大数据的重要性 1.大数据的处理分析正成为新一代信息技术融合应用的结点 有专家指出,大数据及其分析,会在未来10年改变几乎每一个行业的业务功能,从科学研究到保险,从银行业到互联网,各个不同的领域都在遭遇爆发式增长的数据量。在美国的17个行业中,已经有15个行业大公司拥有大量的数据,其平均拥有的数据量已经远远超过了美国国会图书馆所拥有的数据量。在医疗与健康行业,根据数据预测,如果具备相关的IT设施,数据投资和分析能力等条

图书馆借阅系统大数据库设计

航空大学实验报告 二016 年3 月28 日 课程名称:数据库原理实验名称:图书馆借阅系统 班级:14207218 :胡合达同组人: 指导教师评定:签名: 一、实验环境 1.Windows2000或以上版本; 2.SQLServer 2005。 二、实验目的 了解并掌握数据库设计基本方法 三.系统需求分析 1.设计本系统模拟学生在图书馆借阅图书的容,能够实现以下功能: 借阅信息的查询功能; 图书信息的多关键字检索查询; 图书的出借、返还及超期罚款; 2.能够提供一定的安全机制,提供数据信息授权访问,防止随意删改、查询。 3.对查询、统计的结果能够列表显示。 4.处理对象:学生,馆藏图书信息,借阅信息,罚款信息,借阅历史 5.安全性要求 系统安全性要求体现在数据库安全性、信息安全性和系统平台的安全性等方面。安全性先通过视图机制,不同的用户只能访问系统授权的视图,这样可提供系统数据一定程度上的安全性,再通过分配权限、设置权限级别来区别对待不同操作者对数据库的操作来提高数据库的安全性;系统平台的安全性体现在操作系统的安全性、计算机系统的安全性和网络体系的安全性等方面。 6.完整性要求 系统完整性要求系统中数据的正确性以及相容性。可通过建立主、外键,使用check 约束,或者通过使用触发器和级联更新。

四.概念结构设计 系统开发的总体目标是实现图书馆管理的系统化和自动化,缩短借阅者的等待时间,减轻工作人员的工作量,方便工作人员对它的操作,提高管理的质量和水平,做到高效、智能化管理,从而达到提高图书管理效率的目的。 概念设计阶段主要是将需求分析阶段得到的用户需求抽象为信息结构(概念模型)的过程,它是整个数据库设计的关键。 图书借阅系统的E-R图 E-R图各实体的属性如下所示: 图书:Book(BookID, BookNo, BookName, BookWriter, BookPublish,, BookDate,BookClass,BookState, BookRNo) 读者:Reader(ReaID,ReaName,ReaSex,ReaNo,ReaLBID, ReaDep, ReaGrade, ReaPref, ReaDate,Reasx) 管理员: Maneger (MID,MName,MSex) 馆室: Room(RoomNo,RoomMID,RoomNum,RoomAddre) 借阅信息:Borrow(BookID,ReaderID,BookName,BookWriter, Outdate,YHdate)

大数据时代题目及答案(三套试题仅供参考)

大数据时代题目及答案(三套试题仅供参考)

第一套试题 1、当前大数据技术的基础是由(C)首先提出的。(单选题,本题2分) A:微软 B:百度 C:谷歌 D:阿里巴巴 2、大数据的起源是(C )。(单选题,本题2分) A:金融 B:电信 C:互联网 D:公共管理 3、根据不同的业务需求来建立数据模型,抽取最有意义的向量,决定选取哪种方法的数据分析角色人员是(C)。(单选题,本题2分) A:数据管理人员 B:数据分析员 C:研究科学家 D:软件开发工程师 4、(D )反映数据的精细化程度,越细化的数据,价值越高。(单选题,本题2分) A:规模 B:活性 C:关联度 D:颗粒度 5、数据清洗的方法不包括( D)。(单选题,本题2分) A:缺失值处理 B:噪声数据清除 C:一致性检查 D:重复数据记录处理 6、智能健康手环的应用开发,体现了( D)的数据采集技术的应用。(单选题,本题2分) A:统计报表 B:网络爬虫 C:API接口 D:传感器 7、下列关于数据重组的说法中,错误的是(A)。(单选题,本题2分) A:数据重组是数据的重新生产和重新采集 B:数据重组能够使数据焕发新的光芒 C:数据重组实现的关键在于多源数据融合和数据集成 D:数据重组有利于实现新颖的数据模式创新 8、智慧城市的构建,不包含( C)。(单选题,本题2分) A:数字城市 B:物联网 C:联网监控 D:云计算 9、大数据的最显著特征是(A)。(单选题,本题2分) A:数据规模大 B:数据类型多样 C:数据处理速度快 D:数据价值密度高10、美国海军军官莫里通过对前人航海日志的分析,绘制了新的航海路线图,标明了大风与洋流可能发生的地点。这体现了大数据分析理念中的(B )。(单选题,本题2分) A:在数据基础上倾向于全体数据而不是抽样数据 B:在分析方法上更注重相关分析而不是因果分析 C:在分析效果上更追究效率而不是绝对精确 D:在数据规模上强调相对数据而不是绝对数据 11、下列关于舍恩伯格对大数据特点的说法中,错误的是(D)。(单选题,本题2分) A:数据规模大 B:数据类型多样 C:数据处理速度快 D:数据价值密度高12、当前社会中,最为突出的大数据环境是(A)。(单选题,本题2分) A:互联网 B:物联网 C:综合国力 D:自然资源 13、在数据生命周期管理实践中,( B)是执行方法。(单选题,本题2分) A:数据存储和备份规范 B:数据管理和维护 C:数据价值发觉和利用 D:数据应用开发和管理 14、下列关于网络用户行为的说法中,错误的是(C)。(单选题,本题2分) A:网络公司能够捕捉到用户在其网站上的所有行为 B:用户离散的交互痕迹能够为企业提升服务质量提供参考 C:数字轨迹用完即自动删除 D:用户的隐私安全很难得以规范保护 15、下列关于计算机存储容量单位的说法中,错误的是( C)。(单选题,本题2分) A:1KB<1MB<1GB B:基本单位是字节(Byte) C:一个汉字需要一个字节的存储空间 D:一个字节能够容纳一个英文字符, 16、下列关于聚类挖掘技术的说法中,错误的是(B)。(单选题,本题2分) A:不预先设定数据归类类目,完全根据数据本身性质将数据聚合成不同类别

医疗大数据面临的挑战及思考

doi:10.3969/j.issn. 1672-5166.2013.04.03 医疗大数据面临的挑战及思考 蔡佳慧①张 涛①宗文红①△ 文章编号:1672-5166(2013)04-0292-04 中图分类号:R-37 文献标志码:A 摘 要随着卫生信息化建设进程的不断加快,医疗数据的类型和规模正以前所未有的速度增长,医疗卫生领域已进入“大数据时代”。本文在对医疗大数据基本概念进行剖析的基础上,归纳总结医疗大数据时代所面临的新挑战,详细介绍闸北区为应对这些挑战在数据管理、整合、存储、利用等方面所实施的具体措施,并对下一步工作进行了有益的思考。 关键词大数据卫生信息化数据处理 Challenges and Considerations of the Big Data of Medicine Cai Jiahui, Zhang Tao, Zong Wenhong Zhabei District Health Research and Information Center, Shanghai 200070, China Abstract With the rapid development of health information, the type and scale of medical and health data continue to expand at an unprecedented pace. Medical and health ? eld has entered a big-data era. On the basis of the analysis of the basic concepts of health data, this paper summarizes the new challenges faced in medical and health ? eld in the age of big data and introduces in details the implementation of speci? c measures of Zhabei District to meet these challenges in data management, integration, storage, utilization. The bene? cial thinking for the next step has also been put forward. Key words Big data, Health information, Data processing 1 引言 当前我们正处于一个数据爆炸性增长的“大数据”时代。据IDC( International Data Corporation ,国际数据公司)预测,中国的大数据市场在2012~2016年间将增长5倍,政府、银行、医疗卫生、电信等行业将在其中占据最多的份额。在医疗卫生领域,各种信息系统在医疗机构的广泛应用以及医疗设备和仪器的数字化,使医院数据库的信息容量不断膨胀,这些宝贵的医疗信息资源对于疾病的管理、控制和医疗研究都是非常有价值的。如何利用这些海量的信息资源更好地为医疗卫生行业的管理、诊疗、科研和教学服务,已经越来越为人们所关注。 ① 上海市闸北区卫生科技与信息中心,上海市,200070 作者简介:蔡佳慧(1986),女,学士学位;研究方向:卫生信息管理;E-mail:caijiahui86@https://www.wendangku.net/doc/469744264.html, 通讯作者:宗文红(1968),女,硕士学位;副主任医师;研究方向:卫生信息管理;E-mail:zongwenhong2006@https://www.wendangku.net/doc/469744264.html, △通讯作者 292

大数据的相关概况及其给图书馆带来的好处

大数据的相关概况及其给图书馆带来的好处 大数据时代的到来,改变了人们的生活。近年来,图书管理学专业的许多学者开始 关注这一问题,大数据逐渐成为研究热点。随着大数据的提出与发展,其对各个行业都带来 了数据信息冲击。近年来,随着对大数据研究的深入,越来越多的图书馆引入云技术,使图书 馆建设步入大数据时代。通过分析大数据以及其对图书馆的影响,可以更好地了解当前图 书馆发展的概况以及今后的发展趋势,促进图书馆建设与社会主义和谐文化的建设。 1、大数据的相关概况 大数据(Bigdata),也被称为巨量资料。研究机构Gartner给出了这样的定义:大数据是 需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合 理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极的资讯。而且不用随机分析法(抽样调查)这样的捷径,而采用所有数据的方法。 大数据是由全球知名咨询公司麦肯锡第一次提出的,大数据最早在物理学、生物学等 领域以及金融、军事等行业中出现,但是却因为近年来互联网和信息行业的发展而引起人 们关注。阿尔文·托夫勒便在《第三次浪潮》一书中,把大数据称为“第三次浪潮的华彩乐章”。其具有4个特性,也被称为4V,分别是Volume(体量)、Variety(多样性)、Value(价值 密度)、Velocity(速度)。 体量其实质是大数据的容积,指的是大数据具有海量内容,大数据的计量单位很大,最少 的也是P(1000T)、E(100百万T)(1T=1000G),传统的集中存储与集中计算已经无法处理 呈指数级别的数据增长速度,拥有海量数据使图书馆可以满足用户的需求,直接提高了图书 馆的使用效率;多样性指大数据包括了结构化数据、半结构化数据以及非结构化数据,包括 了网络图片、音频、视频、地理位置等,因此也对数据的处理分析能力有了更高的需求。 种类繁多对图书馆来说有利于进一步提高用户使用时价值的扩大化与最大化。不仅包括原始的图书信息,还可以通过计算机大数据,了解更多相关信息,而这些信息通过纸质资料有时 是很难发现的。例如,在学习和研究专业问题时,如果你发现研究的兴趣,可以去图书馆通过 数据库进行检索,通过分析确定兴趣点是否具有研究价值以及价值的大小,有利于提高学术 研究水平的提高;价值密度低是指大数据大主要是指量,而真正的数据价值密度较低。也就 是说虽然有海量数据,但真正有用的数据不多,因此更需要有强大的计算机算法完成对数据 的提纯处理,这是大数据的特性也是限制其发展的一个原因,并且也是大数据时代亟待解决 的难题;速度时效高是大数据区别于传统数据最显著的特征,面对海量数据时代,处理数据的 效率对使用者具有至关重要的影响。图书馆使用大数据时,以“云数据”为例,只要使用了该 技术,图书馆可以以最少的投资获得海量的数据来最快速地进一步分析用户的阅读记录、 习惯,通过反馈的分析结果进行相关工作的调整来方便服务使用者,促进图书馆的良性发展。

浅谈基于大数据时代的机遇与挑战

浅谈基于大数据时代的机遇与挑战 本文从网络收集而来,上传到平台为了帮到更多的人,如果您需要使用本文档,请点击下载按钮下载本文档(有偿下载),另外祝您生活愉快,工作顺利,万事如意! 随着信息时代的到来,大数据(Big Data)一词逐渐被人们认知和熟悉,其常被用于定义和描述“信息爆炸时代产生的海量数”。随着“大数据”时代的来临,在商业、经济及其他领域中,人们做出决策不仅仅依靠经验和直觉,常以数据分析作为决策依据,这种方式大大提高了决策的科学性,最大限度避免决策失误。用好大数据,必将对商业发展、科学研究和政府决策产生积极的影响。 1 大数据的基本概况 大数据(Big Data)是指那些超过传统数据库系统处理能力的数据,其具有以下四个基本特性,即海量性、多样性、易变性、高速性。同时数据类型繁多、数据价值密度相对较低、处理速度快、时效性要求高等也是其主要特征。 2 大数据的时代影响 大数据,对经济、政治、文化等方面都具有较为深远的影响,其可帮助人们进行量化管理,更具科学性和针对性,得数据者得天下。大数据对于时代的影

响主要包括以下几个方面: (1)“大数据决策”更加科学有效。如果人们以大数据分析作为基础进行决策,可全面获取相关决策信息,让数据主导决策,这种方法必将促进决策方式的创新和改变,彻底改变传统的决策方式,提高决策的科学性,并推动信息管理准则的重新定位。2009 年爆发的甲型H1N1 流感就是利用大数据的一个成功范例,谷歌公司通过分析网上搜索的大量记录,判断流感的传播源地,公共卫生机构官员通过这些有价值的数据信息采取了有针对性的行动决策。 (2)“大数据应用”促进行业融合。虽然大数据源于通信产业,但其影响绝不局限于通信产业,势必也将对其他产生较为深远的影响。目前,大数据正逐渐广泛应用于各个行业和领域,越来越多的企业开始以数据分析为辅助手段加强公司的日常管理和运营管理,如麦当劳、肯德基、苹果公司等旗舰专卖店的位置都是基于大数据分析完成选址的,另外数据分析技术在零售业也应用越来越广泛。 (3)“大数据开发”推动技术变革。大数据的应用需求,是大数据新技术开发的源泉。相信随着时代的不断发展,计算机系统的数据分析和数据挖掘功能将逐渐取代以往单纯依靠人们自身判断力的领域应用。借

《大数据时代下的数据挖掘》试题及答案..

《海量数据挖掘技术及工程实践》题目 一、单选题(共80题) 1)( D )的目的缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得到 和原始数据相同的分析结果。 A.数据清洗 B.数据集成 C.数据变换 D.数据归约 2)某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖 掘的哪类问题?(A) A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理 3)以下两种描述分别对应哪两种对分类算法的评价标准? (A) (a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。 (b)描述有多少比例的小偷给警察抓了的标准。 A. Precision,Recall B. Recall,Precision A. Precision,ROC D. Recall,ROC 4)将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C) A. 频繁模式挖掘 B. 分类和预测 C. 数据预处理 D. 数据流挖掘 5)当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数 据相分离?(B) A. 分类 B. 聚类 C. 关联分析 D. 隐马尔可夫链 6)建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的 哪一类任务?(C) A. 根据内容检索 B. 建模描述 C. 预测建模 D. 寻找模式和规则 7)下面哪种不属于数据预处理的方法? (D) A.变量代换 B.离散化

C.聚集 D.估计遗漏值 8)假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15在第几个箱子内? (B) A.第一个 B.第二个 C.第三个 D.第四个 9)下面哪个不属于数据的属性类型:(D) A.标称 B.序数 C.区间 D.相异 10)只有非零值才重要的二元属性被称作:( C ) A.计数属性 B.离散属性 C.非对称的二元属性 D.对称属性 11)以下哪种方法不属于特征选择的标准方法: (D) A.嵌入 B.过滤 C.包装 D.抽样 12)下面不属于创建新属性的相关方法的是: (B) A.特征提取 B.特征修改 C.映射数据到新的空间 D.特征构造 13)下面哪个属于映射数据到新的空间的方法? (A) A.傅立叶变换 B.特征加权 C.渐进抽样 D.维归约 14)假设属性income的最大最小值分别是12000元和98000元。利用最大最小规范化的方 法将属性的值映射到0至1的范围内。对属性income的73600元将被转化为:(D) A.0.821 B.1.224 C.1.458 D.0.716 15)一所大学内的各年纪人数分别为:一年级200人,二年级160人,三年级130人,四年 级110人。则年级属性的众数是: (A) A.一年级 B.二年级 C.三年级 D.四年级

相关文档
相关文档 最新文档