当前位置：文档库 › 大数据技术Hadoop面试题_西安光环大数据培训机构

大数据技术Hadoop面试题_西安光环大数据培训机构

https://www.wendangku.net/doc/1b2093069.html,

1. 下面哪个程序负责 HDFS 数据存储。答案C datanode

a)NameNode

b)Jobtracker

c)Datanode

d)secondaryNameNode

e)tasktracker

2. HDfS 中的 block 默认保存几份? 答案A默认3分

a)3 份

b)2 份

c)1 份

d)不确定

3. 下列哪个程序通常与 NameNode 在一个节点启动?答案D

a)SecondaryNameNode

https://www.wendangku.net/doc/1b2093069.html,

b)DataNode

c)TaskTracker

d)Jobtracker

此题分析：

hadoop的集群是基于master/slave模式，namenode和jobtracker属于master，datanode和tasktracker属于slave，master只有一个，而slave有多个SecondaryNameNode内存需求和NameNode在一个数量级上，所以通常secondary NameNode(运行在单独的物理机器上)和NameNode运行在不同的机器上。

JobTracker和TaskTracker

JobTracker 对应于 NameNode

TaskTracker 对应于 DataNode

DataNode 和NameNode 是针对数据存放来而言的

JobTracker和TaskTracker是对于MapReduce执行而言的

mapreduce中几个主要概念，mapreduce整体上可以分为这么几条执行线索：obclient，JobTracker与TaskTracker。

https://www.wendangku.net/doc/1b2093069.html,

1、JobClient会在用户端通过JobClient类将应用已经配置参数打包成jar 文件存储到hdfs，并把路径提交到Jobtracker,然后由JobTracker创建每一个Task(即MapTask和ReduceTask)并将它们分发到各个TaskTracker服务中去执行。

2、JobTracker是一个master服务，软件启动之后JobTracker接收Job，负责调度Job的每一个子任务task运行于TaskTracker上，并监控它们，如果发现有失败的task就重新运行它。一般情况应该把JobTracker部署在单独的机器上。

3、TaskTracker是运行在多个节点上的slaver服务。TaskTracker主动与JobTracker通信，接收作业，并负责直接执行每一个任务。TaskTracker都需要运行在HDFS的DataNode上。

4. Hadoop 作者答案C Doug cutting

a)Martin Fowler

b)Kent Beck

c)Doug cutting

5. HDFS 默认 Block Size 答案：B

a)32MB

b)64MB

https://www.wendangku.net/doc/1b2093069.html,

c)128MB

(因为版本更换较快，这里答案只供参考)

6. 下列哪项通常是集群的最主要瓶颈：答案：C磁盘

a)CPU

b)网络

c)磁盘IO

d)内存

该题解析：

首先集群的目的是为了节省成本，用廉价的pc机，取代小型机及大型机。小型机和大型机有什么特点?

1.cpu处理能力强

2.内存够大

所以集群的瓶颈不可能是a和d

3.网络是一种稀缺资源，但是并不是瓶颈。

4.由于大数据面临海量数据，读写数据都需要io，然后还要冗余数据，hadoop

https://www.wendangku.net/doc/1b2093069.html,

一般备3份数据，所以IO就会打折扣。

7. 关于 SecondaryNameNode 哪项是正确的?答案C

a)它是 NameNode 的热备

b)它对内存没有要求

c)它的目的是帮助 NameNode 合并编辑日志，减少 NameNode 启动时间

d)SecondaryNameNode 应与 NameNode 部署到一个节点。

多选题：

8. 下列哪项可以作为集群的管理?答案：ABD

a)Puppet

b)Pdsh

c)Cloudera Manager

d)Zookeeper

9. 配置机架感知的下面哪项正确：答案ABC

a)如果一个机架出问题，不会影响数据读写

https://www.wendangku.net/doc/1b2093069.html,

b)写入数据的时候会写到不同机架的 DataNode 中

c)MapReduce 会根据机架获取离自己比较近的网络数据

10. Client 端上传文件的时候下列哪项正确?答案B

a)数据经过 NameNode 传递给 DataNode

b)Client 端将文件切分为 Block，依次上传

c)Client 只上传数据到一台 DataNode，然后由 NameNode 负责 Block 复制工作

该题分析：

Client向NameNode发起文件写入的请求。

NameNode根据文件大小和文件块配置情况，返回给Client它所管理部分DataNode的信息。

Client将文件划分为多个Block，根据DataNode的地址信息，按顺序写入到每一个DataNode块中。

11. 下列哪个是 Hadoop 运行的模式：答案ABC

a)单机版

b)伪分布式

https://www.wendangku.net/doc/1b2093069.html,

c)分布式

12. Cloudera 提供哪几种安装 CDH 的方法?答案：ABCD

a)Cloudera manager

b)Tarball

c)Yum

d)Rpm

判断题：

13. Ganglia 不仅可以进行监控，也可以进行告警。(正确)

分析：此题的目的是考Ganglia的了解。严格意义上来讲是正确。ganglia 作为一款最常用的Linux环境中的监控软件，它擅长的的是从节点中按照用户的需求以较低的代价采集数据。但是ganglia在预警以及发生事件后通知用户上并不擅长。最新的ganglia已经有了部分这方面的功能。但是更擅长做警告的还有Nagios。Nagios，就是一款精于预警、通知的软件。通过将Ganglia和Nagios 组合起来，把Ganglia采集的数据作为Nagios的数据源，然后利用Nagios来发送预警通知，可以完美的实现一整套监控管理的系统。

14. Block Size 是不可以修改的。(错误)

分析：它是可以被修改的Hadoop的基础配置文件是hadoop-default.xml，

https://www.wendangku.net/doc/1b2093069.html,

默认建立一个Job的时候会建立Job的Config，Config首先读入hadoop-default.xml的配置，然后再读入hadoop-site.xml的配置(这个文件初始的时候配置为空)，hadoop-site.xml中主要配置需要覆盖的hadoop-default.xml的系统级配置。

15. Nagios 不可以监控 Hadoop 集群，因为它不提供 Hadoop 支持。(错误)

分析：Nagios是集群监控工具，而且是云计算三大利器之一

16. 如果 NameNode 意外终止，SecondaryNameNode 会接替它使集群继续工作。(错误)

分析：SecondaryNameNode是帮助恢复，而不是替代，如何恢复，可以查看.

17. Cloudera CDH 是需要付费使用的。(错误)

分析：第一套付费产品是Cloudera Enterpris，Cloudera Enterprise在美国加州举行的 Hadoop 大会 (Hadoop Summit) 上公开，以若干私有管理、监控、运作工具加强 Hadoop 的功能。收费采取合约订购方式，价格随用的 Hadoop 叢集大小变动。

18. Hadoop 是 Java 开发的，所以 MapReduce 只支持 Java 语言编写。(错误)

分析：rhadoop是用R语言开发的，MapReduce是一个框架，可以理解是一种思想，可以使用其他语言开发。

19. Hadoop 支持数据的随机读写。(错)

https://www.wendangku.net/doc/1b2093069.html,

分析：lucene是支持随机读写的，而hdfs只支持随机读。但是HBase可以来补救。HBase提供随机读写，来解决Hadoop不能处理的问题。HBase自底层设计开始即聚焦于各种可伸缩性问题：表可以很“高”，有数十亿个数据行;也可以很“宽”，有数百万个列;水平分区并在上千个普通商用机节点上自动复制。表的模式是物理存储的直接反映，使系统有可能提高高效的数据结构的序列化、存储和检索。

20. NameNode 负责管理 metadata，client 端每次读写请求，它都会从磁盘中读取或则会写入 metadata 信息并反馈 client 端。(错误)

此题分析：

NameNode 不需要从磁盘读取 metadata，所有数据都在内存中，硬盘上的只是序列化的结果，只有每次 namenode 启动的时候才会读取。

1)文件写入

Client向NameNode发起文件写入的请求。

NameNode根据文件大小和文件块配置情况，返回给Client它所管理部分DataNode的信息。

Client将文件划分为多个Block，根据DataNode的地址信息，按顺序写入到每一个DataNode块中。

2)文件读取

https://www.wendangku.net/doc/1b2093069.html,

Client向NameNode发起文件读取的请求。

21. NameNode 本地磁盘保存了 Block 的位置信息。(个人认为正确，欢迎提出其它意见)

分析：DataNode是文件存储的基本单元，它将Block存储在本地文件系统中，保存了Block的Meta-data，同时周期性地将所有存在的Block信息发送给NameNode。NameNode返回文件存储的DataNode的信息。

Client读取文件信息。

22. DataNode 通过长连接与 NameNode 保持通信。( )

这个有分歧：具体正在找这方面的有利资料。下面提供资料可参考。

首先明确一下概念：

(1).长连接

Client方与Server方先建立通讯连接，连接建立后不断开，然后再进行报文发送和接收。这种方式下由于通讯连接一直存在，此种方式常用于点对点通讯。

(2).短连接

Client方与Server每进行一次报文收发交易时才进行通讯连接，交易完毕后立即断开连接。此种方式常用于一点对多点通讯，比如多个Client连接一个Server.

https://www.wendangku.net/doc/1b2093069.html,

23. Hadoop 自身具有严格的权限管理和安全措施保障集群正常运行。(错误)

分析：hadoop只能阻止好人犯错，但是不能阻止坏人干坏事

24. Slave 节点要存储数据，所以它的磁盘越大越好。(错误)

分析：一旦Slave节点宕机，数据恢复是一个难题

25. hadoop dfsadmin –report 命令用于检测 HDFS 损坏块。(错误)

26. Hadoop 默认调度器策略为 FIFO(正确)

27. 集群内每个节点都应该配 RAID，这样避免单磁盘损坏，影响整个节点运行。(错误)

分析：首先明白什么是RAID，可以参考百科磁盘阵列。这句话错误的地方在于太绝对，具体情况具体分析。题目不是重点，知识才是最重要的。因为hadoop 本身就具有冗余能力，所以如果不是很严格不需要都配备RAID。具体参考第二题。

28. 因为 HDFS 有多个副本，所以 NameNode 是不存在单点问题的。(错误)

29. 每个 map 槽就是一个线程。(错误)

分析：首先我们知道什么是map 槽,map 槽->map slotmap slot 只是一个逻辑值( org.apache.hadoop.mapred.TaskTracker.TaskLauncher.numFreeSlots )，而不是对应着一个线程或者进程

https://www.wendangku.net/doc/1b2093069.html,

30. Mapreduce 的 input split 就是一个 block。(错误)

31. NameNode 的 Web UI 端口是 50030，它通过 jetty 启动的 Web 服务。(错误)

32. Hadoop 环境变量中的 HADOOP_HEAPSIZE 用于设置所有 Hadoop 守护线程的内存。它默认是 200 GB。(错误)

分析：hadoop为各个守护进程(namenode,secondarynamenode,jobtracker,datanode,tasktracker)统一分配的内存在hadoop-env.sh中设置，参数为HADOOP_HEAPSIZE，默认为1000M。

33. DataNode 首次加入 cluster 的时候，如果 log 中报告不兼容文件版本，那需要 NameNode执行“Hadoop amenode -format”操作格式化磁盘。(错误)

为什么大家选择光环大数据！

大数据培训、人工智能培训、Python培训、大数据培训机构、大数据培训班、数据分析培训、大数据可视化培训，就选光环大数据！光环大数据，聘请大数据领域具有多年经验的讲师，提高教学的整体质量与教学水准。讲师团及时掌握时代的技术，将时新的技能融入教学中，让学生所学知识顺应时代所需。通过深入浅出、通俗易懂的教学方式，指导学生较快的掌握技能知识，帮助莘莘学子实现就业梦想。

https://www.wendangku.net/doc/1b2093069.html,

光环大数据启动了推进人工智能人才发展的“AI智客计划”。光环大数据专注国内大数据和人工智能培训，将在人工智能和大数据领域深度合作。未来三年，光环大数据将联合国内百所大学，通过“AI智客计划”，共同推动人工智能产业人才生态建设，培养和认证5-10万名AI大数据领域的人才。

参加“AI智客计划”，享2000元助学金！

【报名方式、详情咨询】

光环大数据网站报名：https://www.wendangku.net/doc/1b2093069.html,

手机报名链接：http:// https://www.wendangku.net/doc/1b2093069.html, /mobile/

hadoop大数据技术与应用第1章练习题

第一章一、单选题 1、下面哪个选项不属于Google的三驾马车？（C ） A、GFS B、MapReduce C、HDFS D、BigTable 2、大数据的数据量现在已经达到了哪个级别？（C ） A、GB B、TB C、PB D、ZB 3、2003年，Google公司发表了主要讲解海量数据的可靠存储方法的论文是？（ A ） A、“The Google File System” B、“MapReduce: Simplified Data Processing on Large Clusters” C、“Bigtable: A Distributed Storage System for Structured Data” D、“The Hadoop File System” 4、下面哪个选项不是HDFS架构的组成部分？（ C ） A、NameNode B、DataNode C、Jps D、SecondaryNameNode 5、Hadoop能够使用户轻松开发和运行处理大数据的应用程序，下面不属于Hadoop特性的是（C ） A、高可靠性、高容错性 B、高扩展性 C、高实时性 D、高效性 6、2004年，Google公司发表了主要讲解海量数据的高效计算方法的论文是？（ B ） A、“The Google File System” B、“MapReduce: Simplified Data Processing on Large Clusters” C、“Bigtable: A Distributed Storage System for Structured Data” D、“The Hadoop File System” 7、建立在Hadoop文件系统之上的分布式的列式数据库？（A ）

Hadoop题库

C. 磁盘IO D. 内存 6. 下列关于MapReduce说法不正确的是_____C_。 A. MapReduce是一种计算框架 B. MapReduce来源于google的学术论文 C. MapReduce程序只能用java语言编写 D. MapReduce隐藏了并行计算的细节，方便使用 8. HDFS是基于流数据模式访问和处理超大文件的需求而开发的，具有高容错、高可靠性、高可扩展性、高吞吐率等特征，适合的读写任务是 __D____。 A．一次写入，少次读 B．多次写入，少次读 C．多次写入，多次读 D．一次写入，多次读 9. HBase依靠__A____存储底层数据。 A. HDFS B. Hadoop C. Memory D. MapReduce 10. HBase依赖___D___提供强大的计算能力。 A. Zookeeper B. Chubby C. RPC D. MapReduce

运维面试题含答案

运维工程师面试题姓名: 答题时间: 1.新安装MYSQL后怎样提升MYSQL的安全级别？ A.修改mysql默认端口下可以通过iptables来限制访问mysql端口的IP地址 C.对所有用户设置较复杂密码并严格指定对应账号的访问IP（可在mysql库中user表中指定用户的访问可访问IP地址）特权账号的处理（建议给root账号设置强密码，并指定只允许本地登录） E.开启二进制查询日志和慢查询日志安装目录及数据存储目录权限控制：给mysql安装目录读取权限，给mysql日志和数据所在目录读取和写入权限 G.删除无用mysql账号和删除无用的数据库（安装好的mysql默认会有个test库，可将其删除） 2.MYSQL的主从原理，怎么配置文件？整体上来说，复制有3个步骤：将改变记录到二进制日志(binary log)中（这些记录叫做二进制日志事件，binary log events）；将master的binary log events拷贝到它的中继日志(relay log)；重做中继日志中的事件，将改变反映它自己的数据。 3.mysql主从复制的优点 <1> 如果主服务器出现问题，可以快速切换到从服务器提供的服务； <2> 可以在从服务器上执行查询操作，降低主服务器的访问压力；

<3> 可以在从服务器上执行备份，以避免备份期间影响主服务器的服务。 4.Mysql复制的基本原理过程（1）Slave上面的IO线程连接上Master，并请求从指定日志文件的指定位置（或者从最开始的日志）之后的日志内容；（2）Master接收到来自Slave的IO线程的请求后，通过负责复制的IO线程根据请求信息读取指定日志指定位置之后的日志信息，返回给Slave端的IO线程。返回信息中除了日志所包含的信息之外，还包括本次返回的信息在Master端binary log文件的名称以及在Binary log中的位置；（3）Slave的IO线程收到信息后，将接收到的日志内容依次写入到Slave端的RelayLog 文件（）的最末端，并将读取到的Master端的bin-log的文件名和位置记录到master-info文件中，以便在下一次读取的时候能够清楚的告诉master“我需要从某个bin-log的哪个位置开始往后的日志内容，请发给我” （4）Slave的SQL线程检测到Relay Log中新增加了内容后，会马上解析该Log文件中的内容成为在Master端真实执行时候的那些可执行的查询或操作语句，并在自身执行那些查询或操作语句，这样，实际上就是在master端和Slave端执行了同样的查询或操作语句，所以两端的数据是完全一样的。 5.为MYSQL添加一个用户？ mysql> grant select,insert,update,delete on book.* to test2@localhost identified by “abc”;? ? #增加test2用户，密码为abc。并只能在localhost这台主机上登录，并且只能访问book这个库中的表，具有查询，插入，更新，删除权限；语法：mysql> GRANT <权限> ON <库>.<表> TO ‘用户’@’主机名’ identified by “密码”; 6.写一个脚本将数据库备份并打包至远程服务器/backup目录下。 mount /mnt cd /mnt /usr/local/mysql/bin/mysqldump -hlocalhost -uroot test > tar czf rm -f

Hadoop试题题库

精品文档 1. 以下哪一项不属于Hadoop可以运行的模式___C___。 A. 单机（本地）模式 B. 伪分布式模式 C. 互联模式 D. 分布式模式 2. Hadoop的作者是下面哪一位__B____。 A. Martin Fowler B. Doug cutting C. Kent Beck D. Grace Hopper 3. 下列哪个程序通常与 NameNode 在同一个节点启动__D___。 A. TaskTracker B. DataNode C. SecondaryNameNode D. Jobtracker 4. HDFS 默认 Block Size的大小是___B___。 A.32MB B.64MB C.128MB D.256M 5. 下列哪项通常是集群的最主要瓶颈____C__。 A. CPU B. 网络 C. 磁盘IO D. 内存 6. 下列关于MapReduce说法不正确的是_____C_。 A. MapReduce是一种计算框架 B. MapReduce来源于google的学术论文 C. MapReduce程序只能用java语言编写 D. MapReduce隐藏了并行计算的细节，方便使用 8. HDFS是基于流数据模式访问和处理超大文件的需求而开发的，具有高容错、高可靠性、高可扩展性、高吞吐率等特征，适合的读写任务是 __D____。 A．一次写入，少次读 B．多次写入，少次读 C．多次写入，多次读 D．一次写入，多次读

9. HBase依靠__A____存储底层数据。 A. HDFS B. Hadoop C. Memory D. MapReduce 10. HBase依赖___D___提供强大的计算能力。 A. Zookeeper B. Chubby C. RPC D. MapReduce 11. HBase依赖___A___提供消息通信机制 A. Zookeeper B. Chubby C. RPC D. Socket 12. 下面与HDFS类似的框架是___C____？ A. NTFS B. FAT32 C. GFS D. EXT3 13. 关于 SecondaryNameNode 下面哪项是正确的___C___。 A. 它是 NameNode 的热备 B. 它对内存没有要求 C. 它的目的是帮助 NameNode 合并编辑日志，减少 NameNode 启动时间 D. SecondaryNameNode 应与 NameNode 部署到一个节点 14. 大数据的特点不包括下面哪一项___D___。 A. 巨大的数据量 B. 多结构化数据 C. 增长速度快 D. 价值密度高 HBase测试题 1. HBase来源于哪一项？ C

Hadoop大数据技术与应用04 YARN

单选题 1、以下选项哪个是YARN的组成部分？（A） A、Container、ResourceManager、NodeManager、ApplicationMaster B、Container、ResourceManager、NodeManager、ApplicationManager C、Container、ResourceManager、Scheduler、ApplicationMaster D、Container、ApplicationManager、NodeManager、ApplicationMaster 2、下列关于YARN的描述错误的是？（C） A、ResourceManager负责整个系统的资源分配和管理，是一个全局的资源管理器 B、NodeManager是每个节点上的资源和任务管理器 C、ApplicationManager是一个详细的框架库，它结合从ResourceManager 获得的资源和 NodeManager协同工作来运行和监控任务 D、调度器根据资源情况为应用程序分配封装在Container中的资源 3、下列关于调度器的描述不正确的是？（A） A、先进先出调度器可以是多队列 B、容器调度器其实是多个FIFO队列 C、公平调度器不允许管理员为每个队列单独设置调度策略 D、先进先出调度器以集群资源独占的方式运行作业 4、YARN哪种调度器采用的是单队列？（A） A、FIFO Scheduler B、Capacity Scheduler C、Fair Scheduler D、ResourceManager

1、YARN不仅支持MapReduce，还支持Spark，Strom等框架。 ( √ ) 2、Container是YARN中资源的抽象，它封装了某个节点上的多维度资源。 ( √ ) 3、YARN的三种调度器只有FIFO是属于单队列的。 ( √ ) 4、在YARN的整个工作过程中，Container是属于动态分配的。 ( √ )

大数据工程师面试题

大数据工程师面试题大数据工程师面试，对于很多人来说应该都不陌生了吧，虽说大数据就业前景很好，但想要成功进入名企，并不是一件容易的事情，不仅仅需要专业的技能，还需要你在面试的时候认真准备一下。面试的时候，我们会遇到各种各样的问题，千锋讲师今天就先讲解一下面试经常会遇到的问题，Hadoop是如何工作的？ Hadoop是一个分布式文件系统（Hadoop Distributed File System），简称HDFS。Hadoop是一个能够对大量数据进行分布式处理的软件框架，以一种可靠、高效、可伸缩的方式进行数据处理。所以说Hadoop解决了大数据如何存储的问题，因而在大数据培训机构中是必须学习的课程，也是面试中面试官非常注重的一个技术点。 Hadoop是如何工作的？ Hadoop是从Google文件系统发源而来，并且他是一个用Java开发的跨平台的应用。核心组件有: Hadoop Common，拥有其他模块所依赖的库和基础

工具，Hadoop分布式文件系统(HDFS)，负责存储，Hadoop YARN，管理计算资源，和Hadoop MapReduce，负责处理的过程。 Hadoop把文件拆成小块并且把他们分发给集群中的节点。然后，它使用打包的代码分发到节点上并行处理数据。这意味着可以处理数据的速度会比使用传统的体系结构的更快。一个典型的Hadoop集群都会有主节点和从节点或者叫工作节点。主节点有一个任务跟踪器，任务调度，名字节点和数据节点组成。从节点通常作为一个数据节点和任务调度器，不过特殊的场景下程序可能只有数据节点然后在其他的从节点进行处理计算。在大的Hadoop集群中，通常会使用一个专用的名字节点来管理HDFS节点的文件系统索引信息，这防止了文件系统的数据丢失和损坏。千锋教育拥有一支的强师队伍，在教学研究方面，我们老师不断的推陈出新，探索更新的教学方式，结合时代所需不断更新课程大纲，加强学生对于知识的理解和运用。千锋讲师对于大数据行业时刻保持一定的敏感性和前瞻性，定期与各大企业的技术官交流分析，掌握大数据的发展动向，不仅仅可以帮助同学们更好的学习大数据技术，还会预测一些大数据工程师面试题，为同学们的就业之路披荆斩棘。关键词：大数据工程师面试题

hadoop练习题--带答案资料

h a d o o p练习题--带答案

Hadoop 练习题姓名：分数：单项选择题 1.下面哪个程序负责HDFS数据存储。 a)NameNode b)Jobtracker c)Datanode √ d)secondaryNameNode e)tasktracker 2.HDfS中的block默认保存几份？ a)3份√ b)2份 c)1份 d)不确定 3.下列哪个程序通常与NameNode在一个节点启动？ a)SecondaryNameNode b)DataNode c)TaskTracker d)Jobtracker√ 4.Hadoop作者 a)Martin Fowler b)Kent Beck c)Doug cutting√ 5.HDFS默认Block Size a)32MB b)64MB√ c)128MB 6.下列哪项通常是集群的最主要的性能瓶颈 a)CPU b)网络 c)磁盘√ d)内存

7.关于SecondaryNameNode哪项是正确的？ a)它是NameNode的热备 b)它对内存没有要求 c)它的目的是帮助NameNode合并编辑日志，减少NameNode启动时间√ d)SecondaryNameNode应与NameNode部署到一个节点 8.一个gzip文件大小75MB，客户端设置Block大小为64MB，请我其占用几个Block？ a) 1 b)2√ c) 3 d) 4 9.HDFS有一个gzip文件大小75MB，客户端设置Block大小为64MB。当运行mapreduce 任务读取该文件时input split大小为？ a)64MB b)75MB√ c)一个map读取64MB，另外一个map读取11MB 10.HDFS有一个LZO（with index）文件大小75MB，客户端设置Block大小为64MB。当运行mapreduce任务读取该文件时input split大小为？ a)64MB b)75MB c)一个map读取64MB，另外一个map读取11MB√ 多选题： 11.下列哪项可以作为集群的管理工具 a)Puppet√ b)Pdsh√ c)Cloudera Manager√ d)Rsync + ssh + scp√ 12.配置机架感知的下面哪项正确 a)如果一个机架出问题，不会影响数据读写√ b)写入数据的时候会写到不同机架的DataNode中√ c)MapReduce会根据机架获取离自己比较近的网络数据√ 13.Client端上传文件的时候下列哪项正确 a)数据经过NameNode传递给DataNode b)Client端将文件以Block为单位，管道方式依次传到DataNode√ c)Client只上传数据到一台DataNode，然后由NameNode负责Block复制工作 d)当某个DataNode失败，客户端会继续传给其它DataNode √

(完整版)hadoop常见笔试题答案

Hadoop测试题一．填空题，1分（41空），2分（42空）共125分 1.(每空1分) datanode 负责HDFS数据存储。 2.(每空1分)HDFS中的block默认保存 3 份。 3.(每空1分)ResourceManager 程序通常与NameNode 在一个节点启动。 4.(每空1分)hadoop运行的模式有：单机模式、伪分布模式、完全分布式。 5.(每空1分)Hadoop集群搭建中常用的4个配置文件为：core-site.xml 、hdfs-site.xml 、mapred-site.xml 、yarn-site.xml 。 6.(每空2分)HDFS将要存储的大文件进行分割，分割后存放在既定的存储块中，并通过预先设定的优化处理，模式对存储的数据进行预处理，从而解决了大文件储存与计算的需求。 7.(每空2分)一个HDFS集群包括两大部分，即namenode 与datanode 。一般来说，一个集群中会有一个namenode 和多个datanode 共同工作。 8.(每空2分) namenode 是集群的主服务器，主要是用于对HDFS中所有的文件及内容数据进行维护，并不断读取记录集群中datanode 主机情况与工作状态，并通过读取与写入镜像日志文件的方式进行存储。 9.(每空2分) datanode 在HDFS集群中担任任务具体执行角色，是集群的工作节点。文件被分成若干个相同大小的数据块，分别存储在若干个datanode 上，datanode 会定期向集群内namenode 发送自己的运行状态与存储内容，并根据namnode 发送的指令进行工作。 10.(每空2分) namenode 负责接受客户端发送过来的信息，然后将文件存储位置信息发送给client ，由client 直接与datanode 进行联系，从而进行部分文件的运算与操作。 11.(每空1分) block 是HDFS的基本存储单元，默认大小是128M 。 12.(每空1分)HDFS还可以对已经存储的Block进行多副本备份，将每个Block至少复制到 3 个相互独立的硬件上，这样可以快速恢复损坏的数据。 13.(每空2分)当客户端的读取操作发生错误的时候，客户端会向namenode 报告错误，并请求namenode 排除错误的datanode 后，重新根据距离排序，从而获得一个新的的读取路径。如果所有的datanode 都报告读取失败，那么整个任务就读取失败。14.(每空2分)对于写出操作过程中出现的问题，FSDataOutputStream 并不会立即关闭。客户端向Namenode报告错误信息，并直接向提供备份的datanode 中写入数据。备份datanode 被升级为首选datanode ，并在其余2个datanode 中备份复制数据。 NameNode对错误的DataNode进行标记以便后续对其进行处理。 15.(每空1分)格式化HDFS系统的命令为：hdfs namenode –format 。 16.(每空1分)启动hdfs的shell脚本为：start-dfs.sh 。 17.(每空1分)启动yarn的shell脚本为：start-yarn.sh 。 18.(每空1分)停止hdfs的shell脚本为：stop-dfs.sh 。 19.(每空1分)hadoop创建多级目录（如：/a/b/c）的命令为：hadoop fs –mkdir –p /a/b/c 。 20.(每空1分)hadoop显示根目录命令为：hadoop fs –lsr 。 21.(每空1分)hadoop包含的四大模块分别是：Hadoop common 、HDFS 、

一文读懂大数据：Hadoop,大数据技术、案例及相关应用

你想了解大数据，却对生涩的术语毫不知情？你想了解大数据的市场和应用，却又没有好的案例和解说？别担心，这本来自Wikibon社区的小书想要帮你。是的，这是一本小书而不是一篇文章，因为它详实细致的让你从一个完全不了解大数据技术及相关应用的门外汉，变成一个熟知其概念和意义的“内行人”，所以它很棒！主要内容目录 1.来自Wikibon社区的大数据宣言 (1) 2.数据处理和分析：传统方式 (2) 3.大数据性质的变化 (3) 4.大数据处理和分析的新方法 (5) 4.1 Hadoop (5) 4.1.1 Hadoop如何工作 (6) 4.1.2 Hadoop的技术组件 (7) 4.1.3 Hadoop：优点和缺点 (8) 4.2 NoSQL (8) 4.3 大规模并行分析数据库 (9) 5.大数据方法的互补 (10) 6.大数据供应商发展状况 (12) 7.大数据：实际使用案例 (13) 8.大数据技能差距 (14) 9.大数据：企业和供应商的后续动作 (15) 1.来自Wikibon社区的大数据宣言为公司提供有效的业务分析工具和技术是首席信息官的首要任务。有效的业务分析（从基本报告到高级的数据挖掘和预测分析）使得数据分析人员和业务人员都可以从数据中获得见解，当这些见解转化为行动，会给公司带来更高的效率和盈利能力。所有业务分析都是基于数据的。传统意义上，这意味着企业自己创建和存储的结构化数据，如CRM系统中的客户数据，ERP系统中的运营数据，以及会计数据库

中的财务数据。得益于社交媒体和网络服务（如Facebook，Twitter），数据传感器以及网络设备，机器和人类产生的网上交易，以及其他来源的非结构化和半结构化的数据的普及，企业现有数据的体积和类型以及为追求最大商业价值而产生的近实时分析的需求正在迅速增加。我们称这些为大数据。传统的数据管理和业务分析工具及技术都面临大数据的压力，与此同时帮助企业获得来自大数据分析见解的新方法不断涌现。这些新方法采取一种完全不同于传统工具和技术的方式进行数据处理、分析和应用。这些新方法包括开源框架Hadoop，NoSQL数据库（如Cassandra和Accumulo）以及大规模并行分析数据库（如EMC的Greenplum，惠普的Vertica和TeradataASTERData）。这意味着，企业也需要从技术和文化两个角度重新思考他们对待业务分析的方式。对于大多数企业而言，这种转变并不容易，但对于接受转变并将大数据作为业务分析实践基石的企业来说，他们会拥有远远超过胆小对手的显著竞争优势。大数据助力复杂的业务分析可能为企业带来前所未有的关于客户行为以及动荡的市场环境的深入洞察，使得他们能够更快速的做出数据驱动业务的决策，从而比竞争对手更有效率。从存储及支持大数据处理的服务器端技术到为终端用户带来鲜活的新见解的前端数据可视化工具，大数据的出现也为硬件、软件和服务供应商提供了显著的机会。这些帮助企业过渡到大数据实践者的供应商，无论是提供增加商业价值的大数据用例，还是发展让大数据变为现实的技术和服务，都将得到茁壮成长。大数据是所有行业新的权威的竞争优势。认为大数据是昙花一现的企业和技术供应商很快就会发现自己需要很辛苦才能跟上那些提前思考的竞争对手的步伐。在我们看来，他们是非常危险的。对于那些理解并拥抱大数据现实的企业，新创新，高灵活性，以及高盈利能力的可能性几乎是无止境的。 2.数据处理和分析：传统方式传统上，为了特定分析目的进行的数据处理都是基于相当静态的蓝图。通过常规的业务流程，企业通过CRM、ERP和财务系统等应用程序，创建基于稳定数据模型的结构化数据。数据集成工具用于从企业应用程序和事务型数据库中提取、转换和加载数据到一个临时区域，在这个临时区域进行数据质量检查和数据标准化，

Hadoop最全面试题整理(附目录)

Hadoop面试题目及答案(附目录) 选择题 1.下面哪个程序负责HDFS 数据存储。 a)NameNode b)Jobtracker c)Datanode d)secondaryNameNode e)tasktracker 答案C datanode 2. HDfS 中的block 默认保存几份？ a)3 份b)2 份c)1 份d)不确定答案A 默认3 份 3.下列哪个程序通常与NameNode 在一个节点启动？ a)SecondaryNameNode b)DataNode c)TaskTracker d)Jobtracker 答案D 分析：hadoop 的集群是基于master/slave 模式，namenode 和jobtracker 属于master，datanode 和tasktracker 属于slave，master 只有一个，而slave 有多个SecondaryNameNode 内存需求和NameNode 在一个数量级上，所以通常secondaryNameNode（运行在单独的物理机器上）和NameNode 运行在不同的机器上。 JobTracker 和TaskTracker JobTracker 对应于NameNode，TaskTracker 对应于DataNode，DataNode 和NameNode 是针对数据存放来而言的，JobTracker 和TaskTracker 是对于MapReduce 执行而言的。mapreduce 中几个主要概念，mapreduce 整体上可以分为这么几条执行线索：jobclient，JobTracker 与TaskTracker。 1、JobClient 会在用户端通过JobClient 类将应用已经配置参数打包成jar 文件存储到hdfs，并把路径提交到Jobtracker,然后由JobTracker 创建每一个Task（即MapTask 和ReduceTask）并将它们分发到各个TaskTracker 服务中去执行。 2、JobTracker 是一个master 服务，软件启动之后JobTracker 接收Job，负责调度Job 的每一个子任务task 运行于TaskTracker 上，并监控它们，如果发现有失败的task 就重新运行它。一般情况应该把JobTracker 部署在单独的机器上。 3、TaskTracker 是运行在多个节点上的slaver 服务。TaskTracker 主动与JobTracker 通信，接收作业，并负责直接执行每一个任务。TaskTracker 都需要运行在HDFS 的DataNode 上。 4. Hadoop 作者 a)Martin Fowler b)Kent Beck c)Doug cutting 答案C Doug cutting 5. HDFS 默认Block Size a)32MB b)64MB c)128MB 答案：B 6. 下列哪项通常是集群的最主要瓶颈 a)CPU b)网络c)磁盘IO d)内存答案：C 磁盘首先集群的目的是为了节省成本，用廉价的pc 机，取代小型机及大型机。小型机和大型机

01第一章初识Hadoop大数据技术

第1章初识Hadoop大数据技术本章主要介绍大数据的时代背景，给出了大数据的概念、特征，还介绍了大数据相关问题的解决方案、Hadoop大数据技术以及Hadoop的应用案例。本章的主要内容如下。（1）大数据技术概述。（2）Google的三篇论文及其思想。（3）Hadoop概述。（4）Hadoop生态圈。（5）Hadoop的典型应用场景和应用架构。 1.1 大数据技术概述 1.1.1 大数据产生的背景 1946年，计算机诞生，当时的数据与应用紧密捆绑在文件中，彼此不分。19世纪60年代，IT系统规模和复杂度变大，数据与应用分离的需求开始产生，数据库技术开始萌芽并蓬勃发展，并在1990年后逐步统一到以关系型数据库为主导，具体发展阶段如图1-1所示。

Hadoop 大数据技术与应用图1-1 数据管理技术在2001年前的两个发展阶段 2001年后，互联网迅速发展，数据量成倍递增。据统计，目前，超过150亿个设备连接到互联网，全球每秒钟发送290万封电子邮件，每天有2.88万小时视频上传到YouTube 网站，Facebook 网站每日评论达32亿条，每天上传照片近3亿张，每月处理数据总量约130万TB 。2016年全球产生数据量16.1ZB ，预计2020年将增长到35ZB （1ZB = 1百万，PB = 10亿TB ），如图1-2所示。图1-2 IDC 数据量增长预测报告 2011年5月，EMC World 2011大会主题是“云计算相遇大数据”，会议除了聚焦EMC 公司一直倡导的云计算概念外，还抛出了“大数据”（BigData ）的概念。2011年6月底，IBM 、麦肯锡等众多国外机构发布“大数据”相关研究报告，并予以积极的跟进。 19世纪60年代，IT 系统规模和复杂度变大，数据与应用分离的需求开始产生，数据库技术开始萌芽并蓬勃发展，并在1990年后逐步统一到以关系型数据库为主导 1946年，计算机诞生，数据与应用紧密捆绑在文件中，彼此不分 1946 1951 1956 1961 1970 1974 1979 1991 2001 … 网络型 E-R SQL 关系型数据库数据仓库第一台计算机 ENIAC 面世磁带+ 卡片人工管理磁盘被发明，进入文件管理时代 GE 公司发明第一个网络模型数据库，但仅限于GE 自己的主机 IBM E. F.Dodd 提出关系模型 SQL 语言被发明 ORACLE 发布第一个商用SQL 关系数据库，后续快速发展数据仓库开始涌现，关系数据库开始全面普及且与平台无关，数据管理技术进入成熟期 0.8ZB ：将一堆 DVD 堆起来够地球到月亮一个来回 35ZB ：将一堆DVD 堆起来是地球到火星距离的一半 IDC 报告“Data Universe Study ” 预测：全世界数据量将从2009 年的0.8ZB 增长到2020年的 35ZB ，增长44倍！年均增长率>40%！

大数据技术Hadoop面试题

大数据技术Hadoop面试题,看看你能答对多少？单项选择题 1. 下面哪个程序负责HDFS 数据存储。 a)NameNode b)Jobtracker c)Datanode d)secondaryNameNode e)tasktracker 2. HDfS 中的block 默认保存几份？ a)3 份 b)2 份 c)1 份 d)不确定 3. 下列哪个程序通常与NameNode 在一个节点启动？ a)SecondaryNameNode b)DataNode c)TaskTracker d)Jobtracker 4. Hadoop 作者 a)Martin Fowler b)Kent Beck c)Doug cutting 5. HDFS 默认Block Size a)32MB b)64MB c)128MB 6. 下列哪项通常是集群的最主要瓶颈 a)CPU b)网络 c)磁盘 d)内存 7. 关于SecondaryNameNode 哪项是正确的？ a)它是NameNode 的热备 b)它对内存没有要求 c)它的目的是帮助NameNode 合并编辑日志，减少NameNode 启动时间 d)SecondaryNameNode 应与NameNode 部署到一个节点多选题： 8. 下列哪项可以作为集群的管理工具 a)Puppet b)Pdsh c)Cloudera Manager d)d)Zookeeper

9. 配置机架感知的下面哪项正确 a)如果一个机架出问题，不会影响数据读写 b)写入数据的时候会写到不同机架的DataNode 中 c)MapReduce 会根据机架获取离自己比较近的网络数据 10. Client 端上传文件的时候下列哪项正确 a)数据经过NameNode 传递给DataNode b)Client 端将文件切分为Block，依次上传 c)Client 只上传数据到一台DataNode，然后由NameNode 负责Block 复制工作 11. 下列哪个是Hadoop 运行的模式 a)单机版 b)伪分布式 c)分布式 12. Cloudera 提供哪几种安装CDH 的方法 a)Cloudera manager b)Tar ball c)Yum d)Rpm 判断题： 13. Ganglia 不仅可以进行监控，也可以进行告警。（） 14. Block Size 是不可以修改的。（） 15. Nagios 不可以监控Hadoop 集群，因为它不提供Hadoop 支持。（） 16. 如果NameNode 意外终止，SecondaryNameNode 会接替它使集群继续工作。（） 17. Cloudera CDH 是需要付费使用的。（） 18. Hadoop 是Java 开发的，所以MapReduce 只支持Java 语言编写。（） 19. Hadoop 支持数据的随机读写。（） 20. NameNode 负责管理metadata，client 端每次读写请求，它都会从磁盘中读取或则会写入metadata 信息并反馈client 端。（） 21. NameNode 本地磁盘保存了Block 的位置信息。（） 22. DataNode 通过长连接与NameNode 保持通信。（） 23. Hadoop 自身具有严格的权限管理和安全措施保障集群正常运行。（） 24. Slave 节点要存储数据，所以它的磁盘越大越好。（） 25. hadoop dfsadmin –report 命令用于检测HDFS 损坏块。（） 26. Hadoop 默认调度器策略为FIFO（） 27. 集群内每个节点都应该配RAID，这样避免单磁盘损坏，影响整个节点运行。（） 28. 因为HDFS 有多个副本，所以NameNode 是不存在单点问题的。（） 29. 每个map 槽就是一个线程。（） 30. Mapreduce 的input split 就是一个block。（） 31. NameNode 的Web UI 端口是50030，它通过jetty 启动的Web 服务。（） 32. Hadoop 环境变量中的HADOOP_HEAPSIZE 用于设置所有Hadoop 守护线程的内存。它默认是200 GB。（） 33. DataNode 首次加入cluster 的时候，如果log 中报告不兼容文件版本，那需要NameNode执行“Hadoop namenode -format”操作格式化磁盘。（）【编辑推荐】没有数据分析大数据什么也不是...... 大数据告诉你，真正的白富美的生活是怎样的呢？

(完整版)hadoop习题册

第一章大数据概述 1.互联网的发展分为______个阶段。 A．一 B.三 C.二 D.四 2.下列不属于大数据特点的是（）。 A.种类和来源多样化 B.数据量巨大 C.分析处理速度快 D.价值密度高 3.互联网发展的第_____个时代为智能互联网。 A.3.0 B.4.0 C.1.0 D.2.0 4.关于大数据叙述不正确的一项是（）。 A.大数据=“海量数据”+“复杂类型的数据” B.大数据是指在一定时间对内容抓取、管理和处理的数据集合 C.大数据可以及时有效的分析海量的数据 D.数据包括结构化数据、半结构化数据、结构化数据。 5.下列数据换算正确的一项为（）。 A.1YB=1024EB B.1TB=1024MB C.1PB==1024EB D.1024ZB=1EB 6.结构化数据的表现形式为______。 A.文本 B.视图 C.二维表 D.查询 7.结构化的数据，先有________,再有_________. A.数据结构 B.结构数据 C.内容结构 D.结构内容 8.结构化的数据，先有________,再有_________. A.数据结构 B.结构数据 C.内容结构 D.结构内容 9.软件是大数据的_________。 A.核心 B.部件 C.引擎 D.集合 10.大数据技术不包括( )。 A.数据计算 B.数据存储 C.数据冗余 D.数据采集 11.大数据的特点不包括（）。 A.数量大 B.类型少 C.速度快 D.价值高第二章Hadoop简介 1.下列对云栈架构层数不正确的一项为________。 A.三层云栈架构 B.四层云栈架构 C.五层云栈架构 D.六层云栈架构 2.下列______不是云计算三层架构的概括。

Hadoop试题题库

1.以下哪一项不属于H a d o o p可以运行的模式___C___。 A. 单机（本地）模式 B. 伪分布式模式 C. 互联模式 D. 分布式模式 2. Hadoop的作者是下面哪一位__B____。 A. Martin Fowler B. Doug cutting C. Kent Beck D. Grace Hopper 3. 下列哪个程序通常与 NameNode 在同一个节点启动__D___。 A. TaskTracker B. DataNode C. SecondaryNameNode D. Jobtracker 4. HDFS 默认 Block Size的大小是___B___。 5. 下列哪项通常是集群的最主要瓶颈____C__。 A. CPU B. 网络 C. 磁盘IO D. 内存 6. 下列关于MapReduce说法不正确的是_____C_。 A. MapReduce是一种计算框架 B. MapReduce来源于google的学术论文 C. MapReduce程序只能用java语言编写 D. MapReduce隐藏了并行计算的细节，方便使用 8. HDFS是基于流数据模式访问和处理超大文件的需求而开发的，具有高容错、高可靠性、高可扩展性、高吞吐率等特征，适合的读写任务是 __D____。 A．一次写入，少次读 B．多次写入，少次读 C．多次写入，多次读 D．一次写入，多次读 9. HBase依靠__A____存储底层数据。 A. HDFS B. Hadoop C. Memory D. MapReduce 10. HBase依赖___D___提供强大的计算能力。 A. Zookeeper

Hadoop 100道面试题及答案解析

3.6 误） 3.7Hadoop支持数据的随机读写。（错） (8) NameNode负责管理metadata，client端每次读写请求，它都会从磁盘中3.8 读取或则会写入metadata信息并反馈client端。（错误） (8) NameNode本地磁盘保存了Block的位置信息。（个人认为正确，欢迎提出其它意见） (9) 3.9 3.10 3.11DataNode通过长连接与NameNode保持通信。（有分歧） (9) Hadoop自身具有严格的权限管理和安全措施保障集群正常运行。（错误）9 3.12 3.13 3.14Slave节点要存储数据，所以它的磁盘越大越好。（错误） (9) hadoop dfsadmin–report命令用于检测HDFS损坏块。（错误） (9) Hadoop默认调度器策略为FIFO（正确） (9) 100道常见Hadoop面试题及答案解析目录 1单选题 (5) 1.1 1.2 1.3 1.4 1.5 1.6 1.7下面哪个程序负责HDFS数据存储。 (5) HDfS中的block默认保存几份？ (5) 下列哪个程序通常与NameNode在一个节点启动？ (5) Hadoop作者 (6) HDFS默认Block Size (6) 下列哪项通常是集群的最主要瓶颈： (6) 关于SecondaryNameNode哪项是正确的？ (6) 2 3多选题 (7) 2.1 2.2 2.3 2.4 2.5 下列哪项可以作为集群的管理？ (7) 配置机架感知的下面哪项正确： (7) Client端上传文件的时候下列哪项正确？ (7) 下列哪个是Hadoop运行的模式： (7) Cloudera提供哪几种安装CDH的方法？ (7) 判断题 (8) 3.1 3.2 3.3 Ganglia不仅可以进行监控，也可以进行告警。（正确） (8) Block Size是不可以修改的。（错误） (8) Nagios不可以监控Hadoop集群，因为它不提供Hadoop支持。（错误） 8 3.4如果NameNode意外终止，SecondaryNameNode会接替它使集群继续工作。（错误） (8) 3.5Cloudera CDH是需要付费使用的。（错误） (8) Hadoop是Java开发的，所以MapReduce只支持Java语言编写。（错 8

大数据技术Hadoop面试题_西安光环大数据培训机构

hadoop大数据技术与应用第1章练习题

Hadoop题库

运维面试题 含答案

Hadoop试题题库

Hadoop大数据技术与应用04 YARN

大数据工程师面试题

hadoop练习题--带答案资料

(完整版)hadoop常见笔试题答案

一文读懂大数据：Hadoop,大数据技术、案例及相关应用

Hadoop最全面试题整理(附目录)

01第一章 初识Hadoop大数据技术

大数据技术Hadoop面试题

(完整版)hadoop习题册

Hadoop试题题库

Hadoop 100道面试题及答案解析

hadoop练习题--带答案

运维面试题含答案

01第一章初识Hadoop大数据技术