文档库

最新最全的文档下载
当前位置:文档库 > 虚拟机环境下Hadoop伪分布式平台搭建详细过程

虚拟机环境下Hadoop伪分布式平台搭建详细过程

大数据技术平台搭建之Hadoop 1. Hadoop(伪分布式)平台搭建详细过程

1.1 工具

?VMware12

?CentOS 6.4

?JDK-6u24-Linux-i586.bin

?Hadoop-1.1.2.tar.gz

?Scala-2.9.3.tgz

?Spark-1.4.0-bin-hadoop1.tgz

?Win10系统环境

1.2 详细搭建过程

1.2.1 安装虚拟机VMware Workstation 12 Pro

虚拟机环境下Hadoop伪分布式平台搭建详细过程

图1.1 VMware Workstation 12 Pro软件开始界面1.2.2 在虚拟机环境上安装Linux系统

(1)点击创建新的虚拟机按钮选择典型配置安装

虚拟机环境下Hadoop伪分布式平台搭建详细过程

图1.2 新建虚拟机向导

(2)选择Linux镜像文件,开始虚拟安装

虚拟机环境下Hadoop伪分布式平台搭建详细过程

图1.3 选择安装镜像文件(3)为新建的虚拟机命名,并选择安装目录

虚拟机环境下Hadoop伪分布式平台搭建详细过程

图1.4 命名、选择安装目录(4)指定虚拟机磁盘大小

虚拟机环境下Hadoop伪分布式平台搭建详细过程

图1.5 指定磁盘大小

(5)设置硬件、网络类型等虚拟机配置

虚拟机环境下Hadoop伪分布式平台搭建详细过程

图1.6 自定义虚拟机硬件

(6)点击完成按钮完成虚拟机安装

虚拟机环境下Hadoop伪分布式平台搭建详细过程

虚拟机环境下Hadoop伪分布式平台搭建详细过程

图1.7 CentOS_Linux虚拟机系统安装成功

1.2.3 配置Linux环境,为安装Hadoop做准备

(1)关闭防火墙

执行命令 service iptables status可以查看防火墙状态

执行命令 service iptables stop 关闭防火墙

虚拟机环境下Hadoop伪分布式平台搭建详细过程

图1.8 关闭防火墙并检验

执行命令chkconfig iptables off,关闭防火墙某些功能自启动

虚拟机环境下Hadoop伪分布式平台搭建详细过程

图1.9 关闭防火墙自启功能并检验

(2)设置网络连接

宿主机(Windows)和客户机(虚拟机中的Linux)采用host-only方式建立网络连接,具体步骤:右击桌面右上角网络连接图标,选择编辑网络连接,如下

虚拟机环境下Hadoop伪分布式平台搭建详细过程

图1.10 虚拟机网络设置窗口

接着点击按钮,设置IPv4地址,注意要和主机IP在同一网段 192.168.80.X

虚拟机环境下Hadoop伪分布式平台搭建详细过程

图1.11 设置ip窗口

点击 Apply完成设置,并在虚拟机终端窗口输入service network restart,使设置生效

虚拟机环境下Hadoop伪分布式平台搭建详细过程

图1.12 在终端窗口执行命令使设置生效

输入ifconfig查看设置是否生效

虚拟机环境下Hadoop伪分布式平台搭建详细过程

图1.13 在终端窗口检验设置是否生效

修改主机网络设置,打开网络共享中心将以下两个适配器的地址设置为192.168.80网段。

虚拟机环境下Hadoop伪分布式平台搭建详细过程

图1.14 Windows网络适配器窗口

检验:主机(Windows)ping客户机(linux)IP

虚拟机环境下Hadoop伪分布式平台搭建详细过程

图1.15 ping检验窗口

(3)修改hostname

由于设置好了主机和客户机之间的网络连接,我们可以使用工具PieTTY在Windows环境下就可以快捷登录虚拟机,对其配置进行修改,如下面来修改虚拟机的hostname为hadoop:

虚拟机环境下Hadoop伪分布式平台搭建详细过程

图1.16 修改hostname指令

(4)执行vi /etc/hosts,在打开的文件中添加ip和主机名,绑定Linux虚拟机的主机名和ip

虚拟机环境下Hadoop伪分布式平台搭建详细过程

图1.17 绑定ip指令

(5)设置SSH自动登录

执行命令 ssh-keygen –t rsa 产生秘钥,位于~/.ssh文件夹下面

虚拟机环境下Hadoop伪分布式平台搭建详细过程

图1.18 产生加密的秘钥

执行命令 cp ~/.ssh/id_rsa.pub ~/.ssh/authorized_keys

虚拟机环境下Hadoop伪分布式平台搭建详细过程

图1.19 复制到authorized_keys文件下

验证,输入ssh localhost

虚拟机环境下Hadoop伪分布式平台搭建详细过程

图1.20 验证免密登录结果

(6)安装JDK

拷贝(借助winSCP软件实现主机和虚拟机之间文件共享)安装文件至虚拟机 /usr/local目录下,并解压(命令:./jdk-6u24-linux-i586.bin):

虚拟机环境下Hadoop伪分布式平台搭建详细过程

图1.21 拷贝并解压JDK安装文件

解压完成:

虚拟机环境下Hadoop伪分布式平台搭建详细过程

图1.22 解压后的/usr/local目录

配置JDK环境变量:执行命令 vi /etc/profile 打开配置文件加入JAVA_HOME\PATH两个环境变量JAVA_HOME=/usr/local/jdk ; PATH=.:$JAVA_HOME/bin:$PATH

虚拟机环境下Hadoop伪分布式平台搭建详细过程

图1.23 配置JDK环境变量

执行 source /etc/profile 使配置生效,并检验。

虚拟机环境下Hadoop伪分布式平台搭建详细过程

图1.24 检验JDK环境变量配置成功

1.2.4安装Hadoop

执行命令 tar -zxvf hadoop-1.1.2.tar.gz 进行解压缩hadoop安装包,并执行命令 mv hadoop-1.1.2 hadoop 重命名文件夹

虚拟机环境下Hadoop伪分布式平台搭建详细过程

图1.25 解压缩并重命名hadoop安装文件

配置hadoop环境变量,执行 vi /etc/profile 打开配置文件,并添加HADOOP_HOME和PATH:

虚拟机环境下Hadoop伪分布式平台搭建详细过程

图1.26 配置hadoop环境变量

执行命令 source /etc/profile 使配置生效。

修改四个hadoop配置文件,位于$HADOOP_HOME/conf目录下(利用winSCP软件直接打开对应文件进行修改),分别是:hadoop-env.sh、core-site.xml、hdfs-site.xml、mapred-site.xml 如下:

<1> hadoop-env.sh

export JAVA_HOME=/usr/local/jdk/

虚拟机环境下Hadoop伪分布式平台搭建详细过程

图1.27 修改hadoop-env.sh配置文件

<2> core-site.xml

http://www.wendangku.net/doc/75fd86d8ac51f01dc281e53a580216fc700a53cd.html

hdfs://hadoop0:9000

change your own hostname

hadoop.tmp.dir

/usr/local/hadoop/tmp

虚拟机环境下Hadoop伪分布式平台搭建详细过程

图1.28 修改core-site.xml配置文件<3> hdfs-site.xml

dfs.replication

1

dfs.permissions

false

虚拟机环境下Hadoop伪分布式平台搭建详细过程

图1.29 修改hdfs-site.xml配置文件<4> mapred-site.xml

mapred.job.tracker

hadoop0:9001

change your own hostname

虚拟机环境下Hadoop伪分布式平台搭建详细过程

图1.30 修改mapred-site.xml配置文件接下来,对hadoop进行格式化,执行命令:hadoop namenode -format

虚拟机环境下Hadoop伪分布式平台搭建详细过程

图1.31 hadoop格式化成功

执行命令 start-all.sh 启动hadoop

虚拟机环境下Hadoop伪分布式平台搭建详细过程

图1.32 完全启动hadoop,并检验java进程(5个)

注:hadoop启动的几种方式

start-all.sh 启动所有的Hadoop守护进程。

(包括NameNode、 Secondary NameNode、DataNode、JobTracker、 TaskTrack)

stop-all.sh 停止所有的Hadoop守护进程。

start-dfs.sh 启动Hadoop HDFS守护进程 NameNode、SecondaryNameNode和DataNode stop-dfs.sh 停止Hadoop HDFS守护进程 NameNode、SecondaryNameNode和DataNode

hadoop-daemons.sh start namenode 单独启动 NameNode 守护进程

hadoop-daemons.sh stop namenode 单独停止 NameNode 守护进程

hadoop-daemons.sh start datanode 单独启动 DataNode 守护进程

hadoop-daemons.sh stop datanode 单独停止 DataNode 守护进程

hadoop-daemons.sh start secondarynamenode 单独启动SecondaryNameNode守护进程

hadoop-daemons.sh stop secondarynamenode 单独停止SecondaryNameNode守护进程

start-mapred.sh 启动Hadoop MapReduce守护进程JobTracker和TaskTracker

stop-mapred.sh 停止Hadoop MapReduce守护进程JobTracker和TaskTracker

hadoop-daemons.sh start jobtracker 单独启动JobTracker守护进程

hadoop-daemons.sh stop jobtracker 单独停止JobTracker守护进程

hadoop-daemons.sh start tasktracker 单独启动TaskTracker守护进程

hadoop-daemons.sh stop tasktracker 单独启动TaskTracker守护进程

至此,hadoop伪分布式平台就已经搭建完成了,我们可以在web浏览器查看访问该平台下的服务器节点:

虚拟机环境下Hadoop伪分布式平台搭建详细过程

图1.33 浏览器访问NameNode web services节点

虚拟机环境下Hadoop伪分布式平台搭建详细过程

图1.34 浏览器访问MapReduce web services节点