Hadoop大数据实战系列文章之安装Hadoop

「selina」 · 发表于 2020-11-9 19:02:31

由于实践部分主要以 Hadoop 1.0 环境为主，所以这主要介绍如何搭建 Hadoop 1.0
分布式环境。
整个分布式环境运行在带有linux操作系统的虚拟机上，至于虚拟机和linux系统的安
装这里暂不做过多介绍。
安装 Hadoop 分布式环境：
1) 下载 Hadoop 安装包：
在http://pan.baidu.com/s/1qXSN3hM地址中可以找到hadoop-1.2.1-bin.tar.gz
文件
使用securtCRT的rz功能上传hadoop-1.2.1-bin.tar.gz这个文件到虚拟机的系统中。
同样在 securtcrt 中 ll 时，能得到

2) 安装 Hadoop 安装包：
首先将安装包解压缩：

Linux 终端执行 cd 进入相应目录：

新增 tmp 目录，mkdir /home/hadoop/hadoop-1.2.1/tmp

3) 配置 Hadoop：
使用 vim 修改 master 文件内容：

将 localhost 修改成 master：
最后保存退出。
修改 slaves 文件
注意，这里准备设置几台 slave 机器，就写几个，因为当前分布式环境有四个虚拟机，
一台做 master，三台做 slave，所以这里写成了三个 slave

修改 core-site.xml 文件：

【注意】中间的 ip 地址，不要输入 192.168.2.55，根据自己的情况设置。
修改 mapred-site.xml 文件：

【注意】记得 value 的内容要以http 开头。
修改 hdfs-site.xml 文件：

其中，3视情况修改，如果有三台 slave 机器，这里设置成 3，如果
只有 1 台或 2 台，修改成对应的值即可。
修改 hadoo-env.sh 文件
在

下新增 export JAVA_HOME=/home/hadoop/jdk1.6.0_45/
修改本地网络配置：编辑/etc/hosts 文件

【注意】Ip 地址根据具体的情况要进行修改。
4) 复制虚拟机
关闭当前虚拟机，并复制多份

【注意】要选择初始化所有网卡的 mac 地址

根据自己需求，复制 2到 3 台虚拟机作为 slave，同样要确认网络连接方式为桥接。
设置所有机器的 IP 地址
分别启动虚拟机，修改机器的 ip 地址，在虚拟机的图形界面里，选择设置
单击打开，在弹出来的窗口里，选择network

打开 options，修改成如下的形式，选择 ipv4 ,分配方式选择成 manual。
【注意】具体的ip地址，根据实际的情况来设置，因为培训教室里都是192.168.2.x的
网段，所以我这里设置成了 192.168.2.x，每个人选择自己的一个ip地址范围，注意不要和
其它人冲突了。

5) 建立互信关系
生成公私钥，在 master 机器的虚拟机命令行下输入 ssh-keygen，一路回车，全
默认

复制公钥
复制一份 master 的公钥文件，cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
同样，在所有的 slave 机器上，也在命令行中输入 ssh-keygen，一路回车，全默认
在所有的 salve 机器上，从 master 机器上复制 master 的公钥文件：

测试连接
在 master 机器上分别向所有的 slave 机器发起联接请求：
如：ssh slave1

【注意】记得一旦联接上，所有的操作，就视同在对应的 slave 上操作，所以一定要记
得使用 exit 退出联接。
6) 启动 Hadoop：
初始化：在 master 机器上，进入/home/hadoop/hadoop-1.2.1/bin 目录
在安装包根目录下运行./hadoop namenode –format来初始化hadoop的文件系统。

启动
执行./start-all.sh，如果中间过程提示要判断是否，需要输入 yes

输入 jps，查看进程是否都正常启动。

如果一切正常，应当有如上的一些进程存在。
7) 测试系统
输入./hadoop fs –ls /

能正常显示文件系统。
如此，hadoop 系统搭建完成。否则，可以去/home/hadoop/hadoop-1.2.1/logs 目
录下，查看缺少的进程中，对应的出错日志。

Hadoop大数据实战系列文章之安装Hadoop

本帖子中包含更多资源

相关帖子