一、Hadoop环境构建

1.准备环境:准备3台Linux服务器,每台服务器配置至少4G内存,安装JDK1.8及以上版本,安装Hadoop3.3.0,服务器之间可以相互ping通,安装ssh服务,关闭防火墙,关闭selinux,每台服务器配置hosts文件,确保能够相互访问。

2.下载Hadoop:从官网下载Hadoop3.3.0的安装文件,并将文件上传至服务器,进行解压缩,解压后的文件夹改名为hadoop,将hadoop文件夹放到/usr/local/目录下。

3.配置环境变量:编辑/etc/profile文件,添加如下内容:

4.修改配置文件:在hadoop/etc/hadoop/目录下,有7个配置文件:hadoop-env.sh,core-site.xml,hdfs-site.xml,mapred-site.xml,yarn-site.xml,slaves,masters。在hadoop-env.sh文件中配置JAVA_HOME,在core-site.xml文件中配置fs.defaultFS,在hdfs-site.xml文件中配置dfs.namenode.name.dir,dfs.datanode.data.dir,在mapred-site.xml文件中配置mapreduce.framework.name,在yarn-site.xml文件中配置yarn.resourcemanager.hostname,yarn.nodemanager.aux-services,在slaves文件中写入所有DataNode服务器的IP地址,在masters文件中写入NameNode服务器的IP地址。

二、Hadoop服务启动

1.分发配置文件:使用scp命令将hadoop/etc/hadoop/目录下的7个配置文件分发到每台服务器上,并将配置文件放到hadoop/etc/hadoop/目录下。

2.格式化NameNode:在NameNode服务器上,使用hadoop namenode -format命令格式化NameNode,格式化成功后,在hadoop/data/namenode/目录下会生成一个文件,该文件是NameNode的元数据文件,后续服务启动时会使用该文件。

3.启动服务:在NameNode服务器上,使用start-dfs.sh命令启动HDFS服务,使用start-yarn.sh命令启动Yarn服务,使用jps命令查看服务是否启动成功。

三、Hadoop服务测试

1.查看NameNode状态:使用hadoop dfsadmin -report命令查看NameNode状态,如果显示NameNode状态正常,则表示HDFS服务启动成功。

2.查看DataNode状态:使用hadoop dfsadmin -report命令查看DataNode状态,如果显示DataNode状态正常,则表示DataNode服务启动成功。

3.查看Yarn状态:使用yarn node -list命令查看Yarn状态,如果显示Yarn状态正常,则表示Yarn服务启动成功。