Hadoop搭建

因工作需要，和大数据项目组有所交集，搭建部署一下hadoop，接下来会更进一步学习，毕竟大数据和物联网目前是比较热门的板块，有必要去学习，使用的阿里云服务器，先搭个单机版，主要看后面是否能使用docker来搭建集群。

1.下载hadoop

1	地址：https://hadoop.apache.org/releases.html

2.上传tar包到服务区并解压，路径为 /usr/local/hadoop

1	tar -zxvf hadoop-2.7.5.tar.gz

3.修改服务器hostname

1	hostnamectl set-hostname <新的hostname>

4.创建挂载数据的文件夹

mkdir  /root/hadoop
mkdir  /root/hadoop/tmp
mkdir  /root/hadoop/var
mkdir  /root/hadoop/dfs
mkdir  /root/hadoop/dfs/name
mkdir  /root/hadoop/dfs/data

5.进入配置文件目录

1	cd /usr/local/hadoop/hadoop-2.7.5/etc/hadoop

6.修改core-site.xml

vi core-site.xml

#在configuration中添加
<property>
        <name>hadoop.tmp.dir</name>
        <value>/root/hadoop/tmp</value>
   </property>

   <property>
        <name>fs.defaultFS</name>
        <value>hdfs://zllwsy:9000</value> #这里为刚刚设置的hostname
</property>

7.修改hadoop-env.sh

vi hadoop-env.sh

修改为本地的JDK位置
将export JAVA_HOME=${JAVA_HOME}修改为export JAVA_HOME=/usr/local/java/jdk1.8.0_291

8.修改hdfs-site.xml

vi hdfs-site.xml

#在configuration中添加
<property>
   <name>dfs.name.dir</name>
   <value>/root/hadoop/dfs/name</value>
</property>

<property>
   <name>dfs.data.dir</name>
   <value>/root/hadoop/dfs/data</value>
</property>

<property>
   <name>dfs.replication</name>
   <value>1</value>
</property>
<property>
   <name>dfs.namenode.http.address</name>
   <value>slave1:50070</value>
</property>

9.修改mapred-site.xml.template

vi mapred-site.xml.template 

#在configuration中添加
<property>
   <name>mapred.job.tracker</name>
   <value>zllwsy:49001</value> #与hostname一致
</property>

<property>
      <name>mapred.local.dir</name>
       <value>/root/hadoop/var</value>
</property>

<property>
       <name>mapreduce.framework.name</name>
       <value>yarn</value>
</property>

10.修改yarn-site.xml

vi yarn-site.xml

#在configuration中添加
<property>
        <name>yarn.resourcemanager.hostname</name>
        <value>zllwsy</value> #与hostname一致
   </property>

   <property>
        <name>yarn.resourcemanager.address</name>

        <value>${yarn.resourcemanager.hostname}:8032</value>

   </property>

   <property>
        <name>yarn.resourcemanager.scheduler.address</name>
        <value>${yarn.resourcemanager.hostname}:8030</value>
   </property>

   <property>
        <name>yarn.resourcemanager.webapp.address</name>
        <value>${yarn.resourcemanager.hostname}:8087</value>
   </property>

   <property>
        <name>yarn.resourcemanager.webapp.https.address</name>
        <value>${yarn.resourcemanager.hostname}:8090</value>
   </property>

   <property>
        <name>yarn.resourcemanager.resource-tracker.address</name>
        <value>${yarn.resourcemanager.hostname}:8031</value>
   </property>

   <property>
        <name>yarn.resourcemanager.admin.address</name>
        <value>${yarn.resourcemanager.hostname}:8033</value>
   </property>

   <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>

   </property>

   <property>
        <name>yarn.scheduler.maximum-allocation-mb</name>
        <value>2048</value>
   </property>

   <property>
        <name>yarn.nodemanager.vmem-pmem-ratio</name>
        <value>2.1</value>
   </property>

   <property>
        <name>yarn.nodemanager.resource.memory-mb</name>
        <value>2048</value>
    </property>

   <property>
        <name>yarn.nodemanager.vmem-check-enabled</name>
        <value>false</value>
</property>

11.格式化一个新的分布式文件系统：

1
2
3

#在路径/usr/local/hadoop/hadoop-2.7.5/bin下执行

./hadoop  namenode  -format

12.启动hadoop

#启动命令都在/usr/local/hadoop/hadoop-2.7.5/sbin下
#直接启动所有

sh start-all.sh

输入yes即可，然后输入密码：

13.查看启动是否成功，使用jps命令

14.阿里云服务器问题

1	vi /etc/hosts # 阿里云服务器这里必须设置为内网ip

15.访问NameNode界面，ip+50070

16.访问管理界面，ip+8087(默认为8088，在yarn-site.xml中设置)

17.管理页面，访问ip+9000

经查询，是因为单机模式，需要指定具体的端口。

18.总结

中途出现了一些问题，查询了多方资料，注意阿里云服务器，不建议直接关闭防火墙，可以去服务器实例的安全组里面进行配置，开放需要的端口即可。