• <nav id="dstbx"></nav>

    <nav id="dstbx"></nav>
    1. <form id="dstbx"></form>
    2. <small id="dstbx"></small>

      教育行業A股IPO第一股(股票代碼 003032)

      全國咨詢/投訴熱線:400-618-4000

      手把手教你搭建Hadoop高可用集群

      更新時間:2021年07月26日15時09分 來源:傳智教育 瀏覽次數:

      好口碑IT培訓

      掌握了Hadoop集群中的高可用架構后,接下來,我們來手把手教大家搭建一個Hadoop高可用集群,具體步驟如下:

      1.部署集群節點

      我們規劃整個集群由3臺虛擬機組成,這3臺虛擬機在高可用集群中的部署規劃情況如表1所示。

      表1 集群節點分布

      服務器 Name Node Data Node Resource Manager Node Manager Journal Nodes Zookeeper ZKFC
      node-01
      node-02
      node-03

       表1所示的三個服務器組成了一個Zookeeper集群。其中,node-01和node-02作為集群的NameNode,需要運行ZKFC來監控NameNode的健康狀態。
      2.環境準備
      首先,搭建普通Hadoop集群。需要注意的是,原有虛擬機系統主機名為hadoop01,建議初學者在搭建Hadoop HA集群時重新安裝虛擬機,以此來鞏固前面所學知識,并將三臺虛擬主機名設置為node-01、node-02和node-03。

      3.配置Hadoop高可用集群

      (1)修改core-site.xml文件,在該文件中配置HDFS端口,指定Hadoop臨時目錄和Zookeeper集群地址,具體參數如下:

      <configuration>
      
        <!-- 指定hdfs的nameservice為ns1 -->
      
        <property>
      
          <name>fs.defaultFS</name>
      
          <value>hdfs://ns1</value>
      
        </property>
      
        <!-- 指定hadoop臨時目錄 -->
      
        <property>
      
          <name>hadoop.tmp.dir</name>
      
          <value>/export/servers/hadoop-2.7.4/tmp</value>
      
        </property>
      
        <!-- 指定zookeeper地址 -->
      
        <property>
      
          <name>ha.zookeeper.quorum</name>
      
          <value>node-01:2181,node-02:2181,node-03:2181</value>
      
        </property></configuration>

      (2)修改hdfs-site.xml文件,配置兩臺NameNode端口地址和通信方式,并指定NameNode的元數據上的存放位置,開啟NameNode失敗自動切換以及配置sshfence(通過ssh遠程登錄到前一個Active NameNode并將其結束進程),具體參數如下:

      <configuration>
      
        <!-- 設置副本個數 -->
      
        <property>
      
          <name>dfs.replication</name>
      
          <value>2</value>
      
        </property>
      
        <!-- 設置namenode.name目錄 -->
      
        <property>  
      
          <name>dfs.namenode.name.dir</name>
      
          <value>file:/export/data/hadoop/name</value>  
      
        </property> 
      
        <!-- 設置namenode.data目錄 -->
      
        <property>  
      
          <name>dfs.datanode.data.dir</name>  
      
          <value>file:/export/data/hadoop/data</value>  
      
        </property> 
      
        <!-- 開啟webHDFS -->
      
        <property>
      
          <name>dfs.webhdfs.enabled</name> 
      
          <value>true</value> 
      
        <!-- 在NN和DN上開啟WebHDFS (REST API)功能,不是必須 --> 
      
        </property>
      
        <!--指定hdfs的nameservice為ns1,需要和core-site.xml中的保持一致 -->
      
        <property>
      
          <name>dfs.nameservices</name>
      
          <value>ns1</value>
      
        </property>
      
        <!-- ns1下面有兩個NameNode,分別是nn1,nn2 -->
      
        <property>
      
          <name>dfs.ha.namenodes.ns1</name>
      
          <value>nn1,nn2</value>
      
        </property>
      
        <!-- nn1的RPC通信地址 -->
      
        <property>
      
          <name>dfs.namenode.rpc-address.ns1.nn1</name>
      
          <value>node-01:9000</value>
      
        </property>
      
        <!-- nn1的http通信地址 -->
      
        <property>
      
          <name>dfs.namenode.http-address.ns1.nn1</name>
      
          <value>node-01:50070</value>
      
        </property>
      
        <!-- nn2的RPC通信地址 -->
      
        <property>
      
          <name>dfs.namenode.rpc-address.ns1.nn2</name>
      
          <value>node-02:9000</value>
      
        </property>
      
        <!-- nn2的http通信地址 -->
      
        <property>
      
          <name>dfs.namenode.http-address.ns1.nn2</name>
      
          <value>node-02:50070</value>
      
        </property>
      
        <!-- 指定NameNode的元數據在JournalNode上的存放位置 -->
      
        <property>
      
          <name>dfs.namenode.shared.edits.dir</name>
      
          <value>qjournal://node-01:8485;node-02:8485;node-03:8485/ns1    </value>
      
        </property>
      
        <!-- 指定JournalNode在本地磁盤存放數據的位置 -->
      
        <property>
      
          <name>dfs.journalnode.edits.dir</name>
      
          <value>/export/data/hadoop/journaldata</value>
      
        </property>
      
        <!-- 開啟NameNode失敗自動切換 -->
      
        <property>
      
          <name>dfs.ha.automatic-failover.enabled</name>
      
          <value>true</value>
      
        </property>
      
        <!-- 配置失敗自動切換實現方式 -->
      
        <property>
      
          <name>dfs.client.failover.proxy.provider.ns1</name>
      
          <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider    </value>
      
        </property>
      
        <!-- 配置隔離機制方法,多個機制用換行分割,即每個機制暫用一行-->
      
        <property>
      
          <name>dfs.ha.fencing.methods</name>
      
          <value>
      
            sshfence
      
            shell(/bin/true)    </value>
      
        </property>
      
        <!-- 使用sshfence隔離機制時需要ssh免登陸 -->
      
        <property>
      
          <name>dfs.ha.fencing.ssh.private-key-files</name>
      
          <value>/root/.ssh/id_rsa</value>
      
        </property>
      
        <!-- 配置sshfence隔離機制超時時間 -->
      
        <property>
      
          <name>dfs.ha.fencing.ssh.connect-timeout</name>
      
          <value>30000</value>
      
        </property></configuration>

      (3)修改mapred-site.xml文件,配置MapReduce計算框架為yarn方式,具體參數如下:

      <configuration>
      
        <!-- 指定mapreduce框架為yarn方式 -->
      
        <property>
      
          <name>mapreduce.framework.name</name>
      
          <value>yarn</value>
      
        </property>
      
      </configuration>

      (4)修改yarn-site.xml文件,開啟ResourceManager高可用,指定ResourceManager的端口名稱地址,并配置Zookeeper集群地址,具體參數如下:

      <configuration>
      
        <property>
      
          <name>yarn.nodemanager.resource.memory-mb</name>
      
          <value>2048</value>
      
        </property>
      
        <property>
      
          <name>yarn.scheduler.maximum-allocation-mb</name>
      
          <value>2048</value>
      
        </property>
      
        <property>
      
          <name>yarn.nodemanager.resource.cpu-vcores</name>
      
          <value>1</value>
      
        </property>
      
        <!-- 開啟RM高可用 -->
      
        <property>
      
          <name>yarn.resourcemanager.ha.enabled</name>
      
          <value>true</value>
      
        </property>
      
        <!-- 指定RM的cluster id -->
      
        <property>
      
          <name>yarn.resourcemanager.cluster-id</name>
      
          <value>yrc</value>
      
        </property>
      
        <!-- 指定RM的名字 -->
      
        <property>
      
          <name>yarn.resourcemanager.ha.rm-ids</name>
      
          <value>rm1,rm2</value>
      
        </property>
      
        <!-- 分別指定RM的地址 -->
      
        <property>
      
          <name>yarn.resourcemanager.hostname.rm1</name>
      
          <value>node-01</value>
      
        </property>
      
        <property>
      
          <name>yarn.resourcemanager.hostname.rm2</name>
      
          <value>node-02</value>
      
        </property>
      
        <!-- 指定zk集群地址 -->
      
        <property>
      
          <name>yarn.resourcemanager.zk-address</name>
      
          <value>node-01:2181,node-02:2181,node-03:2181</value>
      
        </property>
      
        <property>
      
          <name>yarn.nodemanager.aux-services</name>
      
          <value>mapreduce_shuffle</value>
      
        </property>
      
      </configuration>

      (5)修改slaves,配置集群主機名稱,具體代碼如下:

      node-01
      node-02
      node-03

      (6)修改hadoop-env.sh,配置JDK環境變量,具體代碼如下:

      export JAVA_HOME=/export/servers/jdk1.8.0_161

      將配置好的文件分發傳送給node-02,node-03機器中,讀者可以根據需求自定義配置/etc/profile的環境變量,分發后需要重新加載該文件。

      4.啟動Hadoop高可用集群

      (1)啟動集群各個節點的Zookeeper服務,命令如下:

      $ cd /export/servers/zookeeper-3.4.10/bin
      
      $ ./zkServer.sh start

      (2)啟動集群各個節點監控NameNode的管理日志的JournalNode,命令如下:

      $ hadoop-daemon.sh start journalnode

      (3)在node-01節點格式化NameNode,并將格式化后的目錄拷貝到node-02中,具體命令如下:

      $ hadoop namenode –format
      $ scp -r /export/data/hadoop node-02:/export/data/

      (4)在node-01節點上格式化ZKFC,命令如下:

      $ hdfs zkfc -formatZK

      (5)在node-01節點上啟動HDFS,命令如下:

      $ start-dfs.sh

      (6)在node-01節點上啟動YARN,命令如下:

      $ start-yarn.sh

      猜你喜歡:

      大數據培訓:hadoop中常見問題以及解決方案

      Hadoop集群有幾種部署模式?各種模式有什么特點?

      HDFS的高可用架構是怎樣工作的?

      傳智教育python+大數據開發高手班

      0 分享到:
      神马影院我不卡