Hadoop 3.0新特性預覽

點擊hadoop123Hadoop 3.0新特性預覽關注我喲

最知名的hadoop/spark大數據技術分享基地,分享hadoop/spark技術內幕hadoop/spark最新技術進展hadoop/spark行業技術應用發布hadoop/spark相關職位和求職信息hadoop/spark技術交流聚會講座以及會議等。


1. Hadoop 3.0簡介

Hadoop 2.0是基於JDK 1.7開發的,而JDK 1.720154月已停止更新,這直接迫使Hadoop社區基於JDK 1.8重新發布一個新的Hadoop版本,而這正是hadoop 3.0。

Hadoop 3.0alpha版預計今年夏天發布,GA版本11月或12月發布。

Hadoop 3.0中引入了一些重要的功能和優化,包括HDFS 可擦除編碼、多Namenode支持、MR Native Task優化、YARN基於cgroup的記憶體和磁盤IO隔離、YARN container resizing等。

 

2. Hadoop 3.0新特性

 

Hadoop 3.0在功能和性能方面,對hadoop內核進行了多項重大改進,主要包括:

2.1 Hadoop Common

1)精簡Hadoop內核,包括剔除過期的API和做到,將默認組件做到替換成最高效的做到(比如將FileOutputCommitter缺省做到換為v2版本,廢除hftp轉由webhdfs替代,移除Hadoop子做到序列化庫org.apache.hadoop.Records

2Classpath isolation以防止不同版本jar包衝突,比如google Guava在混合使用HadoopHBaseSpark時,很容易產生衝突。(https://issues.apache.org/jira/browse/HADOOP-11656
3Shell腳本重構。 Hadoop 3.0Hadoop的管理腳本進行了重構,修復了大量bug,增加了新特性,支持動態命令等。https://issues.apache.org/jira/browse/HADOOP-9902

 

2.2 Hadoop HDFS

 

1HDFS支持數據的擦除編碼,這使得HDFS在不降低可靠性的前提下,節省一半存儲空間。(https://issues.apache.org/jira/browse/HDFS-7285
2)多NameNode支持,即支持一個集群中,一個active、多個standby namenode部署方式。註:多ResourceManager特性在hadoop 2.0中已經支持。(https://issues.apache.org/jira/browse/HDFS-6440

 

2.3 Hadoop MapReduce

 

1Tasknative優化。為MapReduce增加了C/C++map output collector做到(包括SpillSortIFile等),通過作業級別參數調整就可切換到該做到上。對於shuffle密集型應用,其性能可提高約30%。(https://issues.apache.org/jira/browse/MAPREDUCE-2841
2MapReduce記憶體參數自動推斷。在Hadoop 2.0中,為MapReduce作業設置記憶體參數非常繁瑣,涉及到兩個參數:mapreduce.{map,reduce}.memory.mbmapreduce.{map,reduce}.java.opts,一旦設置不合理,則會使得記憶體資源浪費嚴重,比如將前者設置為4096MB,但後者卻是「-Xmx2g」,則剩餘2g實際上無法讓java heap使用到。(https://issues.apache.org/jira/browse/MAPREDUCE-5785

 

2.4 Hadoop YARN


1)基於cgroup的記憶體隔離和IO Disk隔離(https://issues.apache.org/jira/browse/YARN-2619
2curator做到RM leader選舉(https://issues.apache.org/jira/browse/YARN-4438
3containerresizinghttps://issues.apache.org/jira/browse/YARN-1197
4Timelineserver next generation https://issues.apache.org/jira/browse/YARN-2928

 

3.   Hadoop3.0總結


Hadoop 3.0alpha版預計今年夏天發布,GA版本11月或12月發布。


Hadoop 3.0中引入了一些重要的功能和優化,包括HDFS 可擦除編碼、多Namenode支持、MR Native Task優化、YARN基於cgroup的記憶體和磁盤IO隔離、YARN container resizing等。

 


Hadoop 3.0新特性預覽

閱讀原文


關於作者:
最知名的Hadoop/Spark/Docker大數據技術基地,分享Hadoop技術內幕,Hadoop最新技術進展,發布Hadoop相關職位和求職信息,Hadoop技術交流聚會、講座以及會議等。

微信號:hadoop-123

推薦閱讀:

》生不出男孩被婆家逼走,獨自養兩個女兒流落街頭,如今她是身價60億的水餃皇后!

》她是中國史上最強女海盜,讓多少洋人感受過被她支配的恐懼!