Hadoop 0.18 版特色

|

Hadoop 在 8/22 日 release 了 0.18 版, 這次的 release 總共有 266 個 patches committed , 是有史以來最多的一次, 又其中有 20% 是由非 Yahoo! 的開發者所貢獻的, 也是有史以來比例最高的一次.  這充份顯示了 Hadoop 計畫不論在社群或是成員的參與度上都有大幅的成長, 但也因為這個原因 code base 產生了大量的 blocking bugs, 讓這次 release 在原本 6/4 日 feature freeze 後拖延至現在才完成.

Hadoop 0.18 版這次不管在效能 (performance),延展性 (scalability) 和可靠度 (reliability) 等方面都新增加了不少特性, 其中部分效能方面的改進讓 Hadoop 贏得了2008 年的 Terabyte sort benchmark 比賽. 另外 0.18 版在網格混合測試當中僅需要 0.15 版約 45% 的時間.

以下大略介紹一下 HDFS 和 MapReduce 幾個主要新的特色:

HDFS 部分:

    • Namespace 自動回復

HDFS Namenode 可以將 name space image 分別儲存在好幾個不同的地方, Namenode 重新啟動的時候會自動從這些地方讀取 image 的狀態並回復最 up to date 的一份 image, 如果所有的 copies 都是無效的話, 可以透過 Secondary Namenode 回復到上一次檢查點.  

    • 快速重新啟動

在之前的版本, 重新啟動大型 Hadoop cluster 的 Namenode 很花時間, 0.17 版在 2000 個 nodes 的 cluster 就要花上將近一個小時的時間, 現在主要的問題已經解決, 目前在 3000 個 nodes 的 cluster 上重新啟動只需要不到15分鐘的時間.

    • Namespace 配額 (quotas) 和 archives

HDFS 現在可以提供以目錄為基礎的配額限制和管理.

    • RPC 效能和延展性改進

針對 RPC subsystem 重要的重新改寫, 對於 1000 個 nodes 以上的系統有顯著的改善.

    • 讀寫效能改進

寫入的部分可以降低 Datanode 30% 的 CPU 使用率, 讀取的部份可以降低 Datanode 80% 的 CPU 使用率.

    • 稽核日誌

Namenode 稽核日誌包括了來源 IP , 存取的檔案和讀寫動作還有使用者帳號跟群帳號等.

    • Mounting via FUSe

Map/Reduce 部分:

    • Intermediate compression

Hadoop Map/Reduce 的中間暫存輸出檔案將可以壓縮儲存, 這樣可以有效避免 tasktracker 因記憶體不足,遲緩等因素導致整體工作失敗.

    • (Single) reduce optimizations
    • Archive tool

大量的檔案可以透過 Map/Reduce 工具進行封裝, 封裝完的檔案在 HDFS 上是個目錄, 包含數量不多的資料檔和一個索引檔.

 

詳見: http://developer.yahoo.com/blogs/hadoop/2008/09/hadoop_018_highlights.html