[套件] Hadoop 0.18.3 Debian / Ubuntu 套件庫

|
各位使用 Debian / Ubuntu 的讀者,

為了簡化大家在測試實作上的需求,國網中心雲端運算小組目前釋出官方穩定版本的 Hadoop 0.18.3 適用於 Debian Lenny 與 Ubuntu 8.04 以上版本的套件(持續改善中,故依 Debian 套件分類,現歸類為 unstable),目前支援 i386 與 amd64兩種版本,開放給大家進行測試之用。也歡迎將測試上的問題回覆回來,作為我們改進的方向,謝謝!!

(回覆信箱請用 apt-cache show hadoop 看 maintainer 的 e-mail ,謝謝!!)
= 套件庫 =

deb http://www.classcloud.org unstable main

= 測試步驟 =

以下步驟以 root 身分執行。

前置確認作業

目前 hadoop 套件相依 sun-java6-bin, sun-java6-jre
而 hadoop-src 套件才相依 sun-java6-jdk
因此如果是 Debian Lenny 使用者,請記得加入 non-free 套件庫
否則會找不到 sun-java6-bin, sun-java6-jre, sun-java6-jdk 套件

~# echo "deb http://free.nchc.org.tw/debian lenny non-free" > /etc/apt/sources.list.d/lenny-nonfree.list

如果是 Ubuntu 8.04 以上版本,請確認有加入 multiverse 套件庫

安裝步驟

~# echo "deb http://www.classcloud.org unstable main" > /etc/apt/sources.list.d/hadoop.list
~# apt-get update
(略)
~# apt-cache search hadoop
hadoop-src - Apache Hadoop Core ( java source code and examples )
hadoop-doc - Apache Hadoop Core Documents
hadoop - Apache Hadoop Core
~# apt-get install hadoop
(略)
WARNING: The following packages cannot be authenticated!
  hadoop
Install these packages without verification [y/N]? y
(略)
Please check via browsing following URLs:
(1) http://localhost:50030 for Hadoop Map/Reduce Administration.
(2) http://localhost:50060 for Hadoop Task Tracker status
(3) http://localhost:50070 for Hadoop Distributed File System status
~# passwd hdfsadm
(略....)

= 打包哲學 =

  1. 為求執行上方便起見,把 Hadoop 放在 /opt 目錄下,而不放在 /usr/share 底下。
  2. Hadoop 的 conf 目錄是重要的設定檔,依 Debian 檔案架構規範,移至 /etc/hadoop
  3. Hadoop 的 docs 裡面多半是 PDF 與 HTML 檔案, src 目錄為原始碼。兩者檔案都蠻大的。與執行階段無關,故另外打包成 hadoop-doc 與 hadoop-src 兩個套件。
  4. 新增 hdfsadm 帳號來執行 HDFS ,以 hdfsadm 為 supergroup 的最大權限擁有者。可方便後續管理上新增其他帳號使用者建立預設目錄,設定讀寫權限上的便利性。(使用 root 總是限制比較多,且有安全上的考量)
  5. 協助 hdfsadm ssh key 的產生與交換。並設定 conf 裡的 hadoop-site.xml 與 hadoop-env.sh 方便啟動 HDFS。
  6. Hadoop 的 logs 目錄是重要的設定檔,依 Debian 檔案架構規範,移至 /var/log/hadoop

= 簡易測試指南 =

啟動 Hadoop localhost 測試

~# su hdfsadm -
~$ /opt/hadoop/bin/start-all.sh

進行 Hadoop localhost wordcount 測試

~# su hdfsadm -
~$ cd /opt/hadoop/
/opt/hadoop$ bin/hadoop fs -put conf input
/opt/hadoop$ bin/hadoop jar hadoop-*-examples.jar wordcount input wc_output

停止 Hadoop localhost 測試

~# su hdfsadm -
~$ /opt/hadoop/bin/start-stop.sh

= 其他 Distribution 支援 =

如果您是其他採用 RPM 套件的 Linux Distribution,可以參考 Cloudera 打包的 RPM 套件

1.Cloudera 為企業管理 Hadoop
http://news.cnet.com/8301-13505_3-10196871-16.html
2.Cloudera 提供 Linux 雲端運算散佈套件
http://www.linuxelectrons.com/news/linux/17460/cloudera-offers-linux-distro-cloud-computing
3.開放源碼新創公司 Cloudera 降低 Hadoop 雲端軟體門檻
http://www.betanews.com/article/Cloudera-open-source-startup-offers-Hadoop-cloud-software-for-mere-mortals/1237576125
4.Cloudera 提供雲端運算 Linux 散佈套件
http://www.toptechnews.com/news/Cloudera-s-Hadoop-for-Data-Centers/story.xhtml?story_id=10200601683O