各位使用 Debian / Ubuntu 的讀者,
為了簡化大家在測試實作上的需求,國網中心雲端運算小組目前釋出官方穩定版本的 Hadoop 0.18.3 適用於 Debian Lenny 與 Ubuntu 8.04 以上版本的套件(持續改善中,故依 Debian 套件分類,現歸類為 unstable),目前支援 i386 與 amd64兩種版本,開放給大家進行測試之用。也歡迎將測試上的問題回覆回來,作為我們改進的方向,謝謝!!
(回覆信箱請用 apt-cache show hadoop 看 maintainer 的 e-mail ,謝謝!!)
為了簡化大家在測試實作上的需求,國網中心雲端運算小組目前釋出官方穩定版本的 Hadoop 0.18.3 適用於 Debian Lenny 與 Ubuntu 8.04 以上版本的套件(持續改善中,故依 Debian 套件分類,現歸類為 unstable),目前支援 i386 與 amd64兩種版本,開放給大家進行測試之用。也歡迎將測試上的問題回覆回來,作為我們改進的方向,謝謝!!
(回覆信箱請用 apt-cache show hadoop 看 maintainer 的 e-mail ,謝謝!!)
= 套件庫 =
= 測試步驟 =
以下步驟以 root 身分執行。
前置確認作業
目前 hadoop 套件相依 sun-java6-bin, sun-java6-jre
而 hadoop-src 套件才相依 sun-java6-jdk
因此如果是 Debian Lenny 使用者,請記得加入 non-free 套件庫
否則會找不到 sun-java6-bin, sun-java6-jre, sun-java6-jdk 套件
~# echo "deb http://free.nchc.org.tw/debian lenny non-free" > /etc/apt/sources.list.d/lenny-nonfree.list
如果是 Ubuntu 8.04 以上版本,請確認有加入 multiverse 套件庫
安裝步驟
~# echo "deb http://www.classcloud.org unstable main" > /etc/apt/sources.list.d/hadoop.list
~# apt-get update
(略)
~# apt-cache search hadoop
hadoop-src - Apache Hadoop Core ( java source code and examples )
hadoop-doc - Apache Hadoop Core Documents
hadoop - Apache Hadoop Core
~# apt-get install hadoop
(略)
WARNING: The following packages cannot be authenticated!
hadoop
Install these packages without verification [y/N]? y
(略)
Please check via browsing following URLs:
(1) http://localhost:50030 for Hadoop Map/Reduce Administration.
(2) http://localhost:50060 for Hadoop Task Tracker status
(3) http://localhost:50070 for Hadoop Distributed File System status
~# passwd hdfsadm
(略....)
= 打包哲學 =
= 簡易測試指南 =
啟動 Hadoop localhost 測試
~# su hdfsadm -
~$ /opt/hadoop/bin/start-all.sh
進行 Hadoop localhost wordcount 測試
~# su hdfsadm -
~$ cd /opt/hadoop/
/opt/hadoop$ bin/hadoop fs -put conf input
/opt/hadoop$ bin/hadoop jar hadoop-*-examples.jar wordcount input wc_output
停止 Hadoop localhost 測試
~# su hdfsadm -
~$ /opt/hadoop/bin/start-stop.sh
= 其他 Distribution 支援 =
如果您是其他採用 RPM 套件的 Linux Distribution,可以參考 Cloudera 打包的 RPM 套件
1.Cloudera 為企業管理 Hadoop
http://news.cnet.com/8301-13505_3-10196871-16.html
2.Cloudera 提供 Linux 雲端運算散佈套件
http://www.linuxelectrons.com/news/linux/17460/cloudera-offers-linux-distro-cloud-computing
3.開放源碼新創公司 Cloudera 降低 Hadoop 雲端軟體門檻
http://www.betanews.com/article/Cloudera-open-source-startup-offers-Hadoop-cloud-software-for-mere-mortals/1237576125
4.Cloudera 提供雲端運算 Linux 散佈套件
http://www.toptechnews.com/news/Cloudera-s-Hadoop-for-Data-Centers/story.xhtml?story_id=10200601683O
deb http://www.classcloud.org unstable main
= 測試步驟 =
以下步驟以 root 身分執行。
前置確認作業
目前 hadoop 套件相依 sun-java6-bin, sun-java6-jre
而 hadoop-src 套件才相依 sun-java6-jdk
因此如果是 Debian Lenny 使用者,請記得加入 non-free 套件庫
否則會找不到 sun-java6-bin, sun-java6-jre, sun-java6-jdk 套件
~# echo "deb http://free.nchc.org.tw/debian lenny non-free" > /etc/apt/sources.list.d/lenny-nonfree.list
如果是 Ubuntu 8.04 以上版本,請確認有加入 multiverse 套件庫
安裝步驟
~# echo "deb http://www.classcloud.org unstable main" > /etc/apt/sources.list.d/hadoop.list
~# apt-get update
(略)
~# apt-cache search hadoop
hadoop-src - Apache Hadoop Core ( java source code and examples )
hadoop-doc - Apache Hadoop Core Documents
hadoop - Apache Hadoop Core
~# apt-get install hadoop
(略)
WARNING: The following packages cannot be authenticated!
hadoop
Install these packages without verification [y/N]? y
(略)
Please check via browsing following URLs:
(1) http://localhost:50030 for Hadoop Map/Reduce Administration.
(2) http://localhost:50060 for Hadoop Task Tracker status
(3) http://localhost:50070 for Hadoop Distributed File System status
~# passwd hdfsadm
(略....)
= 打包哲學 =
- 為求執行上方便起見,把 Hadoop 放在 /opt 目錄下,而不放在 /usr/share 底下。
- Hadoop 的 conf 目錄是重要的設定檔,依 Debian 檔案架構規範,移至 /etc/hadoop
- Hadoop 的 docs 裡面多半是 PDF 與 HTML 檔案, src 目錄為原始碼。兩者檔案都蠻大的。與執行階段無關,故另外打包成 hadoop-doc 與 hadoop-src 兩個套件。
- 新增 hdfsadm 帳號來執行 HDFS ,以 hdfsadm 為 supergroup 的最大權限擁有者。可方便後續管理上新增其他帳號使用者建立預設目錄,設定讀寫權限上的便利性。(使用 root 總是限制比較多,且有安全上的考量)
- 協助 hdfsadm ssh key 的產生與交換。並設定 conf 裡的 hadoop-site.xml 與 hadoop-env.sh 方便啟動 HDFS。
- Hadoop 的 logs 目錄是重要的設定檔,依 Debian 檔案架構規範,移至 /var/log/hadoop
= 簡易測試指南 =
啟動 Hadoop localhost 測試
~# su hdfsadm -
~$ /opt/hadoop/bin/start-all.sh
進行 Hadoop localhost wordcount 測試
~# su hdfsadm -
~$ cd /opt/hadoop/
/opt/hadoop$ bin/hadoop fs -put conf input
/opt/hadoop$ bin/hadoop jar hadoop-*-examples.jar wordcount input wc_output
停止 Hadoop localhost 測試
~# su hdfsadm -
~$ /opt/hadoop/bin/start-stop.sh
= 其他 Distribution 支援 =
如果您是其他採用 RPM 套件的 Linux Distribution,可以參考 Cloudera 打包的 RPM 套件
1.Cloudera 為企業管理 Hadoop
http://news.cnet.com/8301-
2.Cloudera 提供 Linux 雲端運算散佈套件
http://www.linuxelectrons.com/
3.開放源碼新創公司 Cloudera 降低 Hadoop 雲端軟體門檻
http://www.betanews.com/
4.Cloudera 提供雲端運算 Linux 散佈套件
http://www.toptechnews.com/