Hadoop 叢集佈建初探 - 以 hiCloud 為例 (2)

|

Hadoop 叢集佈建初探 - hiCloud 為例

國家高速網路與計算中心 王耀聰 副研究員


(乘上篇)

Hadoop單機版初探 - Windows

  根據hadoop官方文件的建議,Hadoop最佳營運案例主要是在Linux作業系統底下運行。但在台灣,多數資訊從業人員仍以Windows為主要的作業系統。筆者為了降低各位學習Hadoop的門檻,撰寫了一套名為Hadoop4Win的懶人包安裝程式。目前在Windows XPWindows 2000環境下測試正常,至於Windows 7環境下目前因為安全性權限較嚴格,需關閉UAC,常不易安裝成功,因此這次我們以Windows XP環境來做示範。

  首先,請到http://hadoop4win.nchc.org.twhttp://hadoop4win.org下載0.1.5版本的hadoop4win完整安裝檔。Hadoop4win 0.1.5目前包含五大軟體組成:(1) Cygwin(2) JDK 1.6.0 update 18(3) Hadoop 0.20.2(4) HBase 0.20.6(5) Ant 1.8.2。因此整個完整版懶人包大約有189 MB,請點擊hadoop4win-setup-full_0.1.5.exe執行檔開始進行安裝的動作

  備註:由於hadoop4win會在安裝資料夾寫入數量眾多的檔案,假如您有安裝防毒軟體,安裝時間可能會比較長(因為每個檔案都被掃描過一次)。倘若您希望縮短安裝時間,可暫時性關閉防毒軟體。

  當您完成hadoop4win的安裝後,有兩種方式可以在Windows上啟動Hadoop。其一是從「開始」選單選取 start-hadoop捷徑。其二是先點選 hadoop4win 捷徑,進入Cygwin指令操作的介面,才下指令start-hadoop來啟動Hadoop的五個背景服務(亦及NameNodeDataNodeJobTrackerTaskTrackerSecondaryNameNode)。


  備註:安裝過程中,Windows防火牆會跳出警告說有Java程式嘗試開啟網路連線埠,這是因為Hadoop背景服務至少會開啟五個網路連線埠來進行底層的RPC通訊,請選擇「解除封鎖」。


  接著,您可以根據hadoop4win網頁的說明,學習基本的Hadoop指令操作。礙於版面篇幅,這裡我們僅列舉三個指令操作來進行說明。首先,第一個指令叫jps,這個指令顧名思義就是列出所有java process。單機版的Hadoop4Win,基本上應該要有五個Java程序。因此,倘若您無法看到如圖的五個Java程序名稱(前面的數字為PID,每次執行會不同),那代表您的電腦可能記憶體不足(最低需求為512MB,建議至少有1GB記憶體)。倘若您在執行上遇到任何問題,歡迎到forum.hadoop.tw提問。


  如果您可以正常看到jps出現的五個Java程序,代表您的Hadoop環境已經在背景正常執行了。此時您可以點選「開始」選單的「NameNode Web UI」與「JobTracker Web UI」,或者直接用瀏覽器開啟http://localhost:50070http://localhost:50030的網址。


  第二個指令叫作hadoop fs,這個指令是用來驗證Hadoop分散式檔案系統(HDFSHadoop Distributed File System)的功能是否正常。請在Cygwin指令視窗鍵入以下指令,將位於安裝目錄(c:\hadoop4win)的opt\hadoop\conf-pseudo子目錄,上傳到HDFS的抽象檔案系統:


$ cd /opt/hadoop

$ hadoop fs -put conf-pseudo input ; hadoop fs -ls


  最後一個指令叫作hadoop jar,這個指令是用來驗證HadoopMapReduce運算環境功能是否正常。請在Cygwin指令視窗中鍵入以下指令,將剛剛上傳到HDFSinput目錄,共計13個檔案,進行「字數統計(Word Count)」的MapReduce範例運算。


$ hadoop jar hadoop-0.20.2-examples.jar wordcount input output




STEP 1:首先請選擇語系

「繁體中文,Chinese (Traditional)


STEP 2:本軟體採用Apache 2.0授權,

請按「我接受」


STEP 3:如果您不需要HBaseAnt

可以取消選取

STEP 4:選擇安裝目標資料夾,

預設為C:\hadoop4win

STEP 5:接著安裝程式會開始解壓縮

STEP 6:接著會跳出Cygwin的安裝畫面

STEP 7:安裝完成後,請按關閉結束

STEP 8:您可以從「開始」程式集」

hadoop4win」點選start-hadoop

啟動Hadoop服務於背景