Results tagged “HBase” from Hadoop Taiwan User Group

Hadoop4Win 0.1.2 版釋出供下載

|
軟體簡介

hadoop4win,顧名思義為『Hadoop for Windows』,主要是提供 Windows 平台上簡易安裝 Hadoop 的批次安裝檔。此批次安裝檔內容,主要參考自國網中心企鵝龍與再生龍團隊成員孫振凱先生之 drbl-winroll 作品,抽取安裝部分程式改寫成 hadoop4win 所需的步驟。

hadoop4win 目前包含三大軟體組成:

  • Cygwin - 提供精簡版,類似 Linux 的環境
  • JDK 1.6.0 update 18 - 運行 Hadoop 必須的 JRE(Java Runtime Environment) 與編譯程式所需之 javac 編譯器
  • Hadoop 0.20.1 - 包含 Hadoop 0.20.1 原始程式與中英文說明文件檔

檔案下載

改版紀錄

  • 0.1.2 alpha - 2010/02/06 :
    • 改回 Cygwin 1.5.25 版本的套件庫 - 感謝 Yi-Kai Tsai 回報 0.1.1 版無法正確執行 wordcount 範例的 BUG
  • 0.1.1 alpha - 2010/02/04 :
    • 改用 Cygwin 1.7.1 版本的套件庫 - 並且改用 "-P" 參數指定欲額外安裝套件
    • 修改 hadoop4win-setup.bat 批次檔,以因應 Cygwin 1.7 版本的 setup.exe 差異。
    • 新增 HADOOP_HOME、HADOOP_CLASSPATH、HADOOP_CONF_DIR 環境變數至 hadoop-env.sh - >感謝 Yi-Kai Tsai 建議
    • 新增 /opt/hadoop/bin 與 $JAVA_HOME/bin 到 /etc/profile 的 PATH 環境變數,讓每個>使用者可以簡單輸入 hadoop 指令 - 感謝 Yi-Kai Tsai 建議
    • 修改 start-hadoop 並加入 start-hadoop-daemon 命令,另行開一視窗啟動 HDFS Name Node、Data Node 與 MapReduce Job Tracker、Task Tracker 子程序。如此一來可以避免 CTRL+C 觸發 SIGINT 而強制停止所有 java 程序。 - 感謝 Yi-Kai Tsai 找出重現 BUG 的主因(Ctrl+C)
    • 新增 stop_hadoop 指令至 ~/.bash_logout 與 /etc/skel/.bash_logout,以確保離開 Cygwin 時關閉 HDFS 與 MapReduce -- 若要保留 java 程序,可手動移除
    • 新增 hbase-init、start-hbase、start-hbase-daemon、stop-hbase 來初始化 hbase 下載、安裝、設定、啟動 ZooKeeper、Master、RegionServer 的程序。
  • 0.1.0 alpha - 2010/01/22
  • 0.1 alpha 
2010/01/22 基於 drbl-winroll 修改為 hadoop4win 嚐鮮版

反應意見


安裝方法

  • STEP 1 : 首先下載 hadoop4win 任一版本,並存至硬碟(如 D:)。使用 Windows XP 以上版本內建的解壓縮工具將 zip 壓縮檔解開。
  • STEP 2 : 在 hadoop4win-setup 目錄中,執行 hadoop4win-setup.bat 批次檔。
    • 註:預設將安裝到 C:/hadoop4win 中,若因硬碟存取權限較嚴格,需修改安裝路徑,請自行修改 hadoop4win-setup.bat。
  • STEP 3 : 一開始會出現 Cygwin 的安裝畫面,並自動開始安裝 Cygwin。
  • 接著批次程式將會把 Hadoop 單機版所需之 Java 開發環境 (JDK 1.6.0 update 18)與 Hadoop 0.20.1 壓縮檔拷貝至安裝目錄。若您下載的是網路安裝版本,會看到批次檔先從網路上下載兩個壓縮檔,才開始安裝。
  • STEP 4 : 當拷貝完成後會進入 Cygwin 視窗。此時,請輸入指令『hadoop4win-init』。
  • 此初始化指令將會進行 JDK 與 Hadoop 解壓縮動作
  • 最後將會執行 Hadoop Namenode 的格式化
  • STEP 5 : 按下任意鍵會依序啟動 Hadoop Name Node, Data Node, Job Tracker, Task Tracker
  • 並使用預設瀏覽器依序開啟 http://localhost:50030http://localhost:50070 (若使用 IE 可能會只看到一個畫面)

測試方法

  • STEP 6 : 此時系統已完成 Hadoop 0.20.1 的 tar ball 安裝,可以參考 國網中心雲端運算課程(一) 之教學進行相關測試。目前將 Hadoop 0.20.1 安裝於 /opt/hadoop 路徑下,故使用者必須先切換至該目錄才能進行相關指令操作。
    $ cd /opt/hadoop
  • STEP 7 : 練習 HDFS 指令: 『bin/hadoop fs -put <local file/dir> <HDFS file/dir>
    $ bin/hadoop fs -input conf-org input
  • STEP 8 : 練習 HDFS 指令: 『bin/hadoop fs -lsr <HDFS file/dir>
    $ bin/hadoop fs -lsr
  • STEP 9 : 練習 MapReduce 丟 Job 指令: 『bin/hadoop jar <local jar file> <class name> <parameters>
    $ bin/hadoop jar hadoop-0.20.1-examples.jar wordcount input output
  • STEP 10 : 練習從 http://localhost:50030 查看目前 MapReduce Job 的運作情形
  • STEP 11 : 欲離開 Cygwin 環境前或者要暫時關閉 Hadoop 系統時,請輸入指令『stop-hadoop』。

  • STEP 12 : 欲重新啟動 Hadoop 系統時,請輸入指令『start-hadoop』。

已知問題

  • [備註] 由於 Hadoop 0.20.1 的 HDFS 檢查比較嚴謹,因此單機狀態下,您會看到 http://localhost:50070 顯示『Safe Mode is ON』等字樣,代表 HDFS 目前是被封鎖住寫入權限,需等待至少 30 秒以後才會恢復正常。亦因此,http://localhost:50030 若剛開始沒有 Task Tracker 連上來,也是因為 HDFS 處於安全模式(Safe Mode)造成,須等 30 秒後切回正常模式才會連上。
    • [備註] 若需要重新啟動 Cygwin 環境,請至 C:\hadoop4win 目錄執行 cygwin.bat 批次檔

hadoop-tw.jpg


台灣 Hadoop 使用者社群會議
Hadoop Taiwan User Group Meeting 2009


繼格網運算之後,雲端運算被視為下一代資訊架構的主流。雲端運算平台 Hadoop 及雲端資料庫平台 HBaseHive 均是目前諸多雲端運算服務的基礎架構。 Cloudera 是目前全球首先提供自由軟體 Hadoop 技術支援的商業公司,本次使用者會議特別邀請來自 Cloudera Christophe Bisciglia 來跟我們分享如何運用 Hadoop 打造雲端應用程式與軟體服務,並分享自由軟體的可行商業模式:教育訓練與認證機制。此外,也邀請了國內推動Hadoop 教學、軟體開發、社群建立的幾位同好來進行知識分享,包括:台灣雅虎老魚研究室國立台灣大學資訊工程學系通訊與多媒體實驗室國家高速網路與計算中心雲端運算研究小組。希望透過此次會議,讓更多有興趣瞭解 Hadoop 的夥伴相互交流,進行凝聚出台灣區的 Hadoop 社群。
本會議不收取任何報名費用,歡迎各界踴躍參加。礙於此次會議場地座位有限,請速上網報名(http://registrano.com/events/hadoop-tw),額滿為止。
也請大家代為宣傳(議程PDF版)。

Cloud Computing is a hot research topic since year 2007. Hadoop, HBase and Hive are the key components of many cloud computing infrastructures.  Cloudera is the first company to provide technical support of Hadoop. In this workshop, we invite Christophe Bisciglia to share the experience of how to build cloud services with Hadoop and  Cloudera's open source business model - training and certification. Besides, we also invite local developers of Taiwan Hadoop communities to share their projects.
  This workshop is now free to register. Please use following URL to join this event.  http://registrano.com/events/hadoop-tw

09-10-21_Schedule_small.png


向SQL說NO (NOSQL)

|
一個相當年輕但是正在快速成長的新社群"向SQL說NO" (nosql) 上週在美國舊金山舉行了一次會議, 這次的會議向大家完整的介紹分散式資料庫,這種非傳統關連式資料庫(RDBMS)如何在各樣不同計畫或產品當中成功的被應用. 其中包括了 
MongDb (10gen 等.. ,
投影片跟Video可以在 http://blog.oskarsson.nu/2009/06/nosql-debrief.html 這邊下載.
今年的 Open Source Developers' Conference Taiwan 將於 台北市松仁路7號7樓 (國泰金融大樓) / 7F., No.7, Songren Rd., Sinyi Dist., Taipei City 舉辦, 4/17~4/19 為期三天. 其中第三天有一場介紹 HBase 的演講, 對於這套 on top of Hadoop DFS, column-oriented 資料庫系統有興趣的朋友歡迎參加.

HBase 介紹

|
Hadoop 除了擁有分散式的運算平台之外,底層還有一個適合循序式、批次存取的檔案系統(HDFS),當然大家就不會就此滿足。既然 Google 用自家的分散式檔案系統做了一個用來存放結構化資料的 BigTable,為甚麼不也用 Hadoop 的 HDFS 做一個出來呢?

於是,兩年前在兩位 Powerset 工程師(Jim Kellerman 跟 Michael Stack)的號召下,在 Hadoop 的 contrib 計畫中多出了 HBase 這個跟 BigTable 採用類似設計的分散式結構化資料的儲存系統。

簡單的說,HBaseBigTable 一樣,有別於一般資料庫系統用的 row-oriented 儲存方式,這兩個系統都是 column-oriented 的儲存方式。Column-oriented 的好處是每一筆資料可以存放不固定欄位的東西,不像 row-oriented 的存法,增加一個新的欄位需要多花些力氣才能達成。與 BigTable 相同的是 HBase 底層也是使用了分散式的檔案系統 (Hadoop 的 HDFS),並且也將一個資料表拆成很多份,由不同的伺服器負責該部份的存取,藉此達到高效能。

在寫入資料的時候,HBaseBigTable 一樣,都是先寫到記憶體中的 MemCache,並且有 Write-Ahead Log 以防意外發生時可以做復原的動作。每隔一段時間,或者 MemCache 累積到一定程度,HBase 就會把資料寫入檔案系統中。因此,HBase 可以提供相當高速的寫入。讀取的時候,也是先去找 MemCache 後再去找檔案系統,而藉由將一個大大的表拆成很多份的技巧,也提昇了讀取的速度。

HBase 本身跟 Hadoop 一樣用 Java 撰寫,但透過 Thrift 的支援(Thrift 是一套由 Facebook 所開發,提供跨語言做資料交換的平台),你可以用任何 Thrift 有支援的語言,像是PHP/Perl/Ruby/Python 等來存取 HBase