「雲端運算與應用」系列演講(一)
雲端運算於地理資訊系統之應用
"Cloud Computing and its Application" lecture serious:
Cloud Applications for
Geographic Information System (GIS)

   地理資訊系統(Geographic Information Syste,GIS)必須整合各項相關地理資訊化及資料庫,範圍涵蓋資料擷取、編修、更新、儲存、查詢、處理、分析及展示等功能。由於所需儲存與分析的資料量相當龐雜,非常需要導入雲端運算海量資料處理的技術。此次演講很榮幸邀請到在開放式地理空間協會(Open Geospatial Consortium,OGC)十分活躍的逢甲地理資訊中心來為我們介紹目前在地理資訊系統方面的成果與未來展望。此本會議不收取任何報名費用,歡迎各界踴躍參加。礙於此次會議場地座位有限,請速上網報名(http://registrano.com/events/cloudtalk20100224),額滿為止。也請大家代為宣傳

10:00~10:40 講題:逢甲地理資訊中心近期成果簡介與未來展望
講者:衷嵐焜
   逢甲大學地理資訊系統研究中心 研發部經理
10:40~11:10 講題:當企鵝龍遇上小飛象
   ─ 國網中心 Hadoop 實驗叢集簡介
講者:王耀聰
   國網中心 格網技術組 副研究員
11:10~12:00 小型座談會 ─ 談 Hadoop 與 GIS 之可能合作議題

註一:響應政府儉樸原則,本活動不提供餐點,敬請見諒。
註二:第二場演講預計二月二十四日下午一點半開始,邀請台灣微軟介紹 Arzure 平台與 Hyper-V 虛擬化技術。
如果大家有興趣想要聽 Cloudera 的教育訓練課程,或者考 Hadoop 認證,
他們目前正在評估要在亞洲的哪裡開辦課程與認證考試,有興趣的可以去填一下問卷。
如果台北人數夠多,或許他們會考慮來台灣辦。

Hadoop Fans,

Over the next year, you'll see new options for Hadoop training and
certification from Cloudera. One of the first things you'll see will
be live sessions outside the US, tentatively planned for the April /
May time frame.

We've seen strong interest in Hadoop on all of our international
trips, so we'd like to ask for community input as we decide exactly
which cities to visit next. For cities we come to, we'll offer our 3
day developer training + certification, and with sufficient interest,
we may also include a 1 day training + certification program for
system administrators.

If you are interested in attending one or both of these sessions,
please fill out a brief survey (link below). If you're using Hadoop at
work, and it's time to train more of your team, you can let us know
how large of a group you have. Survey responses aren't a commitment to
attend, but we may reach out to respondents before we schedule a
session to get a better understanding of actual attendance.

You can fill out survey here: http://www.surveymonkey.com/s/MKGZHG9

If you have any trouble with the survey, or are interested in a
private training session, please don't hesitate to reach out directly.

Cheers,
Christophe
2008 年 12 月,寫信給 Tom White 說要翻繁體中文書,後來翻了一部分就停擺了。

隨著 Hadoop: The Definitive Guide 正式版本於2008 年六月發行,上週六拿到英文版紙本。

剛看到一月份 hadoop 論壇的討論才知道原來簡體中文版要出了,
http://www.china-pub.com/196200
簡體版出來後或許大家很快就會看到歐萊禮找人簡體翻繁體版了吧~希望啦~

Hadoop权威指南(预订中,估价)
軟體簡介

hadoop4win,顧名思義為『Hadoop for Windows』,主要是提供 Windows 平台上簡易安裝 Hadoop 的批次安裝檔。此批次安裝檔內容,主要參考自國網中心企鵝龍與再生龍團隊成員孫振凱先生之 drbl-winroll 作品,抽取安裝部分程式改寫成 hadoop4win 所需的步驟。

hadoop4win 目前包含三大軟體組成:

  • Cygwin - 提供精簡版,類似 Linux 的環境
  • JDK 1.6.0 update 18 - 運行 Hadoop 必須的 JRE(Java Runtime Environment) 與編譯程式所需之 javac 編譯器
  • Hadoop 0.20.1 - 包含 Hadoop 0.20.1 原始程式與中英文說明文件檔

檔案下載

改版紀錄

  • 0.1.2 alpha - 2010/02/06 :
    • 改回 Cygwin 1.5.25 版本的套件庫 - 感謝 Yi-Kai Tsai 回報 0.1.1 版無法正確執行 wordcount 範例的 BUG
  • 0.1.1 alpha - 2010/02/04 :
    • 改用 Cygwin 1.7.1 版本的套件庫 - 並且改用 "-P" 參數指定欲額外安裝套件
    • 修改 hadoop4win-setup.bat 批次檔,以因應 Cygwin 1.7 版本的 setup.exe 差異。
    • 新增 HADOOP_HOME、HADOOP_CLASSPATH、HADOOP_CONF_DIR 環境變數至 hadoop-env.sh - >感謝 Yi-Kai Tsai 建議
    • 新增 /opt/hadoop/bin 與 $JAVA_HOME/bin 到 /etc/profile 的 PATH 環境變數,讓每個>使用者可以簡單輸入 hadoop 指令 - 感謝 Yi-Kai Tsai 建議
    • 修改 start-hadoop 並加入 start-hadoop-daemon 命令,另行開一視窗啟動 HDFS Name Node、Data Node 與 MapReduce Job Tracker、Task Tracker 子程序。如此一來可以避免 CTRL+C 觸發 SIGINT 而強制停止所有 java 程序。 - 感謝 Yi-Kai Tsai 找出重現 BUG 的主因(Ctrl+C)
    • 新增 stop_hadoop 指令至 ~/.bash_logout 與 /etc/skel/.bash_logout,以確保離開 Cygwin 時關閉 HDFS 與 MapReduce -- 若要保留 java 程序,可手動移除
    • 新增 hbase-init、start-hbase、start-hbase-daemon、stop-hbase 來初始化 hbase 下載、安裝、設定、啟動 ZooKeeper、Master、RegionServer 的程序。
  • 0.1.0 alpha - 2010/01/22
  • 0.1 alpha 
2010/01/22 基於 drbl-winroll 修改為 hadoop4win 嚐鮮版

反應意見


安裝方法

  • STEP 1 : 首先下載 hadoop4win 任一版本,並存至硬碟(如 D:)。使用 Windows XP 以上版本內建的解壓縮工具將 zip 壓縮檔解開。
  • STEP 2 : 在 hadoop4win-setup 目錄中,執行 hadoop4win-setup.bat 批次檔。
    • 註:預設將安裝到 C:/hadoop4win 中,若因硬碟存取權限較嚴格,需修改安裝路徑,請自行修改 hadoop4win-setup.bat。
  • STEP 3 : 一開始會出現 Cygwin 的安裝畫面,並自動開始安裝 Cygwin。
  • 接著批次程式將會把 Hadoop 單機版所需之 Java 開發環境 (JDK 1.6.0 update 18)與 Hadoop 0.20.1 壓縮檔拷貝至安裝目錄。若您下載的是網路安裝版本,會看到批次檔先從網路上下載兩個壓縮檔,才開始安裝。
  • STEP 4 : 當拷貝完成後會進入 Cygwin 視窗。此時,請輸入指令『hadoop4win-init』。
  • 此初始化指令將會進行 JDK 與 Hadoop 解壓縮動作
  • 最後將會執行 Hadoop Namenode 的格式化
  • STEP 5 : 按下任意鍵會依序啟動 Hadoop Name Node, Data Node, Job Tracker, Task Tracker
  • 並使用預設瀏覽器依序開啟 http://localhost:50030http://localhost:50070 (若使用 IE 可能會只看到一個畫面)

測試方法

  • STEP 6 : 此時系統已完成 Hadoop 0.20.1 的 tar ball 安裝,可以參考 國網中心雲端運算課程(一) 之教學進行相關測試。目前將 Hadoop 0.20.1 安裝於 /opt/hadoop 路徑下,故使用者必須先切換至該目錄才能進行相關指令操作。
    $ cd /opt/hadoop
  • STEP 7 : 練習 HDFS 指令: 『bin/hadoop fs -put <local file/dir> <HDFS file/dir>
    $ bin/hadoop fs -input conf-org input
  • STEP 8 : 練習 HDFS 指令: 『bin/hadoop fs -lsr <HDFS file/dir>
    $ bin/hadoop fs -lsr
  • STEP 9 : 練習 MapReduce 丟 Job 指令: 『bin/hadoop jar <local jar file> <class name> <parameters>
    $ bin/hadoop jar hadoop-0.20.1-examples.jar wordcount input output
  • STEP 10 : 練習從 http://localhost:50030 查看目前 MapReduce Job 的運作情形
  • STEP 11 : 欲離開 Cygwin 環境前或者要暫時關閉 Hadoop 系統時,請輸入指令『stop-hadoop』。

  • STEP 12 : 欲重新啟動 Hadoop 系統時,請輸入指令『start-hadoop』。

已知問題

  • [備註] 由於 Hadoop 0.20.1 的 HDFS 檢查比較嚴謹,因此單機狀態下,您會看到 http://localhost:50070 顯示『Safe Mode is ON』等字樣,代表 HDFS 目前是被封鎖住寫入權限,需等待至少 30 秒以後才會恢復正常。亦因此,http://localhost:50030 若剛開始沒有 Task Tracker 連上來,也是因為 HDFS 處於安全模式(Safe Mode)造成,須等 30 秒後切回正常模式才會連上。
    • [備註] 若需要重新啟動 Cygwin 環境,請至 C:\hadoop4win 目錄執行 cygwin.bat 批次檔
當今三大資料庫公司 (微軟,IBM,Oracle) 對於近年爆紅的資料處理技術 Hadoop 分別有著決然不同的反應.

SybaseTeradata 等 data warehouse 公司紛紛擁抱 Hadoop/Mapreduce 技術的時候,  很顯然的, 微軟正在抗拒著. 威斯康辛大學教授 David J. DeWitt 同時也是 Microsoft tech fellow 說 "我們不打算引入Hadoop到我們的產品當中". 他對於 Hadoop 不感興趣其實並不令人意外, DeWitt 教授是 parallel SQL databases 學術專家, 年初才和他人共同發表了一篇關於 SQL Server 仍可以在大多數的工作上擊敗MapReduce 的論文.

IBM 本身是 Apache 軟體基金會的主要贊助公司之一,不令人意外地, IBM 對 Hadoop 的發展則是樂觀其成. Anant Jhingran, IBM information management division 的 CTO 提到: "我並不是說Hadoop 融合資料庫可以解決一切問題, 但是最終每個公司將會想要擁有 Hadoop 技術, 只是不確定是以哪種形式". IBM 在實驗室進行研究開發的同時, 也正與數十家企業用戶進行相關實驗計劃.

Oracle 有可能是 Hadoop/MapReduce 崛起後最大的輸家, 不僅僅是因為它本身目前是第一大資料庫軟體廠商,也因為資料庫在延展性(Scalability)方面的名聲不佳 - 而這正是 Hadoop/MapReduce 的強項. Oracle 並未正式回應, 不過就在今年十月,它們發佈了一篇 blog 談到 "事實上我們一直以來都在用 MapReduce"


首先,感謝各界的參與,才能讓此次活動順利圓滿。

此次會議的投影片已大致蒐集完畢,感謝各位講者的熱心分享,
各場次檔案下載連結如下:


演講題目 (Topic) 演者 (Speaker) 投影片下載 (Slides)
Making Hadoop Easy for a Growing Community Christophe Bisciglia, Cloudera PDF
Buiding multiuser hadoop testbed with DRBL 王耀聰先生,國網中心 PDF
ODP
Image Selection for Large-Scale Flickr Photos using Hadoop 吳冠龍先生,台大資工系通訊與多媒體實驗室 PDF - 單頁版
PDF - 雙頁版
Hadoop 雲端架構實作研究協作平台的發展歷程與高雄社群經營心得分享 郭朝益先生,謝富昌先生,老魚研究室 PDF
Google Docs
Building IDS-log Cloud Analysis System using Hadoop and HBase 陳威宇先生,國網中心 PPT
PIG Yi-Wei Chen , Yahoo Search engineering PPT
Hadoop Capacity scheduler introduction Rong-en Fan , Yahoo Search Engineering PDF


hadoop-tw.jpg


台灣 Hadoop 使用者社群會議
Hadoop Taiwan User Group Meeting 2009


繼格網運算之後,雲端運算被視為下一代資訊架構的主流。雲端運算平台 Hadoop 及雲端資料庫平台 HBaseHive 均是目前諸多雲端運算服務的基礎架構。 Cloudera 是目前全球首先提供自由軟體 Hadoop 技術支援的商業公司,本次使用者會議特別邀請來自 Cloudera Christophe Bisciglia 來跟我們分享如何運用 Hadoop 打造雲端應用程式與軟體服務,並分享自由軟體的可行商業模式:教育訓練與認證機制。此外,也邀請了國內推動Hadoop 教學、軟體開發、社群建立的幾位同好來進行知識分享,包括:台灣雅虎老魚研究室國立台灣大學資訊工程學系通訊與多媒體實驗室國家高速網路與計算中心雲端運算研究小組。希望透過此次會議,讓更多有興趣瞭解 Hadoop 的夥伴相互交流,進行凝聚出台灣區的 Hadoop 社群。
本會議不收取任何報名費用,歡迎各界踴躍參加。礙於此次會議場地座位有限,請速上網報名(http://registrano.com/events/hadoop-tw),額滿為止。
也請大家代為宣傳(議程PDF版)。

Cloud Computing is a hot research topic since year 2007. Hadoop, HBase and Hive are the key components of many cloud computing infrastructures.  Cloudera is the first company to provide technical support of Hadoop. In this workshop, we invite Christophe Bisciglia to share the experience of how to build cloud services with Hadoop and  Cloudera's open source business model - training and certification. Besides, we also invite local developers of Taiwan Hadoop communities to share their projects.
  This workshop is now free to register. Please use following URL to join this event.  http://registrano.com/events/hadoop-tw

09-10-21_Schedule_small.png


六月底用力擠出了 1-2 人的工作機會,沒想到不到一季,人力市場上針對雲端相關的職缺有長足的增加,一定是 Hadoop Taiwan User Group 的小象隊們努力推廣及爭取後的好成果,各位小象同志辛苦了,請繼續加油。

itsyou.jpg
Photo from chowjh .


這次 Yahoo! 要招募的是應屆到工作經驗三年內的熱血青年,加入雅虎後將接受一系列的基礎訓練課程及工作實習後,合格者將成為雅虎全球平台開發的一員 (參考這則新聞,不過不只是新聞平台,其它如 Social Network, E-Commerce, Search 等也包含在內)。

工作職缺在這裡 (Tech Yahoo! -Cloud Computing Program雲端工程師培訓計劃 (需求人數:不限)。

於 2009 年 09 月 14~15 日於國家高速網路與計算中心中部事業群
舉辦的「雲端運算基礎課程(一) Hadoop簡介、安裝與實作」首次進行實驗性課程錄影。
課程內容與課程錄影連結詳 課程網頁 或直接至 http://www.classcloud.org/media 下載
原始 vnc2swf 桌面錄影與錄音的獨立檔案。

註:由於採用 vnc2swf 錄影,桌面與聲音的同步比較差,快轉也常會失效,
  或許下次有機會再開課會考慮別的錄影方式。
  vnc2swf 的好處是桌面可以比較清晰,檔案也比較小。

Hadoop 計畫分割

| | Comments (0) | TrackBacks (0)
應該有些人注意到前一陣子 Hadoop 決定進行計畫分割,最主要的改變是將原本 Hadoop Core 這個計畫分割為三個計畫, Hadoop Common, HDFSMapReduce. 為何要進行這樣的改變呢? 主要的原因是 Hadoop 越來越熱門了! 首先碰到問題是原先開發用的 mail listing 量暴增 , 每天都有數十個以上的 JIRA 訊息. 再來是計畫本身的 code base 也不斷的在長大 (300,000+ lines of Java) 另外就是之前有蠻多人很有興趣的部份,單獨使用 HDFS. 因此決定將原本的 Hadoop Core 分成三個計畫, 分別有各自的 svn repository , JIRA 和 mail lists. 原先使用者用的 core-user@hadoop.apache.org 更名為 common-user@, 另外對應產生了 mapreduce-user@ 和 hdfs-user@.

對於使用Hadoop上面來說, 短時間內 Stable 版本(0.18,0.19,0.20)不會有影響, 到 0.20.1 仍然會是以 single project 的方式 release. 之後每個 project 會分別有有自己的 release , 使用上將會需要同時安裝數個 packages. 同時 Configure 上也需要注意, 從 0.20 開始應該已經要把單一的 hadoop-site.xml 分開為 mapred-site 和 hdfs-site , 0.21 版之後才可繼續使用. 至於 API 方面, 從 0.20 開始 MapReduce 已經導入新的 API 但是尚未完全使用 , 將會在 0.20.1 修復完成, 同時 0.20.1 release 之後也代表了你應該準備升級你原來的程式碼了.

HadoopProjectSplit.png
Image from: Cloudera

Find recent content on the main index or look in the archives to find all content.

Pages

Sponsored By

Host by NCHC
Yahoo! Search