Recently in MapReduce Category

Hadoop 叢集佈建初探 - hiCloud 為例

國家高速網路與計算中心 王耀聰 副研究員


本文首次發表於 2012年07月06日出版之 iTcloud專刊no.2 (NO.44)
原稿與圖檔 PDF 版本,請至此網址下載。


(續上篇)

Hadoop叢集版初探 -hiCloud Ubuntu Linux

上個小節我們介紹了如何在Windows上建立一個Hadoop的實驗環境,然而Windows版本存在著許多小問題,像是Cygwin的路徑與Java Runtime認知的Windows路徑不同,因此許多時候,您在下指令的時候,還必須要透過cygpath指令將Cygwin路徑轉換成Windows路徑,相當不便。其次,假設您想要把多台hadoop4win串起來,有許多先決條件,像是必須要有不同的電腦名稱、要有相同的使用者名稱跟檔案存取權限。因此,一般我們在提供商業運轉的Hadoop環境時,仍舊會採用Linux版本。


  雲端運算的五大基礎特徵中,第一點是「隨需自助服務」,其背後隱藏著「標準化」與「自動化」的精神。本文為了讓每位讀者能有標準化的實作環境,免除不同Linux版本造成的操作問題,此次採用的是中華電信hiCloudUbuntu 10.04虛擬機器當作示範架設Hadoop叢集版的環境。底下將示範如何在十台Ubuntu 10.04的虛擬機器上,建置一個Hadoop叢集。由於Hadoop安裝的指令繁瑣,筆者這裡提供一個自動化的安裝腳本程式,各位可至http://github.com/jazzwang/hicloud-hadoophttp://hidoop.sf.net下載原始碼。以下我們用圖解的方式,說明如何使用hicloud開啟十台虛擬機器,並設定成Hadoop叢集




STEP 1:請連線至hicloud.hinet.net

並點選右上角「客戶登入」



STEP 2:若您不是中華電信用戶,

請先加入會員,然後用取得帳號登入


STEP 3:點選上方「雲運算」

STEP 4:點選左方「虛擬主機」

STEP 5:點選左上角「申請」

STEP 6:確認同意中華電信hicloud租約

選擇「Linux微運算型XS」,按「下一步」


STEP 7:選擇「Ubuntu 10.0,32bit

STEP 8:用hdp命名,產生10台虛擬機器

STEP 9:等待申裝狀態變為「已申裝」

STEP 10:請確認供裝狀態變為「已申裝」

點左上角「全選」,並選「開機」

STEP 11:點選右上角「預設密碼」,將password.zip儲存到桌面

STEP 12:用預設密碼解壓縮password.zip並匯入CSV格式的密碼檔案

STEP 13:我們從密碼表中挑選第一台

PieTTY連線到該台虛擬機器


STEP 14:預設請使用root帳號登入,

密碼請根據您的密碼表輸入六碼預設密碼


  做到這邊,我們已經把十台虛擬機器開機。請從hiCloud介面上確認每一台虛擬機器都已經進入「已開機」的狀態,接著使用您慣用的SSH連線軟體,這裡我們使用的是PieTTY,可以自http://ntu.csie.org/~piaip/pietty/ 下載。由於hicloud-hadoop自動安裝腳本是針對Linux環境撰寫的,因此我們直接挑選其中一台來進行安裝。您也可以在自己的Linux環境上執行以下的步驟。在執行hicloud-hadoop自動安裝腳本前,有一些前置作業:(1)產生SSH連線用的金鑰;(2)安裝PerlExpect.pm函式庫,因為我們會使用Expect來幫忙您自動填入預設密碼,登入另外九台虛擬機器,並進行Hadoop安裝作業。現在請您在登入第一台虛擬機器的PieTTY視窗內中輸入以下兩個指令:


~# ssh-keygen -t rsa -P ""

~# apt-get install libexpect-perl


  接下來,讓我們下載hicloud-hadoop自動安裝腳本,並且解壓縮安裝檔。然後在hicloud-hadoop目錄底下建一個conf子目錄。


~# wget http://nchc.dl.sourceforge.net/project/hidoop/0.0.1/hicloud-hadoop-0.0.1.tar.gz

~# tar zxvf hicloud-hadoop-0.0.1.tar.gz

~# mkdir -p hicloud-hadoop/conf


  接著,使用記事本先編輯兩個檔案,一個叫master,一個叫slave。可用PieTTYWinSCP上傳這兩個檔案到hicloud-hadoop/conf 底下,或參考底下的作法在conf底下建立兩個設定檔。


~# cat > hicloud-hadoop/conf/master << EOF

203.66.14.171 root 800773

EOF

~# cat > hicloud-hadoop/conf/slave << EOF

203.66.14.40 root 154737

.................

210.65.10.139 root 367578

EOF


  以上的IP、帳號、密碼三個欄位,您可以直接從CSV貼到記事本,加入中間的空白,在貼到命令列。最後切換到hicloud-hadoop目錄,然後執行 install-ubuntu 自動安裝腳本。


~# cd hicloud-hadoop

hicloud-hadoop# ./install-ubuntu


從密碼表中挑選第一台的IP、帳號、密碼

貼到記事本,補上空格,然後轉貼到master

從密碼表中挑選剩下的IP、帳號、密碼

貼到記事本,補上空格,然後轉貼到slave


  等自動安裝腳本執行完畢後,您會看到類似底下的訊息。此時,點選兩個網址,就會看到HadoopHDFS NameNodeMapReduce JobTracker網頁。



安裝完畢的最後一行會顯示5007050030的兩個網址


50070HDFS頁面


50030MapReduce頁面


雲端精算師:好的設計可以省下更多錢

  做到這邊,各位讀者應該可以繼續在hiCloud的十台虛擬機器上練習在Hadoop4Win的指令。不過這裡要提醒的一件很重要的事情:「不同於Amazon EC2有開機才計價,hiCloud是從申裝開始計費,退租才停止計費,就像您租用手機門號一樣,不管有沒有開機都會計費」。因此建議您如果口袋不夠深的話,練習完麻煩一台一台把虛擬機器退租吧!一節課程大約花個兩三個小時,14塊台幣/小時,跟買杯超商咖啡差不多,這就是雲端帶給各位的新學習環境。


  


練習完畢後,請務必退租,

免得收到帳單會很痛!


花了28塊(10*2小時*1.4元)

Hadoop叢集佈署



  倘若您手邊有兩台以上的實體機器,或者多核心效能強大的伺服器,不妨安裝VirtualBox虛擬化軟體,在一台電腦上建立兩至三台Ubuntu 10.04Linux環境,各位聰明的讀者可以透過上述的步驟來安裝您專屬的Hadoop叢集,就算是一個小型的私有雲了。


  在本文最後,筆者想提出幾個關於「雲端精算師」的軟體設計精神,與各位讀者分享。目前hicloud-hadoop 0.0.1版本是循序安裝,因此機器愈多,安裝時間愈長。未來將加入多執行緒的程式碼,讓安裝流程能同時進行。對hiCloud這種按時計費的公有雲而言,如何節省安裝時間變得很重要。未來hiCloud若能讓使用者建立自己專屬的虛擬機器範本,相信能有效降低各位讀者荷包的負擔。


  其次,中華電信的計價模式還包含網路流量,因此如何減少網路傳輸也是採用公有雲服務應該要思考的第二個重點。目前的腳本每一台虛擬機器都會重複下載JavaHadoop安裝檔。若能把Hadoop安裝檔先存在同一個公有雲提供的「儲存服務」,讓資料來自於「內部網路」而非「網際網路」,不納入流量計費,那也是對用戶有利的計價模式。


  最後,若能夠把要處理的事情變成自動化,計算完就關閉虛擬機器,以上這些考量就是在雲端時代程式設計師應該具備的「雲端精算師」精神,擁有節省成本的思考模式將是您未來在職場上的新競爭力!


Hadoop 叢集佈建初探 - hiCloud 為例

國家高速網路與計算中心 王耀聰 副研究員


(乘上篇)

Hadoop單機版初探 - Windows

  根據hadoop官方文件的建議,Hadoop最佳營運案例主要是在Linux作業系統底下運行。但在台灣,多數資訊從業人員仍以Windows為主要的作業系統。筆者為了降低各位學習Hadoop的門檻,撰寫了一套名為Hadoop4Win的懶人包安裝程式。目前在Windows XPWindows 2000環境下測試正常,至於Windows 7環境下目前因為安全性權限較嚴格,需關閉UAC,常不易安裝成功,因此這次我們以Windows XP環境來做示範。

  首先,請到http://hadoop4win.nchc.org.twhttp://hadoop4win.org下載0.1.5版本的hadoop4win完整安裝檔。Hadoop4win 0.1.5目前包含五大軟體組成:(1) Cygwin(2) JDK 1.6.0 update 18(3) Hadoop 0.20.2(4) HBase 0.20.6(5) Ant 1.8.2。因此整個完整版懶人包大約有189 MB,請點擊hadoop4win-setup-full_0.1.5.exe執行檔開始進行安裝的動作

  備註:由於hadoop4win會在安裝資料夾寫入數量眾多的檔案,假如您有安裝防毒軟體,安裝時間可能會比較長(因為每個檔案都被掃描過一次)。倘若您希望縮短安裝時間,可暫時性關閉防毒軟體。

  當您完成hadoop4win的安裝後,有兩種方式可以在Windows上啟動Hadoop。其一是從「開始」選單選取 start-hadoop捷徑。其二是先點選 hadoop4win 捷徑,進入Cygwin指令操作的介面,才下指令start-hadoop來啟動Hadoop的五個背景服務(亦及NameNodeDataNodeJobTrackerTaskTrackerSecondaryNameNode)。


  備註:安裝過程中,Windows防火牆會跳出警告說有Java程式嘗試開啟網路連線埠,這是因為Hadoop背景服務至少會開啟五個網路連線埠來進行底層的RPC通訊,請選擇「解除封鎖」。


  接著,您可以根據hadoop4win網頁的說明,學習基本的Hadoop指令操作。礙於版面篇幅,這裡我們僅列舉三個指令操作來進行說明。首先,第一個指令叫jps,這個指令顧名思義就是列出所有java process。單機版的Hadoop4Win,基本上應該要有五個Java程序。因此,倘若您無法看到如圖的五個Java程序名稱(前面的數字為PID,每次執行會不同),那代表您的電腦可能記憶體不足(最低需求為512MB,建議至少有1GB記憶體)。倘若您在執行上遇到任何問題,歡迎到forum.hadoop.tw提問。


  如果您可以正常看到jps出現的五個Java程序,代表您的Hadoop環境已經在背景正常執行了。此時您可以點選「開始」選單的「NameNode Web UI」與「JobTracker Web UI」,或者直接用瀏覽器開啟http://localhost:50070http://localhost:50030的網址。


  第二個指令叫作hadoop fs,這個指令是用來驗證Hadoop分散式檔案系統(HDFSHadoop Distributed File System)的功能是否正常。請在Cygwin指令視窗鍵入以下指令,將位於安裝目錄(c:\hadoop4win)的opt\hadoop\conf-pseudo子目錄,上傳到HDFS的抽象檔案系統:


$ cd /opt/hadoop

$ hadoop fs -put conf-pseudo input ; hadoop fs -ls


  最後一個指令叫作hadoop jar,這個指令是用來驗證HadoopMapReduce運算環境功能是否正常。請在Cygwin指令視窗中鍵入以下指令,將剛剛上傳到HDFSinput目錄,共計13個檔案,進行「字數統計(Word Count)」的MapReduce範例運算。


$ hadoop jar hadoop-0.20.2-examples.jar wordcount input output




STEP 1:首先請選擇語系

「繁體中文,Chinese (Traditional)


STEP 2:本軟體採用Apache 2.0授權,

請按「我接受」


STEP 3:如果您不需要HBaseAnt

可以取消選取

STEP 4:選擇安裝目標資料夾,

預設為C:\hadoop4win

STEP 5:接著安裝程式會開始解壓縮

STEP 6:接著會跳出Cygwin的安裝畫面

STEP 7:安裝完成後,請按關閉結束

STEP 8:您可以從「開始」程式集」

hadoop4win」點選start-hadoop

啟動Hadoop服務於背景

Hadoop in Taiwan 2012 講者投稿現況

|
目前講者投稿情形,共計四個開發者議程,三個應用案例,兩個管理者講題。

PS. 比較有趣的是今年大家都用英文命名,真是國際化呀!!

Developer / 開發者
楊詠成(Gibson Yang) / 台灣雅虎 Yahoo! oozie introductionoozie introduction & experience sharing
Chia-Hung LinBulk Synchronous ParallelHadoop MapReduce[1]. is a popular open source framework inspired by functional programming 's map and reduce functions, saving developers lots of works by covering many underlying complicated tasks. However, not all tasks fit into MapReduce's scenario, graph related computation task (e.g. social network analysis) is one such example. Google therefore developed their in-house product, Pregel[2], based on Bulk Synchronous Parallel[3] - a bridge model suitable for performing iterative algorithms, performing large scale graph processing.

Outline:
1. What is Bulk Synchronous Parallel?
2. Apache Hama
3. Comparison between Hadoop MapReduce and Apache Hama

[1]. http://hadoop.apache.org/mapreduce/ [2]. http://dl.acm.org/citation.cfm?id=1582723 [3]. http://dl.acm.org/citation.cfm?id=79173.79181
Laurence Liew / Revolution Analytics, Asia Pacific. General Manager Big Data Analytics - Trends and Best Practises Using case studies from consumer behavior analytics to text mining and sentiment analysis, this session introduces big data analytics & the field of Data Science. An overview of data science and the data scientist toolkit will be presented. A discussion on use of R and Hadoop will also be presented.
Application / 應用案例
講者 / 單位名稱演講主題演講摘要
辜文元 / 逢甲大學GIS中心Hadoop於地理資訊系統之應用案例分享近年來由於遙測技術之快速發展,單幅影像解析度大幅提高使得檔案需要更大的儲存空間,此外動態攝影在環境觀測與記錄使用上也愈來愈廣泛,資料動輒以GB或TB為單位成長,使得遙測資料儲存管理的需求性日益增加。面對如此巨量的資料量往往導致傳統伺服器頻繁的出現儲存空間不足的狀況,雖然傳統伺服器可以增加硬碟來增加儲存空間,但垂直的空間擴展有一定的限制,如何因應日益增加的影像儲存需求,將會是一個很重要的課題。

本研究提出以Hadoop來解決巨量遙測影像儲存問題,利用其內建的HDFS分散式檔案系統之分散儲存特性,將影像檔案分散儲存到不同的雲端節點上,當客戶端數量或客戶端存取量增加時,由於檔案分散儲存,大幅提昇客戶端存取的效率。
Chun-Han Chen / OgilvyOne Mohohan: An on-line video transcoding service via HadoopA famous cloud computing file system and developing framework named Hadoop is mainly designed for massive textual data management, such as counting, sorting, indexing, pattern finding, and so on. However, it is merely to seek a multimedia-oriented service via Hadoop. Mohohan is an on-line multimedia transcoding system for video resources, which implemented with Amazon Web Service (AWS) EC2, AWS S3, AWS EMR, Hadoop, and ffmpeg. Its goal is reducing the overall execution time by parallel transcoding via the Hadoop cluster. The concept of Mohohan is simple: 1) to divide the video into several chunk of frames, 2) to transcode the chunks in parallel with multiple nodes (i.e., task tracker) of Hadoop cluster, and 3) to merge the transcoded results into the output. On the homogeneous SaaS comparison, a test report from an impartial third party organization named CloudHarmony has been chosen. Finally, the experiment result shows that Mohohan performs quite better than other on-line video transcoding services mentioned in the test report, such as Encoding, Zencoder, Sorenson, and Panda.
Vincent Chen / TCloud / Business Development Director 精準行銷上的應用- Hadoop in 移動裝置上網行為分析精準行銷上的應用- Hadoop in 移動裝置上網行為分析:
此應用在於Hadoop平台上,利用MapReduce等相關技術,整合各種移動裝置用戶資料,利用語意分析、資料探勘等分詞、分類技術,定義出完整用戶profile,除了將分析結果轉化成行銷能力,並最終實現人與內容、人與商品、人與人的智能配對。
Administrator / 維運者
Jason Shih / Etu, SYSTEX Corp.Hadoop Security Overview - From Security Infrastructure Deployment to High-Level Services The increasing trend of adoption Hadoop open-source framework for speedy data processing and analytics capabilities for organizations to manage huge data volume have brought attention to enterprise wide security concern aiming for fine grain control of sensitive information and isolation from different level/group of access on sharing storage or computing facilities. Prior to Hadoop 0.20, Unix-like file permission were introduced, providing also cluster-wide simple authentication mechanism but lack of access control per job queue, submission and other operations. With Hadoop's new security feature and it's integration with Kerberos, it's now possible to bring strong authentication and authorization to ensure rigorous access control to data, resources and also isolation between running tasks. In this presentation, we will cover the deployment details of Hadoop security on cluster environment and implementation on high-level services base on kerberized security infrastructure. We introduce also the Etu Appliance providing fast-deployment, system-automation and built-in feature of cross-realm trust mechanism which fulfill the interoperation between existing Active Domain or external LDAP realm and help reducing both integration and operation-wide overhead from administrators.
Kenneth Ho Hadoop hardware and network best practices.



20032004年,Google將分散式檔案系統、高度平行運算軟體編程平台等秘訣公諸於世
2006
年,Doug Cutting 將上述秘訣寫成開源系統 Hadoop 專案
2008
年,Yahoo 宣佈建立了全球最大的商業營運 Hadoop 叢集
2009
年,台灣Hadoop使用者社群會議首度開辦
2011
年,阿帕契基金會正式釋出 Hadoop 1.0 版本,象徵 Hadoop 已經穩定到足以承載企業
     營運的需求

國網中心和趨勢科技共同主辦的「Hadoop in Taiwan 2012」,是Hadoop在台灣首次的大型會議,精心規劃的議程內容涵蓋前瞻技術和實作應用,從個人到企業、從資深人士到新進者,各種角色的技術專才都能從中學習並吸收新知,進而加速Hadoop在台灣的發展進程。

Hadoop in Taiwan 2012」的特色包括:

  • 國際級大師齊聚一堂,傾囊相授
    Hadoop 架構師暨 HBase 主要貢獻者 Andrew Purtell LucidWorks 首席科學家 Grant Ingersoll以及趨勢科技雲端解決方案總負責人陳永強博士,都將親臨現場,分享最新技術進展與前瞻思維。
  • 議題規劃涵蓋開發、維運與應用需求
    深入探討Hadoop子系統與相關專案技術,包括MahoutHBase、海量資料查詢、Name Node設計、在私有雲佈建及維運Hadoop以及如何滿足關鍵的可用性、效能優化及最佳化設計等需求,台灣在Hadoop的先進應用實例也將同時登場。
  • 前所未有的人才平台,推升台灣在新世代技術平台的全球競爭力
    愈來愈多企業投入Hadoop應用實作,人力供給趕不上需求成長,且台灣的技術能力仍與國外有所落差。透過這場台灣首見的Hadoop技術盛會,已投身其中的專業人才可更精進實力,有心加入的新進者也能通過這條捷徑邁入Hadoop大門。

雲端運算已是耳熟能詳的課題,但透過 IaaSPaaSSaaS 等各種形式共用資源,獲得更佳的成本效益,只是雲端首部曲。接下來,如何善用雲端持續創造及累積的海量資料,淬煉出更多的獨特智慧及優質效能,就有賴於Hadoop的推廣及普及,這場剛開跑的全新技術競賽,更是可能讓台灣能與世界並駕其驅的新出路。

台灣首見的Hadoop盛會即將登場,名額有限,請立刻報名!


 


hadoop.tw.2012.jpg

首先,感謝 2011 年 12 月各位 Hadoop 使用者的熱情參與,也感謝中華電信訓練所的場地支援,讓第三屆台灣 Hadoop 使用者社群會議能圓滿落幕。上個月拿到錄影檔案,後續會再另文公佈相關錄影連結。有鑑於 2012 年上半年海量資料(Big Data)相關議題持續發燒,今年度感謝趨勢科技(Trend Micro)的邀約,擬將「第四屆台灣 Hadoop 使用者會議」擴大舉辦為「Hadoop in Taiwan 2012」。在此特別感謝中研院自由軟體鑄造場協助申請場地並贊助部份費用。活動目前初步規劃如下:


議程規劃


時間國際會議聽第一會議室第二會議室
09:00~09:10Opening / 開幕式
主辦單位
09:10~09:30Special Guest / 特別來賓
趨勢科技董事長 Steve Chang (待邀請)
09:30~10:10Keynote:
Cutting Edge Hadoop Technology and the Trend
Andrew Purtell (Hadoop 架構師,HBase 主要貢獻者)
10:10~10:20Break / 中場休息
10:20~11:00Keynote:
Machine Learning in Cloud Era
Grant Ingersoll (Apache Mahout 機器學習專案創始人)
11:00~11:40Keynote:
趨勢科技的雲端發現之旅
- 以 Hadoop 建構企業核心競爭力的歷程分享
陳永強 (趨勢科技雲端解決方案總負責人)
11:40~12:00Talk with Expert / 與專家有約
Grant Ingersoll, Andrew Purtell, 陳永強
12:00~13:00Lunch / 午餐

Developer / 開發者Administrator / 維運者Application / 應用案例
13:00~13:40實用的海量資料查詢 HIVE & PIGHadoop 在多租戶環境 (Multi-tenancy) 的安全性確保Hadoop/HBase 於地理資訊系統之應用案例分享
13:40~14:20Mahout in Practice
- 整合海量資料處理與機器學習
Name Node 的高使用性設計 - 以 Facebook 的 Avatar Node 為例Ad hoc Query - 輕輕鬆鬆查詢海量資料
14:20~14:30Break / 中場休息
14:30~15:10設計高效能 HBase Schema
-從了解HBase運作方式與資料特徵
Hadoop 維運經驗分享
-規劃 Hadoop營運該注意的事項
Hadoop 影音轉檔平台
Hadoop process video format transfer
15:10~15:50運用 Graph Database 對複雜的圖形關係的搜索Hadoop 網路設計、效能優化與監控Hadoop在精準行銷上的應用
15:50~16:00Break / 中場休息
16:00~16:40 TBD TBD TBD
16:40~16:50Closing / 閉幕式
主辦單位

目前除了上午時段的 Keynote 講者很榮幸可以邀請到兩位國外講者以外,也感謝趨勢科技不吝與各界分享他們運用 Hadoop 的相關經驗。下午時段將分為「開發者」、「營運者」與「應用案例」三個平行議程,目前已先由主辦單位草擬幾個題目,但仍在積極徵求講者。因此在此想詢問社群對於不同的議題提出建議,也歡迎有興趣分享相關經驗的熱血社群朋友,來信 jazz-mail.png 或填寫 Google Docs 徵求講題的表格,供後續議程安排。

重要日期

  1. 公開徵求講者:2012/08/24(五) 16:00 截止
  2. 公告候選議程:2012/08/27(一) 16:00 公佈
  3. 社群議程票選:2012/08/31(五) 16:00 截止
  4. 公告議程初版:2012/09/07(五) 16:00 公佈

重要連結

  1. 講者投稿表格

[JOB] Hadoop 工作機會 @ 台南

|
> Job description:

  1. Study and implement cloud computing technologies.
  2. Collaborate with project teams to pilot and promote cloud computing
     technologies.
  3. Develop semiconductor manufacturing and engineering related
applications.

> Job requirement:

  1. MS degree or above in computer science or related disciplines.
  2. At lease 2-year experience in the Hadoop BigData/MapReduce and Java
programming.
  3. Ability to learn and apply new technologies quickly.
  4. Self motivated, good teamwork and problem solving skill.
  5. Fluent English communication skill is a plus (oral and written).
  6. Location is at Tainan

工作地點: 台南
履歷資料請寄 ylchange@tsmc.com

<< 第二屆台灣 Hadoop 使用者社群會議     |   >>


 

第三屆台灣 Hadoop 使用者社群會議 
Hadoop Taiwan User Group Meeting 2011


按這裡填寫報名資訊


   2010 年被譽為台灣雲端元年,2011 年我們看到雲端風潮開始在台灣各行各業持續發酵,其中大量資料分析技術(Big Data)更被 Gartner 視為 2012 關鍵 IT 策略技術之一。Hadoop 在大量資料分析技術中媒體曝光率最高的雲端技術,Hadoop 生態系專案經過六年的醞釀,近期 Hadoop 相關的新創公司如雨後春筍般快速冒出,相信對於已經在使用 Hadoop 的開發者們無疑是劑強心針。2010 年感謝國內 Hadoop 使用者社群的踴躍支持,克服交通不便的障礙,熱情地參與第二屆台灣 Hadoop 使用者社群會議,讓我們倍感榮幸。今年感謝有工研院服務業科技應用中心產業經濟與趨勢研究中心委託我們進行 Hadoop 與雲端運算相關專案。秉持取之於自由軟體,用之於自由軟體的精神,我們今年依慣例將委託金額部份挪出來辦此次活動,希望可以藉此次活動能讓各位聽到更多台灣本土 Hadoop 新奇應用、讓大家了解最近有哪些新的 Hadoop 技術或服務可以使用。

   由於資料庫應用在傳統資訊系統扮演非常重要的角色,加上 Hadoop MapReduce 已整合進微軟的 SQL Server ,連 Oracle 都有類似的整合計畫。因此今年無獨有偶,多數講者都在談論資料庫系統與 Hadoop 的整合。今年的講者群陣容相當堅強,分佈於產、學、研各界,包括:EMC Greenplum中華電信研究所東海大學高效能計算實驗室逢甲大學地理資訊系統研究中心國網中心雲端運算研究小組。希望透過此次會議,讓更多有興趣瞭解 Hadoop 的夥伴相互交流,進行凝聚出台灣區的 Hadoop 社群。

    本會議不收取任何報名費用,歡迎各界踴躍參加。礙於此次會議場地座位有限,請速上網報名(http://registrano.com/events/hadoop-tw-2011),額滿為止。

    本次會議感謝中華電信、EMC Greenplum、CIO IT 經理人雜誌、iThome 電腦報週刊贊助展示攤位與週刊雜誌,主辦單位國網中心方面亦提供 14 本「Hadoop 技術手冊, 2/e」繁體中文版給每場講者贈送問問題的聽眾。歡迎大家踴躍報名~


議程


09:00 ~ 09:20 報  到 (Registration)
09:20 ~ 09:30 大會開場致詞
09:30 ~ 10:10 講 題:Hadoop大資料處理解決方案 - 資料處理流程應用服務
講 者:洪子翔,中華電信研究所 經營策略研究室 助理研究員
10:20 ~ 11:00 講 題:Riak applied: case studies on distributed computing
講 者:Fyodor Yarochkin,台灣大學/阿碼科技(Armorize)
11:10 ~ 11:50 講 題:Greenplum 整合分析平台 - 以 Recruit Japan 經驗為例
Greenplum Unified Analytical Platform - Recruit Japan Case Study

講 者:Jimmy Chiu 邱垂吉,EMC Greenplum 技術顧問
12:00 ~ 13:00 午  餐 (Lunch) / 大會供應餐盒
13:00 ~ 13:40 講 題:HBASE 於海量級資料之應用 - 以 SELENE 之多光譜感測器為例
講 者:辜文元,逢甲大學地理資訊系統研究中心
13:50 ~ 14:30 講 題:大資料寫入 HBase 案例探討 ─ 以警政監控案與轉動台灣案為例
講 者:黃至德,中華電信研究所寬頻網路技術研究室
14:40 ~ 15:20 講 題:雲端計算平台上醫療影像檔案存取系統
講 者:楊朝棟,東海大學資訊工程學系
15:30 ~ 16:10 講 題:運用抓抓龍(Crawlzilla)製作個人化書籤搜尋引擎
講 者:王耀聰,國家高速網路與計算中心 副研究員
16:20 ~ 16:40 EMC Greenplum 實作展示

交通資訊


  • 開車路線(到達目的地後請跟警衛換證)  
  1. 華江大橋文化路一段左轉漢生東路左轉區運路左轉民族路電信訓練所   
  2. 華翠大橋、萬板大橋縣民大道二段左轉漢生東路左轉區運路左轉民族路電信訓練所  
  3. 光復大橋板橋中山路一段左轉漢生東路左轉區運路左轉民族路電信訓練所  
  4. 中永和可經華中橋、中正橋中和中山路一段三段板橋民族路區運路口迴轉電信訓練所  
  5. 北二高北上請於土城交流道 接台65號快速道路往板橋縣民大道右轉民權路左轉民族路電信訓練所
  6. 北二高南下請於中和交流道下閘道左轉中和中山路二段中和中山路三段板橋民族路區運路迴轉電信訓練所
  • 搭捷運火車、高鐵(三鐵共構)後轉搭公車至訓練所

       捷運板南線於板橋站下車,搭火車、高鐵於板橋站下車步行至捷運二號出口出站,於公車轉運站乘坐307台北方向(下一站即是電信訓練所站,到電信訓練所站下車步行至民族路168號到訓練所大門(約70公尺)

  • 搭捷運火車、高鐵(三鐵共構)後步行至訓練所

 搭捷運板南線於板橋站下車,搭火車、高鐵於板橋站下車步行往新北市府地下通道搭手扶梯上平面道路(5分鍾)過馬路到對面遠百後往新北市消防局方向走路過天皇精緻料理沿華南銀行花旗銀行騎樓直走到民族路.過馬路到中華電信板橋營運處 (民族路166) 步行至民族路168號到訓練所大門(約70公尺)


EMC2

活動日期 : 2011年11/29 & 11/30

...
隨著各種雲端服務興起,暴增的非結構性資料使得企業資料中心對於運算能力及儲存空間的需求也隨之驚人成長。

目前最具代表性的儲存處理及資料庫平台非Hadoop和MapReduce莫屬。它是開源碼平台,發展脈絡和Linux類似,由具整合研發能力的企業開發整合套件,強化運算資源及儲存空間的使用效率,並提供可靠的維運服務,讓服務開發人員能有更便利的開發環境,提升現實世界中多采多姿的應用效益。Hadoop 與MapReduce技術的入門課程中,除了對Hadoop詳細解說之外,更著重於實作開發及實作練習,帶您進入雲端資料處理技術的未來趨勢!

誠摯地歡迎您立即前來體驗!



活動議程
2011年11月29日
09:00-09:30 來賓報到
09:30-10:15 Big Data 的策略分析技術- Greenplum UAP & Hadoop Background
10:15-10:30 中場休息
10:30-12:00 Big Data 的存放技術A Single File System- Hadoop Distributed File System (HDFS™)
12:00-13:30 午餐時間
13:30-14:30 Big Data 的處理架構- MapReduce
14:30-14:45 中場休息
14:45-17:00 實作練習- 1. EMC Hadoop Community 安裝及設定
2. Eclipse MapReduce Development Demo:Wordcount
 
2011年11月30日
09:00-09:30 來賓報到
09:30-10:15 Hadoop 的資料庫 Hbase 介紹
10:15-10:30 中場休息
10:30-12:00 Hadoop 的分散式資料倉儲 Hive 介紹
12:00-13:30 午餐時間
13:30-14:30 Big Data 的資料流語言以及執行環境 Pig 介紹
14:30-17:00 實作練習- Hive Exercise / Pig Exercise


主講人:李崴 EMC Greenplum 技術顧問

參加對象:資料分析/技術人員 (具備Linux、Java程式語言能力與網路基礎概念者佳。)
注意事項:請自備筆電 (3-4GB RAM和 至少20GB的可用空間) & VMplayer,以便進行安裝實作。

報名資訊
諮詢專線:(02) 2767-2818 分機16 吳小姐 PML2@pml.com.tw

活動地點:EMC Solution Center -台北市信義路五段7號57樓AB室(台北101)

注意事項:此為免費課程,座位有限,額滿為止。

*請參加學員攜帶個人名片以便報到程序,謝謝!
參加好禮
 
現場問券回覆好禮 精美實用小禮物
 
        Facebook   Twitter   YouTube   Flickr        

 

第三屆台灣 Hadoop 使用者社群會議 
Hadoop Taiwan User Group Meeting 2011


按這裡填寫報名資訊



   2010 年被譽為台灣雲端元年,2011 年我們看到雲端風潮開始在台灣各行各業持續發酵,其中大量資料分析技術(Big Data)更被 Gartner 視為 2012 關鍵 IT 策略技術之一。Hadoop 在大量資料分析技術中媒體曝光率最高的雲端技術,Hadoop 生態系專案經過四年的醞釀,近期 Hadoop 相關的新創公司如雨後春筍般快速冒出,相信對於已經在使用 Hadoop 的開發者們無疑是劑強心針。2010 年感謝國內 Hadoop 使用者社群的踴躍支持,克服交通不便的障礙,熱情地參與第二屆台灣 Hadoop 使用者社群會議,讓我們倍感榮幸。今年感謝有工研院服務業科技應用中心產業經濟與趨勢研究中心委託我們進行 Hadoop 與雲端運算相關專案。秉持取之於自由軟體,用之於自由軟體的精神,我們今年依慣例將委託金額部份挪出來辦此次活動,希望可以藉此次活動能讓各位聽到更多台灣本土 Hadoop 新奇應用、讓大家了解最近有哪些新的 Hadoop 技術或服務可以使用。

   由於資料庫應用在傳統資訊系統扮演非常重要的角色,加上 Hadoop MapReduce 已整合進微軟的 SQL Server ,連 Oracle 都有類似的整合計畫。因此今年無獨有偶,多數講者都在談論資料庫系統與 Hadoop 的整合。今年的講者群陣容相當堅強,分佈於產、學、研各界,包括:EMC Greenplum中華電信研究所東海大學高效能計算實驗室逢甲大學地理資訊系統研究中心國網中心雲端運算研究小組。希望透過此次會議,讓更多有興趣瞭解 Hadoop 的夥伴相互交流,進行凝聚出台灣區的 Hadoop 社群。

    本會議不收取任何報名費用,歡迎各界踴躍參加。礙於此次會議場地座位有限,請速上網報名(http://registrano.com/events/hadoop-tw-2011),額滿為止。



議程


09:00 ~ 09:30 報  到 (Registration)
09:30 ~ 10:10 講 題:Hadoop大資料處理解決方案 - 資料處理流程應用服務
講 者:洪子翔,中華電信研究所 經營策略研究室 助理研究員
10:20 ~ 11:00

講 題:運用抓抓龍(Crawlzilla)製作個人化書籤搜尋引擎
講 者:王耀聰,國家高速網路與計算中心 副研究員

11:10 ~ 11:50 講 題:Greenplum 整合分析平台 - 以 Recruit Japan 經驗為例
Greenplum Unified Analytical Platform - Recruit Japan Case Study

講 者:Jimmy Chiu 邱垂吉,EMC Greenplum 技術顧問
12:00 ~ 13:00 午  餐 (Lunch) / 大會供應餐盒
13:00 ~ 13:40 講 題:HBASE 於海量級資料之應用 - 以 SELENE 之多光譜感測器為例
講 者:辜文元,逢甲大學地理資訊系統研究中心
13:50 ~ 14:30 講 題:大資料寫入 HBase 案例探討 ─ 以警政監控案與轉動台灣案為例
講 者:黃至德,中華電信研究所寬頻網路技術研究室
14:40 ~ 15:20 講 題:雲端計算平台上醫療影像檔案存取系統
講 者:楊朝棟,東海大學資訊工程學系
15:30 ~ 16:10

講 題:Riak applied: case studies on distributed computing
講 者:Fyodor Yarochkin,台灣大學/阿碼科技(Armorize)

16:20 ~ 16:40 EMC Greenplum 實作展示(暫定)

[Job] Hadoop 工作機會 @ 台南

|
  • Job description:
  1. Study and implement cloud computing technologies and provide proposal for critical system availability improvement for hig volume data processing improvement.
  2. Collaborate with project teams to pilot and promote cloud computing technologies.
  3. Develop equipment automation related applications
  4. Support operation system maintenance
  • Job requirement:
    1. MS degree or above in computer science or related disciplines.
    2. At lease 2-year experience in the Hadoop/mapreduce, virtualization, grid computing or cloud computing.
    3. Ability to learn and apply new technologies quickly.
    4. Self motivated, good teamwork and problem solving skill.
    5. Experienced in data center management related fields is a plus.
    6. Fluent English communication skill is a plus (oral and written).
    7. On call for system trouble shooting is required
    8. Location is at Tainan