Taiwan Hadoop Ecosystem Workshop 2014 Q1

|
  • 活動名稱:Taiwan Hadoop Ecosystem Workshop 2014 Q1
         台灣 Hadoop 生態系工作坊 2014 Q1
  • 活動時間:2014/03/08 (六) 10:30~16:10
  • 活動地點:關貿網路訓練教室 @ 南港軟體工業園區一期 E 棟七樓
         (台北市南港區三重路 19-13 號,地圖 Map
  • 報名網址:http://goo.gl/Yy1ZdD
  • 活動名額:開放 60 名座位,依實際報到為準。
  • 活動費用:本活動不收取費用,感謝關貿網路贊助場地。
  • 活動議程:
議程表
時段 講題 講者
10:00-10:30 報到時間
10:30-11:50 Impala資料倉儲應用案例分享 陳俊光/李民祥/黃勁超 , 關貿網路
11:50-12:00 休息(午餐自理)
13:30-14:10 SQL on HBase : Hare 鄭紹志 , 亦思科技
14:10-14:50 Network Traffic Search using Apache HBase 葉祐欣 , 趨勢科技 SPN
14:50-15:10 中場休息
15:10-15:30 [閃電講] 探討如何用 Mahout 分析網路流量 Raymond , systw.net 站長
15:30-15:50 [閃電講] Develop a game community mining system by big data technology A-Len, Gamania
15:50-16:10 [新商業模式] 他山之石 - 從日誌蒐集到線上分析
- Live Demo: Treasure Data Cloud
Jazz Wang, Etu

  • 時段:10:30 - 11:50
  • 講題:Impala資料倉儲應用案例分享
  • 講者:陳俊光 / 李民祥 / 黃勁超 , 關貿網路
  • 摘要:
     PART A: Why impala ? (20 min)
         1. SQL on Hadoop 的需求
         2. Impala 的介紹(發展歷程、架構、功能、特色)
    
     PART B: Impala在資料分析與資料倉儲(DW)的應用 (40 min)
         1. DW (Before and After)
         2. Impala 大數據資料倉儲 (應用架構, 用法:資料注入與轉換 等)
         3.購物籃分析實例為例與 Demo
    
     PART C: 分享與總結 (20min ~)
         1. 心得分享
         2. 相關議題 
         3. Q&A (Open Discussion)
    

  • 11:50-12:00 午餐:自理

  • 時段:13:30~14:10
  • 講題:SQL on HBase : Hare
  • 講者:鄭紹志 , 亦思科技

  • 時段:14:10~14:50
  • 講題:Network Traffic Search using Apache HBase
  • 講者:葉祐欣 , 趨勢科技 SPN

  • 14:50-15:10 中場休息

  • 時段:15:10-15:30
  • 講題:[閃電講] 探討如何用 Mahout 分析網路流量
  • 講者:Raymond , systw.net 站長
  • 摘要:
    在資料量無限,計算資源有限的情況下,平常看網路流量頂多就是看那個 IP 的用量大,那個 IP 去那邊等,但是當計算資源可無限擴大並有現成 Data Mining 工具可用時,是時候來開始研究一下,如何應用在網路流量分析並看到更多有用的資訊。
    

  • 時段:15:30-15:50
  • 講題:[閃電講] Develop a game community mining system by big data tech.
  • 講者:A-Len, Gamania
  • 摘要:
    遊戲產業是一個方向變動很快速的地方,以台灣而言,從 1990 年代左右,單機遊戲 -> Online Game -> Web Game -> APP ,才短短二十年時間,台灣人喜歡的遊戲產品就經歷了四次重大的目標轉換。是否我們有辦法利用 Big Data 的理念和技術,分析我們的顧客以至於去猜測下一階段會賺錢的產品呢? 分享給大家我這兩年來一些在公司實作的成果和想法。
    

  • 時段:15:50-16:10
  • 講題:[新商業模式] 他山之石 - 從日誌蒐集到線上分析
    - Live Demo: Treasure Data Cloud
  • 講者:Jazz Wang, Etu
  • 摘要:
    過去我曾在一些場合演講過巨量資料的五大階段「蒐、存、取、析、用」。Etu 蔣居裕副總也用「生、流、存、算、用、看」六個階段來說明巨量資料的動態特徵。根據這幾年推動社群得到一個結論,大家已經知道可以用 Hadoop Ecosystem 來「存」、「取」、「析」。可是「生」、「流」、「蒐」該怎麼做呢?分析完以後該怎麼視覺化,產生應用呢?甚至產生了視覺化該怎麼「看」(解讀)呢?這次閃電講想跟大家分享一個「他山之石」,Treasure Data 是 Flunetd 背後的開發公司,他們最近主打一個雲端服務,稱為 Treasure Data Cloud,且讓我跟大家解析一下這背後可能的組成元素。
    

Taiwan Hadoop Ecosystem Workshop 2013 Q4

|
  • 活動名稱:Taiwan Hadoop Ecosystem Workshop 2013 Q4
  •      台灣 Hadoop 生態系工作坊 2013 Q4
  • 活動時間:2013/12/14(六) 10:00~16:00
  • 活動地點:精誠內湖大樓(台北市內湖區瑞光路318號) 1F 演講廳
  • 活動名額:開放 80 名座位,最高上限 100 名。依實際報到為準。
  • 活動費用:本活動不收取費用,感謝精誠資訊贊助場地。
  • 報名網址:http://www.accupass.com/go/HadoopTW2013Q4
  • 活動議程:

09:30~10:00 報到
10:00~11:00 General Introduction to Hortonworks ( products & services ) Jeff Markham, Technical Director, Hortonworks in APAC
11:00~12:00 Storm / Trident on YARN in
HDP2
12:00~13:00 中場休息 (這次是社群自發性活動,恕暫不提供午餐)
13:00~14:00 [attack on graph] (進擊的graph) Scott Miao (Trend Micro SPN)
14:00~15:00 Building hadoop based big data environment 葉祐欣 (Trend Micro SPN)
15:00~15:30 Live Show with Etu Virtual Appliance (EVA) Jazz Wang
還沒有報名 Hadoop in Taiwan 2013 嘛?歡迎到 http://www.hadoopintaiwan.com 報名哦!
9/14 上午也有由騰雲科技主講的 Hadoop 免費入門課程,
歡迎 Hadoop 社群的新朋友踴躍報名。
http://www.trendmicro.com.tw/events/2013hadoop/htmlpage/hotnews.html

 



活動資訊


日期:

2013 / 09 / 28 ()


時間:

08:30-17:00 ( 08:30 開始報到)


地點:

中央研究院 人文社會科學館

 

4F國際會議廳

 

(台北市南港區研究院路二段128)


活動諮詢:02-2562-2880#3671 林先生


 


9/14() 10:00-12:00
趨勢科技台北辦公室9F 901會議室


本課程將著墨在大數據與Hadoop生態系統的演變與應用以及Hadoop 2.0的架構;除此之外,Hadoop生態系統也有不小的變化,將會在這次的入門課程一併告訴大家。


了解更多入門課程資訊


 

主辦單位:

協辦單位:

贊助廠商白金級:

 

立即報名


早鳥報名者可先享有與國際Big Data大師面對面交流的機會,機會難得、錯過不再!!


 


 

活動資訊


日期:

2013 / 09 / 28 ()


時間:

08:30-17:00 ( 08:30 開始報到)


地點:

中央研究院 人文社會科學館

 

4F國際會議廳

 

(台北市南港區研究院路二段128)


活動諮詢:02-2562-2880#3671 林先生


立即報名

 

主辦單位:

協辦單位:

贊助廠商白金級:

 

主辦單位得保留活動議程、講師等相關變更之權利。

上午 Keynote 邀請現況:

時間講者單位講題主題領域
09:10~09:50Jason DaiIntel"The Spark Stack: Lightning-Fast Analytics over Hadoop Data"Realtime
09:50~10:30Andrew PurtellIntel Architectural patterns for building real time applications with Apache HBaseRealtime
10:45~11:25Trend Micro US Engineering CenterBig Data SecuritySecurity
11:25~12:05Liu XiaohuiRevolution Analytics; Senior Developer基於 R 加 Hadoop 的高性能預測分析易存取 Accessibility

下午平行場次議程投稿現況:

Developer / 開發者
講者單位講題主題領域
王耀聰(Jazz Wang) NCHC, Associate Researcher How to Debug and Tracing Hadoop Source Code
(註:若還有其他更棒的講題,Jazz 會讓出這個時段 *^__^*)
易存取 Accessibility
Chris Huang 趨勢科技, SPN Hadoop Architect Approaching real-time: things you can do before going Impala / 即時運算: 採用 Impala 之前你能做的事 即時 Real Time
謝良奇(Liang-Chi Hsieh) 台大資工 Real-time Big Data Processing with Storm: Using Twitter Streaming as Example 即時 Real Time
范姜冠宇亦思科技 技術長High Speed HBase Query: Hare易存取 Accessibility
Karthikeyan RajasekharanGoogle, Enterprise Cloud Platform
Sales Engineer, ASIA
Analytics in the Cloud : Building data pipelines at Google Scale即時 Real Time
Administrator / 維運者
macJack
Savanna - Hadoop跟OpenStack的第ㄧ次接觸 易存取 Accessibility
劉一正 Tony Liu 趨勢科技 HBase Operation 其他 Other
Jason Shih Etu  Real-time Big Data Analytics Engine using Impala 即時 Real Time
徐啟超TCloud ComputingHadoop Security: Now and future安全 Security
王麒瑋EtuHadoop架構下的效能分析與調校經驗分享其他 Other
Application / 應用案例
陳昭宇 Etu  Apache Mahout 於電子商務的應用 易存取 Accessibility
毛敬豪 資策會 跨時域巨量資安事件分析 安全 Security
林峰正 逢甲地理資訊中心 無人空中載具(UAV)影像於雲端儲存與處理之實作及後續應用 易存取 Accessibility
涂凱晏(Kevin Twu) 趨勢科技 Ad hoc query for non-programmers 易存取 Accessibility
Developer / 開發者
講者單位講題議程分類
王耀聰(Jazz Wang) NCHC, Associate Researcher How to Debug and Tracing Hadoop Source Code
(註:若還有其他更棒的講題,Jazz 會讓出這個時段 *^__^*)
Developer / 開發者
Chris Huang 趨勢科技, SPN Hadoop Architect Approaching real-time: things you can do before going Impala / 即時運算: 採用 Impala 之前你能做的事 Developer / 開發者
謝良奇(Liang-Chi Hsieh) 台大資工 Real-time Big Data Processing with Storm: Using Twitter Streaming as Example Developer / 開發者
Administrator / 維運者
macJack
Savanna - Hadoop跟OpenStack的第ㄧ次接觸 Administrator / 維運者
劉一正 Tony Liu 趨勢科技 HBase Operation Administrator / 維運者
Jason Shih Etu  Real-time Big Data Analytics Engine using Impala Administrator / 維運者
Application / 應用案例
陳昭宇 Etu  Apache Mahout 於電子商務的應用 Application / 應用案例
毛敬豪 資策會 跨時域巨量資安事件分析 Application / 應用案例
林峰正 逢甲地理資訊中心 無人空中載具(UAV)影像於雲端儲存與處理之實作及後續應用 Application / 應用案例
涂凱晏(Kevin Twu) 趨勢科技 Ad hoc query for non-programmers Application / 應用案例

Hadoop in Taiwan 2013 徵求講者

|
首先,感謝 2012 年 10 月各位 Hadoop 使用者熱情參與「Hadoop in Taiwan 2012」的年度盛會,有鑑於巨量資料(Big Data)相關議題持續發燒,2013年國網中心將與趨勢科技一起主辦「Hadoop in Taiwan 2013」會議與展覽。在此特別感謝中研院自由軟體鑄造場協助申請場地,目前活動的初步規劃如下: 


重要連結

  1. 講者投稿表格:http://goo.gl/EktcB

重要日期


  1. 公開徵求講者:2013/06/28(五) 15:00 截止
  2. 公告議程初版:2013/07/05(五) 16:00 公佈

主題說明


  • 「即時」主題是因為去年到 Hadoop World 2012 NYC,感受很深都在談即時性的應用與技術。而 Hadoop 原本只合適批次作業,對於許多需要即時性的需求,像是金融、災防、 交通等雲端需求,可能都需要架構上的改變。
  •  「安全」主題主要是在讓更多人知道「Hadoop 本身的資訊安全問題」以及「如何拿 Hadoop 來解決資訊安全問題」,相信這一塊台灣有不少廠商可以分享。
  • 「便利」主題是想要談「如何降低進入 Hadoop 生態系的門檻」,可能的範疇包括 Hadoop Appliance、Hadoop 叢集管理工具、Pig、Hive、RHadoop 等高階語言。歡迎更多人介紹能讓 hadoop 初學者與進階使用者都能覺得日子過得比較舒服的工具。也希望透過這樣的主題,串接起 Big Data 上游(Open Data)與下游(NoSQL、Web 2.0、Data Science)的供應鏈。

議程規劃

時間 國際會議聽 第一會議室 第二會議室 遠距會議室
09:00~09:10 Opening / 開幕式
主辦單位
廠商
焦點對談
時段


每時段
30分鐘
每家廠商
可有
2個時段
09:10~09:20 Special Guest / 特別來賓
(待邀請)
09:20~10:10 Keynote: (即時 / Realtime)
Architectural patterns for
building real time applications
with Hadoop and HBase
Andrew Purtell ( Intel )
10:10~10:30 休息/攤位參觀
10:30~11:20 Keynote: (安全 / Security)

(待邀請)
11:20~12:10 Keynote: (便利 / Accessibility)
RHadoop & CloudR
Xiao Hui Liu ( Revolution Analysis )
12:10~13:30 Lunch / 午餐 / 攤位參觀

Developer
/ 開發者
Administrator
/ 維運者
Application
/ 應用案例
13:30~14:00
(贊助廠商
優先時段)



14:00~14:50



14:50~15:10 Break / 中場休息
15:10~15:40
(贊助廠商
優先時段)



15:40~16:30



16:30~17:00 Closing / 閉幕式
主辦單位




2013年3月27日(三) 受邀至 Big Data Taiwan 2013 分享「台灣 Hadoop 社群發展現況與未來展望」,這次我主要想談的是 Hadoop 社群未來如何跟其他 Big Data 社群進行串聯,形成產業供應鏈。

投影片中使用了一些非常簡單的社交網路分析(Social Network Analysis),只單純從「量」(社群成員數)來看社群發展,未來有時間應該要來做「質」的分析(活躍的社群成員及其關係)。


Taiwan Hadoop Ecosystem Workshop 2013

Q1

  • 活動名稱:Taiwan Hadoop Ecosystem Workshop 2013 Q1
  • 活動時間:2013/3/10(日) 10:00~16:00
  • 活動地點:精誠內湖大樓(台北市內湖區瑞光路318號) 1F 演講廳
  • 活動名額:開放 80 名座位,最高上限 100 名。依實際報到為準。
  • 活動費用:本活動不收取費用,感謝精誠資訊贊助場地。
  • 報名網址: https://www.facebook.com/events/456789427727154/
  • 活動議程:
    09:30~10:00 報到
    10:00~11:00 運用 Lucene 對於 Spamming Botnet 進行快速索引與分群 (資策會 毛敬豪 博士)
    11:00~12:00 HBase 簡介 : 資料格式與運作架構 (亦思 范姜冠宇 技術長)
    12:00~13:00 中場休息 (這次是社群自發性活動,恕暫不提供午餐)
    13:00~14:00 Solr Tutorial (趨勢, Javen Tsai)
    14:00~15:00 Riak Tutorial (NoSQL Taiwan , Von Stark)
    15:00~16:00 不可能更容易的 Hadoop 平台 -- Etu Appliance 技術內涵與 Demo (Etu 陳昭宇 首席顧問)
    

  • Taiwan Hadoop Ecosystem Workshop 2013 Q1
  • 10:00~16:00 March 10, 2013
  • SYSTEX Building, Neihu, Taipei, Taiwan
  • Agenda :
    10:00~11:00 Indexing and clustering Spamming Botnet using Lucene (By III)
    11:00~12:00 HBase Tutorial (By is-land CTO Hurbert )
    13:00~14:00 Solr Tutorial (By Trend Micro, Javen Tsai)
    14:00~15:00 Riak Tutorial (NoSQL Taiwan , Von Stark)
    15:00~16:00 Hadoop Appliance (By SYSTEX Etu)
    

Hadoop 叢集佈建初探 - hiCloud 為例

國家高速網路與計算中心 王耀聰 副研究員


本文首次發表於 2012年07月06日出版之 iTcloud專刊no.2 (NO.44)
原稿與圖檔 PDF 版本,請至此網址下載。


(續上篇)

Hadoop叢集版初探 -hiCloud Ubuntu Linux

上個小節我們介紹了如何在Windows上建立一個Hadoop的實驗環境,然而Windows版本存在著許多小問題,像是Cygwin的路徑與Java Runtime認知的Windows路徑不同,因此許多時候,您在下指令的時候,還必須要透過cygpath指令將Cygwin路徑轉換成Windows路徑,相當不便。其次,假設您想要把多台hadoop4win串起來,有許多先決條件,像是必須要有不同的電腦名稱、要有相同的使用者名稱跟檔案存取權限。因此,一般我們在提供商業運轉的Hadoop環境時,仍舊會採用Linux版本。


  雲端運算的五大基礎特徵中,第一點是「隨需自助服務」,其背後隱藏著「標準化」與「自動化」的精神。本文為了讓每位讀者能有標準化的實作環境,免除不同Linux版本造成的操作問題,此次採用的是中華電信hiCloudUbuntu 10.04虛擬機器當作示範架設Hadoop叢集版的環境。底下將示範如何在十台Ubuntu 10.04的虛擬機器上,建置一個Hadoop叢集。由於Hadoop安裝的指令繁瑣,筆者這裡提供一個自動化的安裝腳本程式,各位可至http://github.com/jazzwang/hicloud-hadoophttp://hidoop.sf.net下載原始碼。以下我們用圖解的方式,說明如何使用hicloud開啟十台虛擬機器,並設定成Hadoop叢集




STEP 1:請連線至hicloud.hinet.net

並點選右上角「客戶登入」



STEP 2:若您不是中華電信用戶,

請先加入會員,然後用取得帳號登入


STEP 3:點選上方「雲運算」

STEP 4:點選左方「虛擬主機」

STEP 5:點選左上角「申請」

STEP 6:確認同意中華電信hicloud租約

選擇「Linux微運算型XS」,按「下一步」


STEP 7:選擇「Ubuntu 10.0,32bit

STEP 8:用hdp命名,產生10台虛擬機器

STEP 9:等待申裝狀態變為「已申裝」

STEP 10:請確認供裝狀態變為「已申裝」

點左上角「全選」,並選「開機」

STEP 11:點選右上角「預設密碼」,將password.zip儲存到桌面

STEP 12:用預設密碼解壓縮password.zip並匯入CSV格式的密碼檔案

STEP 13:我們從密碼表中挑選第一台

PieTTY連線到該台虛擬機器


STEP 14:預設請使用root帳號登入,

密碼請根據您的密碼表輸入六碼預設密碼


  做到這邊,我們已經把十台虛擬機器開機。請從hiCloud介面上確認每一台虛擬機器都已經進入「已開機」的狀態,接著使用您慣用的SSH連線軟體,這裡我們使用的是PieTTY,可以自http://ntu.csie.org/~piaip/pietty/ 下載。由於hicloud-hadoop自動安裝腳本是針對Linux環境撰寫的,因此我們直接挑選其中一台來進行安裝。您也可以在自己的Linux環境上執行以下的步驟。在執行hicloud-hadoop自動安裝腳本前,有一些前置作業:(1)產生SSH連線用的金鑰;(2)安裝PerlExpect.pm函式庫,因為我們會使用Expect來幫忙您自動填入預設密碼,登入另外九台虛擬機器,並進行Hadoop安裝作業。現在請您在登入第一台虛擬機器的PieTTY視窗內中輸入以下兩個指令:


~# ssh-keygen -t rsa -P ""

~# apt-get install libexpect-perl


  接下來,讓我們下載hicloud-hadoop自動安裝腳本,並且解壓縮安裝檔。然後在hicloud-hadoop目錄底下建一個conf子目錄。


~# wget http://nchc.dl.sourceforge.net/project/hidoop/0.0.1/hicloud-hadoop-0.0.1.tar.gz

~# tar zxvf hicloud-hadoop-0.0.1.tar.gz

~# mkdir -p hicloud-hadoop/conf


  接著,使用記事本先編輯兩個檔案,一個叫master,一個叫slave。可用PieTTYWinSCP上傳這兩個檔案到hicloud-hadoop/conf 底下,或參考底下的作法在conf底下建立兩個設定檔。


~# cat > hicloud-hadoop/conf/master << EOF

203.66.14.171 root 800773

EOF

~# cat > hicloud-hadoop/conf/slave << EOF

203.66.14.40 root 154737

.................

210.65.10.139 root 367578

EOF


  以上的IP、帳號、密碼三個欄位,您可以直接從CSV貼到記事本,加入中間的空白,在貼到命令列。最後切換到hicloud-hadoop目錄,然後執行 install-ubuntu 自動安裝腳本。


~# cd hicloud-hadoop

hicloud-hadoop# ./install-ubuntu


從密碼表中挑選第一台的IP、帳號、密碼

貼到記事本,補上空格,然後轉貼到master

從密碼表中挑選剩下的IP、帳號、密碼

貼到記事本,補上空格,然後轉貼到slave


  等自動安裝腳本執行完畢後,您會看到類似底下的訊息。此時,點選兩個網址,就會看到HadoopHDFS NameNodeMapReduce JobTracker網頁。



安裝完畢的最後一行會顯示5007050030的兩個網址


50070HDFS頁面


50030MapReduce頁面


雲端精算師:好的設計可以省下更多錢

  做到這邊,各位讀者應該可以繼續在hiCloud的十台虛擬機器上練習在Hadoop4Win的指令。不過這裡要提醒的一件很重要的事情:「不同於Amazon EC2有開機才計價,hiCloud是從申裝開始計費,退租才停止計費,就像您租用手機門號一樣,不管有沒有開機都會計費」。因此建議您如果口袋不夠深的話,練習完麻煩一台一台把虛擬機器退租吧!一節課程大約花個兩三個小時,14塊台幣/小時,跟買杯超商咖啡差不多,這就是雲端帶給各位的新學習環境。


  


練習完畢後,請務必退租,

免得收到帳單會很痛!


花了28塊(10*2小時*1.4元)

Hadoop叢集佈署



  倘若您手邊有兩台以上的實體機器,或者多核心效能強大的伺服器,不妨安裝VirtualBox虛擬化軟體,在一台電腦上建立兩至三台Ubuntu 10.04Linux環境,各位聰明的讀者可以透過上述的步驟來安裝您專屬的Hadoop叢集,就算是一個小型的私有雲了。


  在本文最後,筆者想提出幾個關於「雲端精算師」的軟體設計精神,與各位讀者分享。目前hicloud-hadoop 0.0.1版本是循序安裝,因此機器愈多,安裝時間愈長。未來將加入多執行緒的程式碼,讓安裝流程能同時進行。對hiCloud這種按時計費的公有雲而言,如何節省安裝時間變得很重要。未來hiCloud若能讓使用者建立自己專屬的虛擬機器範本,相信能有效降低各位讀者荷包的負擔。


  其次,中華電信的計價模式還包含網路流量,因此如何減少網路傳輸也是採用公有雲服務應該要思考的第二個重點。目前的腳本每一台虛擬機器都會重複下載JavaHadoop安裝檔。若能把Hadoop安裝檔先存在同一個公有雲提供的「儲存服務」,讓資料來自於「內部網路」而非「網際網路」,不納入流量計費,那也是對用戶有利的計價模式。


  最後,若能夠把要處理的事情變成自動化,計算完就關閉虛擬機器,以上這些考量就是在雲端時代程式設計師應該具備的「雲端精算師」精神,擁有節省成本的思考模式將是您未來在職場上的新競爭力!


Find recent content on the main index or look in the archives to find all content.

Pages

Sponsored By

Host by NCHC
Yahoo! Search