Recently in Hadoop Category

Taiwan Hadoop Ecosystem Workshop 2013 Q4

|
  • 活動名稱:Taiwan Hadoop Ecosystem Workshop 2013 Q4
  •      台灣 Hadoop 生態系工作坊 2013 Q4
  • 活動時間:2013/12/14(六) 10:00~16:00
  • 活動地點:精誠內湖大樓(台北市內湖區瑞光路318號) 1F 演講廳
  • 活動名額:開放 80 名座位,最高上限 100 名。依實際報到為準。
  • 活動費用:本活動不收取費用,感謝精誠資訊贊助場地。
  • 報名網址:http://www.accupass.com/go/HadoopTW2013Q4
  • 活動議程:

09:30~10:00 報到
10:00~11:00 General Introduction to Hortonworks ( products & services ) Jeff Markham, Technical Director, Hortonworks in APAC
11:00~12:00 Storm / Trident on YARN in
HDP2
12:00~13:00 中場休息 (這次是社群自發性活動,恕暫不提供午餐)
13:00~14:00 [attack on graph] (進擊的graph) Scott Miao (Trend Micro SPN)
14:00~15:00 Building hadoop based big data environment 葉祐欣 (Trend Micro SPN)
15:00~15:30 Live Show with Etu Virtual Appliance (EVA) Jazz Wang
還沒有報名 Hadoop in Taiwan 2013 嘛?歡迎到 http://www.hadoopintaiwan.com 報名哦!
9/14 上午也有由騰雲科技主講的 Hadoop 免費入門課程,
歡迎 Hadoop 社群的新朋友踴躍報名。
http://www.trendmicro.com.tw/events/2013hadoop/htmlpage/hotnews.html

 



活動資訊


日期:

2013 / 09 / 28 ()


時間:

08:30-17:00 ( 08:30 開始報到)


地點:

中央研究院 人文社會科學館

 

4F國際會議廳

 

(台北市南港區研究院路二段128)


活動諮詢:02-2562-2880#3671 林先生


 


9/14() 10:00-12:00
趨勢科技台北辦公室9F 901會議室


本課程將著墨在大數據與Hadoop生態系統的演變與應用以及Hadoop 2.0的架構;除此之外,Hadoop生態系統也有不小的變化,將會在這次的入門課程一併告訴大家。


了解更多入門課程資訊


 

主辦單位:

協辦單位:

贊助廠商白金級:

 

立即報名


早鳥報名者可先享有與國際Big Data大師面對面交流的機會,機會難得、錯過不再!!


 


 

活動資訊


日期:

2013 / 09 / 28 ()


時間:

08:30-17:00 ( 08:30 開始報到)


地點:

中央研究院 人文社會科學館

 

4F國際會議廳

 

(台北市南港區研究院路二段128)


活動諮詢:02-2562-2880#3671 林先生


立即報名

 

主辦單位:

協辦單位:

贊助廠商白金級:

 

主辦單位得保留活動議程、講師等相關變更之權利。

上午 Keynote 邀請現況:

時間講者單位講題主題領域
09:10~09:50Jason DaiIntel"The Spark Stack: Lightning-Fast Analytics over Hadoop Data"Realtime
09:50~10:30Andrew PurtellIntel Architectural patterns for building real time applications with Apache HBaseRealtime
10:45~11:25Trend Micro US Engineering CenterBig Data SecuritySecurity
11:25~12:05Liu XiaohuiRevolution Analytics; Senior Developer基於 R 加 Hadoop 的高性能預測分析易存取 Accessibility

下午平行場次議程投稿現況:

Developer / 開發者
講者單位講題主題領域
王耀聰(Jazz Wang) NCHC, Associate Researcher How to Debug and Tracing Hadoop Source Code
(註:若還有其他更棒的講題,Jazz 會讓出這個時段 *^__^*)
易存取 Accessibility
Chris Huang 趨勢科技, SPN Hadoop Architect Approaching real-time: things you can do before going Impala / 即時運算: 採用 Impala 之前你能做的事 即時 Real Time
謝良奇(Liang-Chi Hsieh) 台大資工 Real-time Big Data Processing with Storm: Using Twitter Streaming as Example 即時 Real Time
范姜冠宇亦思科技 技術長High Speed HBase Query: Hare易存取 Accessibility
Karthikeyan RajasekharanGoogle, Enterprise Cloud Platform
Sales Engineer, ASIA
Analytics in the Cloud : Building data pipelines at Google Scale即時 Real Time
Administrator / 維運者
macJack
Savanna - Hadoop跟OpenStack的第ㄧ次接觸 易存取 Accessibility
劉一正 Tony Liu 趨勢科技 HBase Operation 其他 Other
Jason Shih Etu  Real-time Big Data Analytics Engine using Impala 即時 Real Time
徐啟超TCloud ComputingHadoop Security: Now and future安全 Security
王麒瑋EtuHadoop架構下的效能分析與調校經驗分享其他 Other
Application / 應用案例
陳昭宇 Etu  Apache Mahout 於電子商務的應用 易存取 Accessibility
毛敬豪 資策會 跨時域巨量資安事件分析 安全 Security
林峰正 逢甲地理資訊中心 無人空中載具(UAV)影像於雲端儲存與處理之實作及後續應用 易存取 Accessibility
涂凱晏(Kevin Twu) 趨勢科技 Ad hoc query for non-programmers 易存取 Accessibility
Developer / 開發者
講者單位講題議程分類
王耀聰(Jazz Wang) NCHC, Associate Researcher How to Debug and Tracing Hadoop Source Code
(註:若還有其他更棒的講題,Jazz 會讓出這個時段 *^__^*)
Developer / 開發者
Chris Huang 趨勢科技, SPN Hadoop Architect Approaching real-time: things you can do before going Impala / 即時運算: 採用 Impala 之前你能做的事 Developer / 開發者
謝良奇(Liang-Chi Hsieh) 台大資工 Real-time Big Data Processing with Storm: Using Twitter Streaming as Example Developer / 開發者
Administrator / 維運者
macJack
Savanna - Hadoop跟OpenStack的第ㄧ次接觸 Administrator / 維運者
劉一正 Tony Liu 趨勢科技 HBase Operation Administrator / 維運者
Jason Shih Etu  Real-time Big Data Analytics Engine using Impala Administrator / 維運者
Application / 應用案例
陳昭宇 Etu  Apache Mahout 於電子商務的應用 Application / 應用案例
毛敬豪 資策會 跨時域巨量資安事件分析 Application / 應用案例
林峰正 逢甲地理資訊中心 無人空中載具(UAV)影像於雲端儲存與處理之實作及後續應用 Application / 應用案例
涂凱晏(Kevin Twu) 趨勢科技 Ad hoc query for non-programmers Application / 應用案例

Hadoop in Taiwan 2013 徵求講者

|
首先,感謝 2012 年 10 月各位 Hadoop 使用者熱情參與「Hadoop in Taiwan 2012」的年度盛會,有鑑於巨量資料(Big Data)相關議題持續發燒,2013年國網中心將與趨勢科技一起主辦「Hadoop in Taiwan 2013」會議與展覽。在此特別感謝中研院自由軟體鑄造場協助申請場地,目前活動的初步規劃如下: 


重要連結

  1. 講者投稿表格:http://goo.gl/EktcB

重要日期


  1. 公開徵求講者:2013/06/28(五) 15:00 截止
  2. 公告議程初版:2013/07/05(五) 16:00 公佈

主題說明


  • 「即時」主題是因為去年到 Hadoop World 2012 NYC,感受很深都在談即時性的應用與技術。而 Hadoop 原本只合適批次作業,對於許多需要即時性的需求,像是金融、災防、 交通等雲端需求,可能都需要架構上的改變。
  •  「安全」主題主要是在讓更多人知道「Hadoop 本身的資訊安全問題」以及「如何拿 Hadoop 來解決資訊安全問題」,相信這一塊台灣有不少廠商可以分享。
  • 「便利」主題是想要談「如何降低進入 Hadoop 生態系的門檻」,可能的範疇包括 Hadoop Appliance、Hadoop 叢集管理工具、Pig、Hive、RHadoop 等高階語言。歡迎更多人介紹能讓 hadoop 初學者與進階使用者都能覺得日子過得比較舒服的工具。也希望透過這樣的主題,串接起 Big Data 上游(Open Data)與下游(NoSQL、Web 2.0、Data Science)的供應鏈。

議程規劃

時間 國際會議聽 第一會議室 第二會議室 遠距會議室
09:00~09:10 Opening / 開幕式
主辦單位
廠商
焦點對談
時段


每時段
30分鐘
每家廠商
可有
2個時段
09:10~09:20 Special Guest / 特別來賓
(待邀請)
09:20~10:10 Keynote: (即時 / Realtime)
Architectural patterns for
building real time applications
with Hadoop and HBase
Andrew Purtell ( Intel )
10:10~10:30 休息/攤位參觀
10:30~11:20 Keynote: (安全 / Security)

(待邀請)
11:20~12:10 Keynote: (便利 / Accessibility)
RHadoop & CloudR
Xiao Hui Liu ( Revolution Analysis )
12:10~13:30 Lunch / 午餐 / 攤位參觀

Developer
/ 開發者
Administrator
/ 維運者
Application
/ 應用案例
13:30~14:00
(贊助廠商
優先時段)



14:00~14:50



14:50~15:10 Break / 中場休息
15:10~15:40
(贊助廠商
優先時段)



15:40~16:30



16:30~17:00 Closing / 閉幕式
主辦單位




Hadoop 叢集佈建初探 - hiCloud 為例

國家高速網路與計算中心 王耀聰 副研究員


本文首次發表於 2012年07月06日出版之 iTcloud專刊no.2 (NO.44)
原稿與圖檔 PDF 版本,請至此網址下載。


(續上篇)

Hadoop叢集版初探 -hiCloud Ubuntu Linux

上個小節我們介紹了如何在Windows上建立一個Hadoop的實驗環境,然而Windows版本存在著許多小問題,像是Cygwin的路徑與Java Runtime認知的Windows路徑不同,因此許多時候,您在下指令的時候,還必須要透過cygpath指令將Cygwin路徑轉換成Windows路徑,相當不便。其次,假設您想要把多台hadoop4win串起來,有許多先決條件,像是必須要有不同的電腦名稱、要有相同的使用者名稱跟檔案存取權限。因此,一般我們在提供商業運轉的Hadoop環境時,仍舊會採用Linux版本。


  雲端運算的五大基礎特徵中,第一點是「隨需自助服務」,其背後隱藏著「標準化」與「自動化」的精神。本文為了讓每位讀者能有標準化的實作環境,免除不同Linux版本造成的操作問題,此次採用的是中華電信hiCloudUbuntu 10.04虛擬機器當作示範架設Hadoop叢集版的環境。底下將示範如何在十台Ubuntu 10.04的虛擬機器上,建置一個Hadoop叢集。由於Hadoop安裝的指令繁瑣,筆者這裡提供一個自動化的安裝腳本程式,各位可至http://github.com/jazzwang/hicloud-hadoophttp://hidoop.sf.net下載原始碼。以下我們用圖解的方式,說明如何使用hicloud開啟十台虛擬機器,並設定成Hadoop叢集




STEP 1:請連線至hicloud.hinet.net

並點選右上角「客戶登入」



STEP 2:若您不是中華電信用戶,

請先加入會員,然後用取得帳號登入


STEP 3:點選上方「雲運算」

STEP 4:點選左方「虛擬主機」

STEP 5:點選左上角「申請」

STEP 6:確認同意中華電信hicloud租約

選擇「Linux微運算型XS」,按「下一步」


STEP 7:選擇「Ubuntu 10.0,32bit

STEP 8:用hdp命名,產生10台虛擬機器

STEP 9:等待申裝狀態變為「已申裝」

STEP 10:請確認供裝狀態變為「已申裝」

點左上角「全選」,並選「開機」

STEP 11:點選右上角「預設密碼」,將password.zip儲存到桌面

STEP 12:用預設密碼解壓縮password.zip並匯入CSV格式的密碼檔案

STEP 13:我們從密碼表中挑選第一台

PieTTY連線到該台虛擬機器


STEP 14:預設請使用root帳號登入,

密碼請根據您的密碼表輸入六碼預設密碼


  做到這邊,我們已經把十台虛擬機器開機。請從hiCloud介面上確認每一台虛擬機器都已經進入「已開機」的狀態,接著使用您慣用的SSH連線軟體,這裡我們使用的是PieTTY,可以自http://ntu.csie.org/~piaip/pietty/ 下載。由於hicloud-hadoop自動安裝腳本是針對Linux環境撰寫的,因此我們直接挑選其中一台來進行安裝。您也可以在自己的Linux環境上執行以下的步驟。在執行hicloud-hadoop自動安裝腳本前,有一些前置作業:(1)產生SSH連線用的金鑰;(2)安裝PerlExpect.pm函式庫,因為我們會使用Expect來幫忙您自動填入預設密碼,登入另外九台虛擬機器,並進行Hadoop安裝作業。現在請您在登入第一台虛擬機器的PieTTY視窗內中輸入以下兩個指令:


~# ssh-keygen -t rsa -P ""

~# apt-get install libexpect-perl


  接下來,讓我們下載hicloud-hadoop自動安裝腳本,並且解壓縮安裝檔。然後在hicloud-hadoop目錄底下建一個conf子目錄。


~# wget http://nchc.dl.sourceforge.net/project/hidoop/0.0.1/hicloud-hadoop-0.0.1.tar.gz

~# tar zxvf hicloud-hadoop-0.0.1.tar.gz

~# mkdir -p hicloud-hadoop/conf


  接著,使用記事本先編輯兩個檔案,一個叫master,一個叫slave。可用PieTTYWinSCP上傳這兩個檔案到hicloud-hadoop/conf 底下,或參考底下的作法在conf底下建立兩個設定檔。


~# cat > hicloud-hadoop/conf/master << EOF

203.66.14.171 root 800773

EOF

~# cat > hicloud-hadoop/conf/slave << EOF

203.66.14.40 root 154737

.................

210.65.10.139 root 367578

EOF


  以上的IP、帳號、密碼三個欄位,您可以直接從CSV貼到記事本,加入中間的空白,在貼到命令列。最後切換到hicloud-hadoop目錄,然後執行 install-ubuntu 自動安裝腳本。


~# cd hicloud-hadoop

hicloud-hadoop# ./install-ubuntu


從密碼表中挑選第一台的IP、帳號、密碼

貼到記事本,補上空格,然後轉貼到master

從密碼表中挑選剩下的IP、帳號、密碼

貼到記事本,補上空格,然後轉貼到slave


  等自動安裝腳本執行完畢後,您會看到類似底下的訊息。此時,點選兩個網址,就會看到HadoopHDFS NameNodeMapReduce JobTracker網頁。



安裝完畢的最後一行會顯示5007050030的兩個網址


50070HDFS頁面


50030MapReduce頁面


雲端精算師:好的設計可以省下更多錢

  做到這邊,各位讀者應該可以繼續在hiCloud的十台虛擬機器上練習在Hadoop4Win的指令。不過這裡要提醒的一件很重要的事情:「不同於Amazon EC2有開機才計價,hiCloud是從申裝開始計費,退租才停止計費,就像您租用手機門號一樣,不管有沒有開機都會計費」。因此建議您如果口袋不夠深的話,練習完麻煩一台一台把虛擬機器退租吧!一節課程大約花個兩三個小時,14塊台幣/小時,跟買杯超商咖啡差不多,這就是雲端帶給各位的新學習環境。


  


練習完畢後,請務必退租,

免得收到帳單會很痛!


花了28塊(10*2小時*1.4元)

Hadoop叢集佈署



  倘若您手邊有兩台以上的實體機器,或者多核心效能強大的伺服器,不妨安裝VirtualBox虛擬化軟體,在一台電腦上建立兩至三台Ubuntu 10.04Linux環境,各位聰明的讀者可以透過上述的步驟來安裝您專屬的Hadoop叢集,就算是一個小型的私有雲了。


  在本文最後,筆者想提出幾個關於「雲端精算師」的軟體設計精神,與各位讀者分享。目前hicloud-hadoop 0.0.1版本是循序安裝,因此機器愈多,安裝時間愈長。未來將加入多執行緒的程式碼,讓安裝流程能同時進行。對hiCloud這種按時計費的公有雲而言,如何節省安裝時間變得很重要。未來hiCloud若能讓使用者建立自己專屬的虛擬機器範本,相信能有效降低各位讀者荷包的負擔。


  其次,中華電信的計價模式還包含網路流量,因此如何減少網路傳輸也是採用公有雲服務應該要思考的第二個重點。目前的腳本每一台虛擬機器都會重複下載JavaHadoop安裝檔。若能把Hadoop安裝檔先存在同一個公有雲提供的「儲存服務」,讓資料來自於「內部網路」而非「網際網路」,不納入流量計費,那也是對用戶有利的計價模式。


  最後,若能夠把要處理的事情變成自動化,計算完就關閉虛擬機器,以上這些考量就是在雲端時代程式設計師應該具備的「雲端精算師」精神,擁有節省成本的思考模式將是您未來在職場上的新競爭力!


Hadoop 叢集佈建初探 - hiCloud 為例

國家高速網路與計算中心 王耀聰 副研究員


(乘上篇)

Hadoop單機版初探 - Windows

  根據hadoop官方文件的建議,Hadoop最佳營運案例主要是在Linux作業系統底下運行。但在台灣,多數資訊從業人員仍以Windows為主要的作業系統。筆者為了降低各位學習Hadoop的門檻,撰寫了一套名為Hadoop4Win的懶人包安裝程式。目前在Windows XPWindows 2000環境下測試正常,至於Windows 7環境下目前因為安全性權限較嚴格,需關閉UAC,常不易安裝成功,因此這次我們以Windows XP環境來做示範。

  首先,請到http://hadoop4win.nchc.org.twhttp://hadoop4win.org下載0.1.5版本的hadoop4win完整安裝檔。Hadoop4win 0.1.5目前包含五大軟體組成:(1) Cygwin(2) JDK 1.6.0 update 18(3) Hadoop 0.20.2(4) HBase 0.20.6(5) Ant 1.8.2。因此整個完整版懶人包大約有189 MB,請點擊hadoop4win-setup-full_0.1.5.exe執行檔開始進行安裝的動作

  備註:由於hadoop4win會在安裝資料夾寫入數量眾多的檔案,假如您有安裝防毒軟體,安裝時間可能會比較長(因為每個檔案都被掃描過一次)。倘若您希望縮短安裝時間,可暫時性關閉防毒軟體。

  當您完成hadoop4win的安裝後,有兩種方式可以在Windows上啟動Hadoop。其一是從「開始」選單選取 start-hadoop捷徑。其二是先點選 hadoop4win 捷徑,進入Cygwin指令操作的介面,才下指令start-hadoop來啟動Hadoop的五個背景服務(亦及NameNodeDataNodeJobTrackerTaskTrackerSecondaryNameNode)。


  備註:安裝過程中,Windows防火牆會跳出警告說有Java程式嘗試開啟網路連線埠,這是因為Hadoop背景服務至少會開啟五個網路連線埠來進行底層的RPC通訊,請選擇「解除封鎖」。


  接著,您可以根據hadoop4win網頁的說明,學習基本的Hadoop指令操作。礙於版面篇幅,這裡我們僅列舉三個指令操作來進行說明。首先,第一個指令叫jps,這個指令顧名思義就是列出所有java process。單機版的Hadoop4Win,基本上應該要有五個Java程序。因此,倘若您無法看到如圖的五個Java程序名稱(前面的數字為PID,每次執行會不同),那代表您的電腦可能記憶體不足(最低需求為512MB,建議至少有1GB記憶體)。倘若您在執行上遇到任何問題,歡迎到forum.hadoop.tw提問。


  如果您可以正常看到jps出現的五個Java程序,代表您的Hadoop環境已經在背景正常執行了。此時您可以點選「開始」選單的「NameNode Web UI」與「JobTracker Web UI」,或者直接用瀏覽器開啟http://localhost:50070http://localhost:50030的網址。


  第二個指令叫作hadoop fs,這個指令是用來驗證Hadoop分散式檔案系統(HDFSHadoop Distributed File System)的功能是否正常。請在Cygwin指令視窗鍵入以下指令,將位於安裝目錄(c:\hadoop4win)的opt\hadoop\conf-pseudo子目錄,上傳到HDFS的抽象檔案系統:


$ cd /opt/hadoop

$ hadoop fs -put conf-pseudo input ; hadoop fs -ls


  最後一個指令叫作hadoop jar,這個指令是用來驗證HadoopMapReduce運算環境功能是否正常。請在Cygwin指令視窗中鍵入以下指令,將剛剛上傳到HDFSinput目錄,共計13個檔案,進行「字數統計(Word Count)」的MapReduce範例運算。


$ hadoop jar hadoop-0.20.2-examples.jar wordcount input output




STEP 1:首先請選擇語系

「繁體中文,Chinese (Traditional)


STEP 2:本軟體採用Apache 2.0授權,

請按「我接受」


STEP 3:如果您不需要HBaseAnt

可以取消選取

STEP 4:選擇安裝目標資料夾,

預設為C:\hadoop4win

STEP 5:接著安裝程式會開始解壓縮

STEP 6:接著會跳出Cygwin的安裝畫面

STEP 7:安裝完成後,請按關閉結束

STEP 8:您可以從「開始」程式集」

hadoop4win」點選start-hadoop

啟動Hadoop服務於背景

Hadoop in Taiwan 2012 講者投稿現況

|
目前講者投稿情形,共計四個開發者議程,三個應用案例,兩個管理者講題。

PS. 比較有趣的是今年大家都用英文命名,真是國際化呀!!

Developer / 開發者
楊詠成(Gibson Yang) / 台灣雅虎 Yahoo! oozie introductionoozie introduction & experience sharing
Chia-Hung LinBulk Synchronous ParallelHadoop MapReduce[1]. is a popular open source framework inspired by functional programming 's map and reduce functions, saving developers lots of works by covering many underlying complicated tasks. However, not all tasks fit into MapReduce's scenario, graph related computation task (e.g. social network analysis) is one such example. Google therefore developed their in-house product, Pregel[2], based on Bulk Synchronous Parallel[3] - a bridge model suitable for performing iterative algorithms, performing large scale graph processing.

Outline:
1. What is Bulk Synchronous Parallel?
2. Apache Hama
3. Comparison between Hadoop MapReduce and Apache Hama

[1]. http://hadoop.apache.org/mapreduce/ [2]. http://dl.acm.org/citation.cfm?id=1582723 [3]. http://dl.acm.org/citation.cfm?id=79173.79181
Laurence Liew / Revolution Analytics, Asia Pacific. General Manager Big Data Analytics - Trends and Best Practises Using case studies from consumer behavior analytics to text mining and sentiment analysis, this session introduces big data analytics & the field of Data Science. An overview of data science and the data scientist toolkit will be presented. A discussion on use of R and Hadoop will also be presented.
Application / 應用案例
講者 / 單位名稱演講主題演講摘要
辜文元 / 逢甲大學GIS中心Hadoop於地理資訊系統之應用案例分享近年來由於遙測技術之快速發展,單幅影像解析度大幅提高使得檔案需要更大的儲存空間,此外動態攝影在環境觀測與記錄使用上也愈來愈廣泛,資料動輒以GB或TB為單位成長,使得遙測資料儲存管理的需求性日益增加。面對如此巨量的資料量往往導致傳統伺服器頻繁的出現儲存空間不足的狀況,雖然傳統伺服器可以增加硬碟來增加儲存空間,但垂直的空間擴展有一定的限制,如何因應日益增加的影像儲存需求,將會是一個很重要的課題。

本研究提出以Hadoop來解決巨量遙測影像儲存問題,利用其內建的HDFS分散式檔案系統之分散儲存特性,將影像檔案分散儲存到不同的雲端節點上,當客戶端數量或客戶端存取量增加時,由於檔案分散儲存,大幅提昇客戶端存取的效率。
Chun-Han Chen / OgilvyOne Mohohan: An on-line video transcoding service via HadoopA famous cloud computing file system and developing framework named Hadoop is mainly designed for massive textual data management, such as counting, sorting, indexing, pattern finding, and so on. However, it is merely to seek a multimedia-oriented service via Hadoop. Mohohan is an on-line multimedia transcoding system for video resources, which implemented with Amazon Web Service (AWS) EC2, AWS S3, AWS EMR, Hadoop, and ffmpeg. Its goal is reducing the overall execution time by parallel transcoding via the Hadoop cluster. The concept of Mohohan is simple: 1) to divide the video into several chunk of frames, 2) to transcode the chunks in parallel with multiple nodes (i.e., task tracker) of Hadoop cluster, and 3) to merge the transcoded results into the output. On the homogeneous SaaS comparison, a test report from an impartial third party organization named CloudHarmony has been chosen. Finally, the experiment result shows that Mohohan performs quite better than other on-line video transcoding services mentioned in the test report, such as Encoding, Zencoder, Sorenson, and Panda.
Vincent Chen / TCloud / Business Development Director 精準行銷上的應用- Hadoop in 移動裝置上網行為分析精準行銷上的應用- Hadoop in 移動裝置上網行為分析:
此應用在於Hadoop平台上,利用MapReduce等相關技術,整合各種移動裝置用戶資料,利用語意分析、資料探勘等分詞、分類技術,定義出完整用戶profile,除了將分析結果轉化成行銷能力,並最終實現人與內容、人與商品、人與人的智能配對。
Administrator / 維運者
Jason Shih / Etu, SYSTEX Corp.Hadoop Security Overview - From Security Infrastructure Deployment to High-Level Services The increasing trend of adoption Hadoop open-source framework for speedy data processing and analytics capabilities for organizations to manage huge data volume have brought attention to enterprise wide security concern aiming for fine grain control of sensitive information and isolation from different level/group of access on sharing storage or computing facilities. Prior to Hadoop 0.20, Unix-like file permission were introduced, providing also cluster-wide simple authentication mechanism but lack of access control per job queue, submission and other operations. With Hadoop's new security feature and it's integration with Kerberos, it's now possible to bring strong authentication and authorization to ensure rigorous access control to data, resources and also isolation between running tasks. In this presentation, we will cover the deployment details of Hadoop security on cluster environment and implementation on high-level services base on kerberized security infrastructure. We introduce also the Etu Appliance providing fast-deployment, system-automation and built-in feature of cross-realm trust mechanism which fulfill the interoperation between existing Active Domain or external LDAP realm and help reducing both integration and operation-wide overhead from administrators.
Kenneth Ho Hadoop hardware and network best practices.



20032004年,Google將分散式檔案系統、高度平行運算軟體編程平台等秘訣公諸於世
2006
年,Doug Cutting 將上述秘訣寫成開源系統 Hadoop 專案
2008
年,Yahoo 宣佈建立了全球最大的商業營運 Hadoop 叢集
2009
年,台灣Hadoop使用者社群會議首度開辦
2011
年,阿帕契基金會正式釋出 Hadoop 1.0 版本,象徵 Hadoop 已經穩定到足以承載企業
     營運的需求

國網中心和趨勢科技共同主辦的「Hadoop in Taiwan 2012」,是Hadoop在台灣首次的大型會議,精心規劃的議程內容涵蓋前瞻技術和實作應用,從個人到企業、從資深人士到新進者,各種角色的技術專才都能從中學習並吸收新知,進而加速Hadoop在台灣的發展進程。

Hadoop in Taiwan 2012」的特色包括:

  • 國際級大師齊聚一堂,傾囊相授
    Hadoop 架構師暨 HBase 主要貢獻者 Andrew Purtell LucidWorks 首席科學家 Grant Ingersoll以及趨勢科技雲端解決方案總負責人陳永強博士,都將親臨現場,分享最新技術進展與前瞻思維。
  • 議題規劃涵蓋開發、維運與應用需求
    深入探討Hadoop子系統與相關專案技術,包括MahoutHBase、海量資料查詢、Name Node設計、在私有雲佈建及維運Hadoop以及如何滿足關鍵的可用性、效能優化及最佳化設計等需求,台灣在Hadoop的先進應用實例也將同時登場。
  • 前所未有的人才平台,推升台灣在新世代技術平台的全球競爭力
    愈來愈多企業投入Hadoop應用實作,人力供給趕不上需求成長,且台灣的技術能力仍與國外有所落差。透過這場台灣首見的Hadoop技術盛會,已投身其中的專業人才可更精進實力,有心加入的新進者也能通過這條捷徑邁入Hadoop大門。

雲端運算已是耳熟能詳的課題,但透過 IaaSPaaSSaaS 等各種形式共用資源,獲得更佳的成本效益,只是雲端首部曲。接下來,如何善用雲端持續創造及累積的海量資料,淬煉出更多的獨特智慧及優質效能,就有賴於Hadoop的推廣及普及,這場剛開跑的全新技術競賽,更是可能讓台灣能與世界並駕其驅的新出路。

台灣首見的Hadoop盛會即將登場,名額有限,請立刻報名!


 


About this Archive

This page is a archive of recent entries in the Hadoop category.

CloudComputing is the previous category.

MapReduce is the next category.

Find recent content on the main index or look in the archives to find all content.

Pages

Sponsored By

Host by NCHC
Yahoo! Search