August 2012 Archives

Hadoop in Taiwan 2012 講者投稿現況

|
目前講者投稿情形,共計四個開發者議程,三個應用案例,兩個管理者講題。

PS. 比較有趣的是今年大家都用英文命名,真是國際化呀!!

Developer / 開發者
楊詠成(Gibson Yang) / 台灣雅虎 Yahoo! oozie introductionoozie introduction & experience sharing
Chia-Hung LinBulk Synchronous ParallelHadoop MapReduce[1]. is a popular open source framework inspired by functional programming 's map and reduce functions, saving developers lots of works by covering many underlying complicated tasks. However, not all tasks fit into MapReduce's scenario, graph related computation task (e.g. social network analysis) is one such example. Google therefore developed their in-house product, Pregel[2], based on Bulk Synchronous Parallel[3] - a bridge model suitable for performing iterative algorithms, performing large scale graph processing.

Outline:
1. What is Bulk Synchronous Parallel?
2. Apache Hama
3. Comparison between Hadoop MapReduce and Apache Hama

[1]. http://hadoop.apache.org/mapreduce/ [2]. http://dl.acm.org/citation.cfm?id=1582723 [3]. http://dl.acm.org/citation.cfm?id=79173.79181
Laurence Liew / Revolution Analytics, Asia Pacific. General Manager Big Data Analytics - Trends and Best Practises Using case studies from consumer behavior analytics to text mining and sentiment analysis, this session introduces big data analytics & the field of Data Science. An overview of data science and the data scientist toolkit will be presented. A discussion on use of R and Hadoop will also be presented.
Application / 應用案例
講者 / 單位名稱演講主題演講摘要
辜文元 / 逢甲大學GIS中心Hadoop於地理資訊系統之應用案例分享近年來由於遙測技術之快速發展,單幅影像解析度大幅提高使得檔案需要更大的儲存空間,此外動態攝影在環境觀測與記錄使用上也愈來愈廣泛,資料動輒以GB或TB為單位成長,使得遙測資料儲存管理的需求性日益增加。面對如此巨量的資料量往往導致傳統伺服器頻繁的出現儲存空間不足的狀況,雖然傳統伺服器可以增加硬碟來增加儲存空間,但垂直的空間擴展有一定的限制,如何因應日益增加的影像儲存需求,將會是一個很重要的課題。

本研究提出以Hadoop來解決巨量遙測影像儲存問題,利用其內建的HDFS分散式檔案系統之分散儲存特性,將影像檔案分散儲存到不同的雲端節點上,當客戶端數量或客戶端存取量增加時,由於檔案分散儲存,大幅提昇客戶端存取的效率。
Chun-Han Chen / OgilvyOne Mohohan: An on-line video transcoding service via HadoopA famous cloud computing file system and developing framework named Hadoop is mainly designed for massive textual data management, such as counting, sorting, indexing, pattern finding, and so on. However, it is merely to seek a multimedia-oriented service via Hadoop. Mohohan is an on-line multimedia transcoding system for video resources, which implemented with Amazon Web Service (AWS) EC2, AWS S3, AWS EMR, Hadoop, and ffmpeg. Its goal is reducing the overall execution time by parallel transcoding via the Hadoop cluster. The concept of Mohohan is simple: 1) to divide the video into several chunk of frames, 2) to transcode the chunks in parallel with multiple nodes (i.e., task tracker) of Hadoop cluster, and 3) to merge the transcoded results into the output. On the homogeneous SaaS comparison, a test report from an impartial third party organization named CloudHarmony has been chosen. Finally, the experiment result shows that Mohohan performs quite better than other on-line video transcoding services mentioned in the test report, such as Encoding, Zencoder, Sorenson, and Panda.
Vincent Chen / TCloud / Business Development Director 精準行銷上的應用- Hadoop in 移動裝置上網行為分析精準行銷上的應用- Hadoop in 移動裝置上網行為分析:
此應用在於Hadoop平台上,利用MapReduce等相關技術,整合各種移動裝置用戶資料,利用語意分析、資料探勘等分詞、分類技術,定義出完整用戶profile,除了將分析結果轉化成行銷能力,並最終實現人與內容、人與商品、人與人的智能配對。
Administrator / 維運者
Jason Shih / Etu, SYSTEX Corp.Hadoop Security Overview - From Security Infrastructure Deployment to High-Level Services The increasing trend of adoption Hadoop open-source framework for speedy data processing and analytics capabilities for organizations to manage huge data volume have brought attention to enterprise wide security concern aiming for fine grain control of sensitive information and isolation from different level/group of access on sharing storage or computing facilities. Prior to Hadoop 0.20, Unix-like file permission were introduced, providing also cluster-wide simple authentication mechanism but lack of access control per job queue, submission and other operations. With Hadoop's new security feature and it's integration with Kerberos, it's now possible to bring strong authentication and authorization to ensure rigorous access control to data, resources and also isolation between running tasks. In this presentation, we will cover the deployment details of Hadoop security on cluster environment and implementation on high-level services base on kerberized security infrastructure. We introduce also the Etu Appliance providing fast-deployment, system-automation and built-in feature of cross-realm trust mechanism which fulfill the interoperation between existing Active Domain or external LDAP realm and help reducing both integration and operation-wide overhead from administrators.
Kenneth Ho Hadoop hardware and network best practices.



20032004年,Google將分散式檔案系統、高度平行運算軟體編程平台等秘訣公諸於世
2006
年,Doug Cutting 將上述秘訣寫成開源系統 Hadoop 專案
2008
年,Yahoo 宣佈建立了全球最大的商業營運 Hadoop 叢集
2009
年,台灣Hadoop使用者社群會議首度開辦
2011
年,阿帕契基金會正式釋出 Hadoop 1.0 版本,象徵 Hadoop 已經穩定到足以承載企業
     營運的需求

國網中心和趨勢科技共同主辦的「Hadoop in Taiwan 2012」,是Hadoop在台灣首次的大型會議,精心規劃的議程內容涵蓋前瞻技術和實作應用,從個人到企業、從資深人士到新進者,各種角色的技術專才都能從中學習並吸收新知,進而加速Hadoop在台灣的發展進程。

Hadoop in Taiwan 2012」的特色包括:

  • 國際級大師齊聚一堂,傾囊相授
    Hadoop 架構師暨 HBase 主要貢獻者 Andrew Purtell LucidWorks 首席科學家 Grant Ingersoll以及趨勢科技雲端解決方案總負責人陳永強博士,都將親臨現場,分享最新技術進展與前瞻思維。
  • 議題規劃涵蓋開發、維運與應用需求
    深入探討Hadoop子系統與相關專案技術,包括MahoutHBase、海量資料查詢、Name Node設計、在私有雲佈建及維運Hadoop以及如何滿足關鍵的可用性、效能優化及最佳化設計等需求,台灣在Hadoop的先進應用實例也將同時登場。
  • 前所未有的人才平台,推升台灣在新世代技術平台的全球競爭力
    愈來愈多企業投入Hadoop應用實作,人力供給趕不上需求成長,且台灣的技術能力仍與國外有所落差。透過這場台灣首見的Hadoop技術盛會,已投身其中的專業人才可更精進實力,有心加入的新進者也能通過這條捷徑邁入Hadoop大門。

雲端運算已是耳熟能詳的課題,但透過 IaaSPaaSSaaS 等各種形式共用資源,獲得更佳的成本效益,只是雲端首部曲。接下來,如何善用雲端持續創造及累積的海量資料,淬煉出更多的獨特智慧及優質效能,就有賴於Hadoop的推廣及普及,這場剛開跑的全新技術競賽,更是可能讓台灣能與世界並駕其驅的新出路。

台灣首見的Hadoop盛會即將登場,名額有限,請立刻報名!


 


hadoop.tw.2012.jpg

首先,感謝 2011 年 12 月各位 Hadoop 使用者的熱情參與,也感謝中華電信訓練所的場地支援,讓第三屆台灣 Hadoop 使用者社群會議能圓滿落幕。上個月拿到錄影檔案,後續會再另文公佈相關錄影連結。有鑑於 2012 年上半年海量資料(Big Data)相關議題持續發燒,今年度感謝趨勢科技(Trend Micro)的邀約,擬將「第四屆台灣 Hadoop 使用者會議」擴大舉辦為「Hadoop in Taiwan 2012」。在此特別感謝中研院自由軟體鑄造場協助申請場地並贊助部份費用。活動目前初步規劃如下:


議程規劃


時間國際會議聽第一會議室第二會議室
09:00~09:10Opening / 開幕式
主辦單位
09:10~09:30Special Guest / 特別來賓
趨勢科技董事長 Steve Chang (待邀請)
09:30~10:10Keynote:
Cutting Edge Hadoop Technology and the Trend
Andrew Purtell (Hadoop 架構師,HBase 主要貢獻者)
10:10~10:20Break / 中場休息
10:20~11:00Keynote:
Machine Learning in Cloud Era
Grant Ingersoll (Apache Mahout 機器學習專案創始人)
11:00~11:40Keynote:
趨勢科技的雲端發現之旅
- 以 Hadoop 建構企業核心競爭力的歷程分享
陳永強 (趨勢科技雲端解決方案總負責人)
11:40~12:00Talk with Expert / 與專家有約
Grant Ingersoll, Andrew Purtell, 陳永強
12:00~13:00Lunch / 午餐

Developer / 開發者Administrator / 維運者Application / 應用案例
13:00~13:40實用的海量資料查詢 HIVE & PIGHadoop 在多租戶環境 (Multi-tenancy) 的安全性確保Hadoop/HBase 於地理資訊系統之應用案例分享
13:40~14:20Mahout in Practice
- 整合海量資料處理與機器學習
Name Node 的高使用性設計 - 以 Facebook 的 Avatar Node 為例Ad hoc Query - 輕輕鬆鬆查詢海量資料
14:20~14:30Break / 中場休息
14:30~15:10設計高效能 HBase Schema
-從了解HBase運作方式與資料特徵
Hadoop 維運經驗分享
-規劃 Hadoop營運該注意的事項
Hadoop 影音轉檔平台
Hadoop process video format transfer
15:10~15:50運用 Graph Database 對複雜的圖形關係的搜索Hadoop 網路設計、效能優化與監控Hadoop在精準行銷上的應用
15:50~16:00Break / 中場休息
16:00~16:40 TBD TBD TBD
16:40~16:50Closing / 閉幕式
主辦單位

目前除了上午時段的 Keynote 講者很榮幸可以邀請到兩位國外講者以外,也感謝趨勢科技不吝與各界分享他們運用 Hadoop 的相關經驗。下午時段將分為「開發者」、「營運者」與「應用案例」三個平行議程,目前已先由主辦單位草擬幾個題目,但仍在積極徵求講者。因此在此想詢問社群對於不同的議題提出建議,也歡迎有興趣分享相關經驗的熱血社群朋友,來信 jazz-mail.png 或填寫 Google Docs 徵求講題的表格,供後續議程安排。

重要日期

  1. 公開徵求講者:2012/08/24(五) 16:00 截止
  2. 公告候選議程:2012/08/27(一) 16:00 公佈
  3. 社群議程票選:2012/08/31(五) 16:00 截止
  4. 公告議程初版:2012/09/07(五) 16:00 公佈

重要連結

  1. 講者投稿表格