Recently in HBase Category

工商服務一下,代某知名半導體廠貼一下職缺。

Job description:

  • Study and implement cloud computing technologies and provide proposal for critical system availability improvement for high volume data processing improvement.
  • Collaborate with project teams to pilot and promote cloud computing technologies.
Job requirement:

  • MS degree or above in computer science or related disciplines.
  • At lease 2-year experience in the Hadoop/map reduce, virtualization, grid computing or cloud computing.
  • Ability to learn and apply new technologies quickly.
  • Self motivated, good teamwork and problem solving skill.
  • Experienced in data center management  related fields is a plus.
  • Fluent English communication skill is a plus (oral and written).
工作地點:新竹

履歷資料或相關職缺問題請寄至 yytai AT tsmc DOT com
最近巡迴演講的時候,有一些學生問我該不該參加教育訓練跟認證考試,
也提到想團報,可是卻不好找團員,所以如果有興趣,
又不想公然把 e-mail 丟上 hadoop.tw mail list  的,那填這個表吧。

https://spreadsheets.google.com/viewform?formkey=dDNpNy1HZHhWQkI2SmhncW5Cei1xcnc6MA

至於大家常問的問題,以下統一回給大家作參考:

F.A.Q.

Q1: 學生到底該不該考 Cloudera Hadoop Training and Certification?
A1: 如果沒有「長輩」贊助的話,是略嫌貴了點。
PS. 小道消息:以後可能會有純考認證的機會。如果已經面臨畢業找工作的壓力,又想提升求職競爭力,那只好自己考慮一下荷包裡的小朋友夠不夠多張了.....我會持續橋看看能不能有「學生價」....倒數兩週了....

Q2: 考 Hadoop 證照對找工作有沒有幫助?
A2: 嗯~國內很難講,國外至少在 Hadoop LinkedIn 看到很多工作機會。國內有興趣到 Yahoo, 中華電信, 趨勢的可以考慮看看。
PS. 好奇國外有哪些工作機會的請參考 LinkedIn Hadoop User Group 的 Job 版

Q3: 參加 Cloudera 紐約場次教育訓練有何心得?
A3: 教材是真的蠻扎實的,縱使我們有先翻過英文版,第二天對於企業員工來說,應該是可以解答一些心中的疑惑,像是怎麼跟資料庫整合。但第三天沒有演算法基礎的下午會有點吃力,Hadoop 初學者要有鴨子聽雷的心理建設,第一天下午就講了非常多底層實作的秘辛。
PS. 推薦 Yahoo Developer Network 的 Hadoop Tutorial

Q4: 考照難不難?
A4: ㄜ~老實說我有考,但是第一次沒有過,正在等七天後才能考第二次。線上考試,限時一個半小時,共六十題選擇。內容以 Hadoop 核心觀念為主。警告:五個答案選項會非常地模擬兩可,常常任兩個選項只差幾個英文字,基本上國外考過的都說難。

Q5: 有沒有題庫?
A5: ㄜ~(消音)如果跟大家說有,這樣就快變成考照補習班招生了~

Q6: 其他.......
A6: 推薦有機會的話,請參加 Jimmy Lin 主講的華盛頓場次,他在 MapReduce 方面很強,最近發表一本 MapReduce 的免費電子書,又是馬里蘭大學雲端運算中心的成員,是強者中的強者。

- Jazz

hadoop-tw.jpg


台灣 Hadoop 使用者社群會議
Hadoop Taiwan User Group Meeting 2009


繼格網運算之後,雲端運算被視為下一代資訊架構的主流。雲端運算平台 Hadoop 及雲端資料庫平台 HBaseHive 均是目前諸多雲端運算服務的基礎架構。 Cloudera 是目前全球首先提供自由軟體 Hadoop 技術支援的商業公司,本次使用者會議特別邀請來自 Cloudera Christophe Bisciglia 來跟我們分享如何運用 Hadoop 打造雲端應用程式與軟體服務,並分享自由軟體的可行商業模式:教育訓練與認證機制。此外,也邀請了國內推動Hadoop 教學、軟體開發、社群建立的幾位同好來進行知識分享,包括:台灣雅虎老魚研究室國立台灣大學資訊工程學系通訊與多媒體實驗室國家高速網路與計算中心雲端運算研究小組。希望透過此次會議,讓更多有興趣瞭解 Hadoop 的夥伴相互交流,進行凝聚出台灣區的 Hadoop 社群。
本會議不收取任何報名費用,歡迎各界踴躍參加。礙於此次會議場地座位有限,請速上網報名(http://registrano.com/events/hadoop-tw),額滿為止。
也請大家代為宣傳(議程PDF版)。

Cloud Computing is a hot research topic since year 2007. Hadoop, HBase and Hive are the key components of many cloud computing infrastructures.  Cloudera is the first company to provide technical support of Hadoop. In this workshop, we invite Christophe Bisciglia to share the experience of how to build cloud services with Hadoop and  Cloudera's open source business model - training and certification. Besides, we also invite local developers of Taiwan Hadoop communities to share their projects.
  This workshop is now free to register. Please use following URL to join this event.  http://registrano.com/events/hadoop-tw

09-10-21_Schedule_small.png


向SQL說NO (NOSQL)

| | Comments (0) | TrackBacks (0)
一個相當年輕但是正在快速成長的新社群"向SQL說NO" (nosql) 上週在美國舊金山舉行了一次會議, 這次的會議向大家完整的介紹分散式資料庫,這種非傳統關連式資料庫(RDBMS)如何在各樣不同計畫或產品當中成功的被應用. 其中包括了 
MongDb (10gen 等.. ,
投影片跟Video可以在 http://blog.oskarsson.nu/2009/06/nosql-debrief.html 這邊下載.
前一陣子在 Hadoop mailing list 上看到有人問到說"我們要怎樣稱呼 Hadoop + HBase + Lucene + Zookeeper + etc ..比較好呢?" 孔子說的好 "必也正名乎!" , 大家都知道 Cloud Computing 是今年最火紅的 Term (其實在 Distributed computing 領域大約每十年會出現一個 buzzword), 相較今年各家廠商陸續各式各樣的 Cloud computing 產品, Apache 軟體基金會目前使用 "Apache Cloud Computing Edition" 來稱呼它 , 這名字有沿用當年頗為成功的 Java Enterprise Edition 的意思, 雖然本質是不一樣的東西, 但是強調這是個是跨語言的平臺. 目前正計畫整合更多相關的技術.

在 http://svn.apache.org/repos/asf/labs/clouds/ 可以看到目前草稿版的 slides , 其中對於為何要前進 Cloud ? 什麼是 Cloud application ? 目前該做什麼? 都有清楚簡潔的說明,想要真正了解 Cloud computing 的人不可錯過.
apache_cloud_computing_edition.jpg

今年的 Open Source Developers' Conference Taiwan 將於 台北市松仁路7號7樓 (國泰金融大樓) / 7F., No.7, Songren Rd., Sinyi Dist., Taipei City 舉辦, 4/17~4/19 為期三天. 其中第三天有一場介紹 HBase 的演講, 對於這套 on top of Hadoop DFS, column-oriented 資料庫系統有興趣的朋友歡迎參加.

HBase 介紹

| | Comments (0) | TrackBacks (0)
Hadoop 除了擁有分散式的運算平台之外,底層還有一個適合循序式、批次存取的檔案系統(HDFS),當然大家就不會就此滿足。既然 Google 用自家的分散式檔案系統做了一個用來存放結構化資料的 BigTable,為甚麼不也用 Hadoop 的 HDFS 做一個出來呢?

於是,兩年前在兩位 Powerset 工程師(Jim Kellerman 跟 Michael Stack)的號召下,在 Hadoop 的 contrib 計畫中多出了 HBase 這個跟 BigTable 採用類似設計的分散式結構化資料的儲存系統。

簡單的說,HBaseBigTable 一樣,有別於一般資料庫系統用的 row-oriented 儲存方式,這兩個系統都是 column-oriented 的儲存方式。Column-oriented 的好處是每一筆資料可以存放不固定欄位的東西,不像 row-oriented 的存法,增加一個新的欄位需要多花些力氣才能達成。與 BigTable 相同的是 HBase 底層也是使用了分散式的檔案系統 (Hadoop 的 HDFS),並且也將一個資料表拆成很多份,由不同的伺服器負責該部份的存取,藉此達到高效能。

在寫入資料的時候,HBaseBigTable 一樣,都是先寫到記憶體中的 MemCache,並且有 Write-Ahead Log 以防意外發生時可以做復原的動作。每隔一段時間,或者 MemCache 累積到一定程度,HBase 就會把資料寫入檔案系統中。因此,HBase 可以提供相當高速的寫入。讀取的時候,也是先去找 MemCache 後再去找檔案系統,而藉由將一個大大的表拆成很多份的技巧,也提昇了讀取的速度。

HBase 本身跟 Hadoop 一樣用 Java 撰寫,但透過 Thrift 的支援(Thrift 是一套由 Facebook 所開發,提供跨語言做資料交換的平台),你可以用任何 Thrift 有支援的語言,像是PHP/Perl/Ruby/Python 等來存取 HBase