June 2009 Archives

Yahoo! 提供了二個在亞太區的工作機會,主要工作內容是和搜尋產品有關的程式設計工作 : Search Engineer (Cloud Computing, Hadoop) (需求人數:1至2 人)

Yahoo! 內部已經把很多 data processing 的工作移植到 Hadoop 的平台上,以期能更快速的處理 petabyte 等級的資料量。這個工作機會將讓你有機會接觸到 2000 node 以上的 hadoop cluster,開發出實際的 web application 供網友使用,機會難得哦。


code monkey.jpg

hadoop 0.20 程式開發 (eclipse + plugin )

|
  • 開發hadoop 需要用到許多的物件導向語法,包括繼承關係、介面類別,而且需要匯入正確的classpath,否則寫hadoop程式只是打字練習...
  • 用類 vim 來處理這種複雜的程式,有可能會變成一場惡夢,因此用eclipse開發,搭配mapreduce-plugin會事半功倍。
  • 早在hadoop 0.19~0.16之間的版本,筆者就試過各個plugin,每個版本的plugin都確實有大大小小的問題,如:hadoop plugin 無法正確使用、無法run as mapreduce。hadoop0.16搭配IBM的hadoop_plugin 可以提供完整的功能,但是,老兵不死,只是凋零...
  • 子曰:"逝者如斯夫,不捨晝夜",以前寫的文件也落伍了,要跟上潮流,因此此篇的重點在:用eclipse 3.4.2 開發hadoop 0.20程式,並且測試撰寫的程式運作在hadoop平台上
詳文連結

向SQL說NO (NOSQL)

|
一個相當年輕但是正在快速成長的新社群"向SQL說NO" (nosql) 上週在美國舊金山舉行了一次會議, 這次的會議向大家完整的介紹分散式資料庫,這種非傳統關連式資料庫(RDBMS)如何在各樣不同計畫或產品當中成功的被應用. 其中包括了 
MongDb (10gen 等.. ,
投影片跟Video可以在 http://blog.oskarsson.nu/2009/06/nosql-debrief.html 這邊下載.

NutchEz : 讓你更輕鬆自在的玩 Nutch

|
  •  Nutch是hadoop的相關計畫,也是目前最知名也是最好的opensource 搜尋引擎專案之一,想製作自己的客製化搜尋引擎? 用Nutch就對了!
  •  不過Nutch的設定繁瑣,加上還要搭配Tomcat,在入手前需要花不少時間研究如何安裝使用
  •  NutchEz 顧名思義就是Nutch Easy,已經包含了Hadoop 、Nutch、Tomcat等套件,因此只要安裝NutchEz後就,透過簡易的操作,就可以輕鬆的產生出你自己的搜尋引擎囉! 
  •  本軟體改編自Nutch,為自由軟體,並歡迎大家下載使用並與予指教

詳細的網頁連結

nutch

Yahoo! 釋放出內部使用的 Hadoop 版本

|
Yahoo! 一直以來都是 Hadoop 最大的貢獻者,他們內部也有把 Hadoop 安裝在數千台機器上。今天,在 github 上放出了他們內部使用的版本,目前是 0.20 加上一些 back-port 的 patch (全部都在 Hadoop 的 JIRA 上找的到)。這個版本只有原始碼的形式,要用的人必須自行下載與編譯。

放出 Yahoo! 內部使用的版本對於整個 Hadoop 社群來講,對大的好處是每個版本都有經過 Yahoo! 內部長達兩天的測試(包含各種基本、功能以及效能測試),對於其他提供 Hadoop 套件的人(像是 Cloudera),可以用這個版本當做一個基礎,再包裝成預先編譯好的套件供人使用。

細節可以參考 http://developer.yahoo.net/blogs/hadoop/2009/06/yahoo_distribution_of_hadoop.html

有小道消息指出,大部份的 Hadoop 工作職缺是由民主黨的支持者所提供的,讓其它民主黨支持者去應徵。記得 O'Reilly Radar 上提到加州是美國境內提供最多 Hadoop/MapReduce 工作職缺的地方嗎? 同時提到工作職缺最多的前五名是加州,馬里蘭州,紐約州,麻塞諸薩州,華盛頓州 (CA, MD, NY, MA, WA)

  votemap2008.jpg

Hadoop Summit 2009 將在美西時間六月十日在加州的 Santa Clara 的 Marriott 飯店舉辦。

雲端運算最近很紅,但是學會 Hadoop/MapReduce 之後,工作到底好不好找? 根據 O'Reilly Radar 蒐集美國有在網路上刊登工作機會的資料調查指出,有提到 Hadoop 或 MapReduce 的工作機會還很少,不過正逐漸穩定成長中。其中大部份 Hadoop/MapReduce 的工作機會在加州

在今年二到四月間和 Hadoop/MapReduce 有關的求才職缺比起 2008 年同期間成長了49%。如果考慮經濟衰退的因素,同一期間全美線上求才的職缺是大幅減少了40%

OReilly Radar
Image from O'Reilly Radar