Hadoop教程:越長大越孤單的Hadoop
現在,越來越難以定義到底Hadoop是什么,亦或是Hadoop不是什么。幾年前,Hadoop基本上等于MapReduce,一個處理海量數據的批處 理系統,讓人們誤認為Hadoop即為大數據(Big Data),大數據就是“很多很多的數據”。但如果市場上不存在這樣的困惑,今天只會更糟。因為Hadoop正承擔和提供著各種各樣的功能,而這在兩年前 被認為是不可能的。
顯然,這對于Hadoop平臺來講是極好的,但可能會讓Hadoop用戶使用起來倍感困難。
Hadoop:方興未艾
從2007開始,Hadoop就開始存在了,然而盡管投入使用Hadoop的興趣很是廣泛,但直到如今還比較小眾。Gartner的分析師Svetlana Sicular在tweeter中提到:

盡管對Hadoop有很強的興趣,實際將Hadoop投入使用的公司卻有限,451 Research的一項調查表明:

對Hadoop有興趣使用的很多,真正使用起Hadoop的卻不多,這樣的不一致歸結于Hadoop的復雜性,Pepperdata的首席執行官補充道。還有一部分是因為廠商過分吹噓當前Hadoop的功能,讓企業用戶倍感混亂。
但是,Hadoop的一個最大的優點在于:它的靈活性。
Hadoop“百變金剛”
蘇斯(Suess)博士在《老雷斯的故事》中描述了一個建立在thneeds之上的工業背景,thneeds是一種“能夠滿足所有人需要的所有東西”。如 百變金剛一般,Thneeds可以是任何東西(“它可以是一件T恤,一只襪子,一雙手套,一頂帽子。但是他還有其他各種用途,沒錯,遠遠超過你能想象的。 你可以拿它當毯子!枕頭!床單!窗簾!甚至自行車坐墊!”)。

Hadoop也是類似的這樣一種“能夠滿足所有人需要的所有東西”。
記得在2012年的時候,Hadoop的創造者Doug Cutting對我說,“Hadoop是大數據的操作系統”,因為“在Hadoop平臺上會有一系列的工具讓這個生態圈逐漸壯大”。
到如今,他應該更新一下原來的看法,應該說Hadoop“能夠勝任絕大多數的應用場景,雖然對于任何場景都不算是最好的。”
很大程度上,這是由于YARN的誕生。從來沒有什么項目像YARN這樣,對Hadoop有如此之大的影響。YARN是第二代的MapReduce,一個資源和集群管理的工具,對提高Hadoop的實用性具有深遠的意義。
Gartner分析師Merv Adrian是這樣說的,在Hadoop初期,一切都很簡單,Hadoop就是HDFS加MapReduce以及一些小工具。隨著這些工具越來越正式,它 們紛紛成為了各自的項目,有了Hadoop發行版的商業支持,比如:Pig,Hive,Hbase以及Zookeeper等。幾個月前,我注意到,包括 Accumulo,Avro,Cascading,Flume,Mahout,Oozie,Spark,Sqoop以及YARN也加入了這個名單中。
YARN之所以重要,不是僅僅在于一系列的Hadoop組件會隨著發生改變,而是在于他喚醒的一系列Hadoop組件將會改變Hadoop的意義。 YARN讓Hadoop不再只是一個做數據分析和ETL的暴力掃描、批處理工具。Hadoop可以成為交互式分析工具、事件處理器、事務系統、一個用戶復 雜和混合工作負載的安全自治系統。
YARN,讓Hadoop力量倍增。
Hadoop社區的喜與憂
這件事有利有弊,MapR的CEO John Schroeder這樣說,“沒有哪個企業擁有的Hadoop開發者能夠超過全部開發者的15%或20%以上,所以你沒法操縱Hadoop社區。”無法操縱,也無法引導和指向。
在Hadoop這個大廚房里有如此眾多的廚師,出現如此眾多的表現形式和功能就不足為奇了。Adrian提到,“像其他人一樣,我也會重新定義Hadoop來滿足我自己的需求。”
這是Hadoop仍然復雜的關鍵原因之一。盡管Hortonworks的CEO Rob Bearden的意見是Hadoop公共開發的目標在于讓Hadoop“易用和可靠。”
這的確很難做到,事實證明對所有人來講都好用是不現實的。
正當黎明破曉時
Hadoop如此復雜——難以定義,也難以實現——不過,事實上也可以輕松駕馭。雖然底層的技術仍然復雜,很多公司正致力于將這種復雜性隱藏起來,不再向用戶暴露,正如Adrian在tweeter中提到的:

Cloudera的聯合創始人Mike Olson早在2012年就曾這樣表述,他確信通過云應用提供商,大多數的企業都能挖掘出Hadoop的價值所在。換句話說,不像Hadoop社區那樣復雜,技術在不久的將來將不再如此復雜難以駕馭。
但這也不重要,因為像Facebook和Zoomdata各種不同的公司將Hadoop以服務的形式提供給消費者和企業,從而讓Hadoop很容易使用。 這是Hadoop的承諾:Hadoop社區包括Cloudera和Hortonworks這樣的廠商在內,有不斷地提高和擴展其技術,并且會對復雜的 Hadoop進行抽象和簡化,讓Hadoop可以在主流企業中應用開來。
比雙十一更勁爆!【年終大促 巔峰盛"慧" 】促銷火熱進行中 iPhone 6 Plus、 iPhone 6、iPad Air滿就送,還不趕快買買買!
來源:TechTarget中國