文檔金喜正規買球>>大數據干貨（一）>>Hadoop大數據生態系統及常用組件簡介

Hadoop大數據生態系統及常用組件簡介

經過多年信息化建設，我們已經進入一個神奇的，無論是在通訊社交過程中使用的微信、QQ、電話、短信，還是吃喝玩樂時的用到的團購、電商、移動支付，都不斷產生海量信息數據，數據和我們的工作生活密不可分、須臾難離。

什么是

什么是大數據，多大算大，100G算大么?如果是用來存儲1080P的高清電影，也就是幾部影片的容量。但是如果100G都是文本數據，比如我們的后端kafka里的數據，抽取一條mobileTopic的數據如下：【107，5505323054626937，局域網，局域網，unknown，0，0，09f26f4fd5c9d757b9a3095607f8e1a27fe421c9，1468900733003】，這種數據100G能有多少條，我們可想而知。

數據之所以為大，不但是因為數據量的巨大，同時各種渠道產生的數據既有IT系統生成的標準數據，還有大量多媒體類的非標準數據，數據類型多種多樣，而且大量無用數據充斥其間，給數據的真實性帶來很大影響，此外很多數據必須實時處理才最有價值。

一般數據量大(多)或者業務復雜的時候，常規技術無法及時、高效處理如此大量的數據，這時候可以使用Hadoop，它是由Apache基金會所開發的分布式系統基礎架構，用戶可以在不了解分布式底層細節的情況下，編寫和運行分布式應用充分利用集群處理大規模數據。Hadoop可以構建在廉價的機器上，比如我們淘汰的PC Server或者租用的云主機都可以拿來用。

今天，就為大家介紹一下Hadoop生態圈一些常用的組件。

Gartner的一項研究表明，2015年，65%的分析應用程序和先進分析工具都將基于Hadoop平臺，作為主流大數據處理技術，Hadoop具有以下特性：

方便：Hadoop運行在由一般商用機器構成的大型集群上，或者云計算服務上障。

可擴展：Hadoop通過增加集群節點，可以線性地擴展以處理更大的數據集。

目前應用Hadoop最多的領域有：

1) 搜索引擎，Doug Cutting設計Hadoop的初衷，就是為了針對大規模的網頁快速建立索引。

2) 大數據存儲，利用Hadoop的分布式存儲能力，例如數據備份、數據倉庫等。

3) 大數據處理，利用Hadoop的分布式處理能力，例如數據挖掘、數據分析等。

Hadoop生態系統與基礎組

Hadoop2.0的時候引入了HA(高可用)與YARN(資源調度)，這是與1.0的最大差別。Hadoop主要由3部分組成：Mapreduce編程模型，HDFS分布式文件存儲，與YARN。

Hadoop大數據生態系統及常用組件簡介

上圖是Hadoop的生態系統，最下面一層是作為數據存儲的HDFS，其他組件都是在HDFS的基礎上組合或者使用的。HDFS具有高容錯性、適合批處理、適合大數據處理、可構建在廉價機器上等優點，缺點是低延遲數據訪問、小文件存取、并發寫入、文件隨機修改。

Hadoop MapReduce是一個軟件框架，基于該框架能夠容易地編寫應用程序，這些應用程序能夠運行在由上千個商用機器組成的大集群上，并以一種可靠的，具有容錯能力的方式并行地處理上TB級別的海量數據集。這個定義里面有幾個關鍵詞：軟件框架、并行處理、可靠且容錯、大規模集群、海量數據集就是MapReduce的特色。

Hadoop大數據生態系統及常用組件簡介

MapReduce經典代碼(wordCount)

上面這段代碼就是接收一堆文本數據，統計這些文本數據中每個單詞出現的次數。MapReduce也是一個計算模型，當數據量很大時，比如10個G，它可以把這10G的數據分成10塊，分發到10個節點去執行，然后再匯總，這就是并行計算，計算速度比你一臺機器計算要快的多。

HBase

Hadoop的主要組件介紹完畢，現在看下HBase，它是一個高可靠、高性能、面向列、可伸縮的分布式存儲系統，利用Hbase技術可在廉價PC Server上搭建大規模結構化存儲集群。HBase 是Google Bigtable 的開源實現，與Google Bigtable 利用GFS作為其文件存儲系統類似，HBase 利用Hadoop HDFS 作為其文件存儲系統;Google 運行MapReduce 來處理Bigtable中的海量數據， HBase 同樣利用Hadoop MapReduce來處理HBase中的海量數據;Google Bigtable 利用Chubby作為協同服務， HBase 利用Zookeeper作為對應

有人問HBase和HDFS是啥關系，HBase是利用HDFS的存儲的，就像MySQL和磁盤， MySQL是應用，磁盤是具體存儲介質。HDFS因為自身的特性，不適合隨機查找，對更新操作不太友好，比如百度網盤就是拿HDFS構建的，它支持上傳和刪除，但不會讓用戶直接在網盤上修改某個文件的內容。

HBase的表有以下特點：

1 ) 大：一個表可以有上億行，上百萬列。

2 ) 面向列：面向列表(簇)的存儲和權限控制，列(簇)獨立檢索。

3 ) 稀疏：對于為空(NULL)的列，并不占用存儲空間，因此，表可以設計的非常稀疏。

HBase提供的訪問方式有命令行shell方式，java API(最高效和常用的)，Thrift Gateway 支持C ，PHP，Python等多種語言。

Hadoop大數據生態系統及常用組件簡介

HBase在淘寶的應用場景

HBase的使用場景：

需對數據進行隨機讀操作或者隨機寫操作;
大數據上高并發操作，比如每秒對PB級數據進行上千次操作;
讀寫訪問均是非常簡單的操作，比如歷史記錄，歷史訂單查詢，三大運營商的流量通話清單的查詢。

Hive

之前我們說了MapReduce計算模型，但是只有懂Java的才能擼代碼干這個事，不懂Java的想用Hadoop的計算模型是不是就沒法搞了呢?比如HDFS里的海量數據，數據分析師想弄點數據出來，咋辦?所以就要用到Hive，它提供了SQL式的訪問方式供人使用。

Hive是由Facebook 開源，最初用于解決海量結構化的日志數據統計問題的ETL(Extraction-Transformation-Loading) 工具，Hive是構建在Hadoop上的數據倉庫平臺，設計目標是可以用傳統SQL操作Hadoop上的數據，讓熟悉SQL編程的人員也能擁抱Hadoop(注意。是數據倉庫。不是數據庫啊。)

使用HQL作為查詢接口
使用HDFS作為底層存儲
使用MapReduce作為執行層

所以說Hive就是基于Hadoop的一個數據倉庫工具，是為簡化MapReduce編程而生的，非常適合數據倉庫的統計分析，通過解析SQL轉化成MapReduce，組成一個DAG(有向無環圖)來執行。

Flume

Flume是Cloudera提供的一個高可用的，高可靠的，分布式的海量日志采集、聚合和傳輸的系統，Flume支持在日志系統中定制各類數據發送方，用于收集數據;同時，Flume提供對數據進行簡單處理，并寫到各種數據接受方(可定制)的能力。

當前Flume有兩個版本Flume 0.9X版本的統稱Flume-og，Flume1.X版本的統稱Flume-ng，由于Flume-ng經過重大重構，與Flume-og有很大不同，使用時請注意區分。

Hadoop大數據生態系統及常用組件簡介

Flume就是一個數據管道，支持很多源(source)，sink(目標)，和透視寶的suro很像，比如拉取nginx日志可以拿這個工具簡單一配就可用。當然每臺nginx服務器上都要配置并啟動一個flume.

下面給大家看看配置文件(把kafka的數據寫入hdfs的配置),配置很簡單.完全免去了自己寫一個kafka的consumer再調用hdfs的API寫數據的工作量.

Hadoop大數據生態系統及常用組件簡介

YARN

YARN是Hadoop 2.0中的資源管理系統，它的基本設計思想是將MRv1中的JobTracker拆分成了兩個獨立的服務：一個全局的資源調度器ResourceManager和每個應用程序特有的應用程序管理器ApplicationMaster，該調度器是一個 "純調度器"，不再參與任何與具體應用程序邏輯相關的工作，而僅根據各個應用程序的資源需求進行分配，資源分配的單位用一個資源抽象概念 "Container" 來表示，Container 封裝了內存和 CPU。此外，調度器是一個可插拔的組件，用戶可根據自己的需求設計新的調度器，YARN 自身提供了 Fair Scheduler 和 Capacity Scheduler。

應用程序管理器負責管理整個系統中所有應用程序，包括應用程序的提交、與調度器協商資源以啟動 ApplicationMaster、監控 ApplicationMaster 運行狀態并在失敗時重新啟動等。

Ambari

Ambari是一個集群的安裝和管理工具，我們之前用的是Apache的Hadoop，運維同學用源碼包安裝，一個個配置文件去改，再分發到各個節點，中間哪一步搞錯了，整個集群就啟動不起來。所以有幾個廠商提供Hadoop的這種安裝和管理平臺，主要是CDH和HDP，國內的很多人都用CDH的，它是Cloudera公司的，如果用它的管理界面安裝，集群節點超過一定數量就要收費了。

Ambari是Apache的頂級開源項目，可以免費使用，現在用的人也很多。Ambari使用Ganglia收集度量指標，用Nagios支持系統報警，當需要引起管理員的關注時(比如，節點停機或磁盤剩余空間不足等問題)，系統將向其發送郵件。

ZooKeeper

隨著計算節點的增多，集群成員需要彼此同步并了解去哪里訪問服務和如何配置，ZooKeeper正是為此而生的。ZooKeeper 顧名思義就是動物園管理員，它是用來管大象(Hadoop) 、蜜蜂(Hive) 和小豬(Pig) 的管理員， Apache Hbase和 Apache Solr 以及LinkedIn sensei等項目中都采用到了 Zookeeper。ZooKeeper是一個分布式的，開放源碼的分布式應用程序協調服務，以Fast Paxos算法為基礎實現同步服務，配置維護和命名服務等分布式應用。

其他組件

以上介紹的都是Hadoop用來計算和查詢的比較常用和主流的組件，上面那副生態圖中的其他幾個組件簡單了解一下就好：

Pig是一種編程語言，它簡化了Hadoop常見的工作任務，Pig為大型數據集處理提供了更高層次的抽象，與MapReduce相比，Pig提供了更豐富的數據結構，一般都是多值和嵌套的數據結構。

Mahout是Hadoop提供做機器學習用的，支持的算法也比較少，但是一些常用的 k-means 聚類、分類還是有的，他是用MapReduce做的，但是MapReduce不太擅長這個東西，所以Mahout的作者也轉投spark ML陣營了。

Sqoop是數據庫ETL工具，用于將關系型數據庫的數據導入到 Hadoop 及其相關的系統中，如 Hive和HBase。Sqoop 的核心設計思想是利用 MapReduce 加快數據傳輸速度，也就是說 Sqoop 的導入和導出功能是通過 MapReduce 作業實現的，所以它是一種批處理方式進行數據傳輸，難以實現實時數據的導入和導出。比如很多以前的業務數據都存在MySQL，隨著數據量越來越大，要把數據導到Hbase，就可以拿Sqoop直接操作。

本文所介紹的東西都是用于離線計算的，而之前發布的《面臨大數據挑戰透視寶如何使用Druid實現數據聚合》則是關于實時計算的框架Druid的。大數據常用的流計算框架主要有Storm，Spark Streaming，Flink，Flink雖然是2014年加入Hadoop的，但至今在生產環境上用的人還不多，似乎大家都持觀望態度。

說一下流計算(Druid，Spark Streaming)和批處理(MapReduce，Hive)有啥區別，比如電商網站的個性化廣告投放，當我們訪問了亞馬遜搜索筆記本電腦之后，他就會給你推薦很多筆記本電腦鏈接，你的請求和興趣愛好被亞馬遜服務器實時接收，流計算分析之后當時就會推薦給你可能會購買的東西。如果這個東西拿批處理去做，服務端收集完了，過半個小時才算出你可能要買電腦，這時候再給你推薦電腦明顯就不合適了，因為這時候你可能在搜索電炒鍋……

Hadoop大數據生態系統及常用組件簡介

最后再說一下大數據的工作流，比如有兩個MapReduce的任務是有依賴的，必須第一個完成了才能執行第二個，這就需要一個調度工具來調度。MapReduce也提供調度的API，但是代碼要寫很多，上面的代碼截圖只是一部分，這個依賴我寫了大概150行。所以這時候出現了工作流，用工作流來管理我們的各個job，我目前知道的有oozie和azkaban，oozie的配置比較靈活，推薦大家使用。

詳情請咨詢！

客服熱線：023-66090381

欧美日韩亚-欧美日韩亚州在线-欧美日韩亚洲-欧美日韩亚洲第一区-欧美日韩亚洲二区在线-欧美日韩亚洲高清精品

金喜正规买球

Hadoop大數據生態系統及常用組件簡介

用科技創就卓越

Create excellence with technology