Hadoop教程:SQL Server+Hadoop變身大數據解決方案
在數據庫市場中,微軟的SQL Server是最受關注的產品之一。在數據庫知識網站DB-Engines每月公布的數據庫流行度排行榜中,SQL Server幾乎穩占第二名的位置。但從這個榜單每月的變化中也可以看出,大量NoSQL數據庫的排名不斷上升,已經開始威脅到傳統數據庫的地位。
“以不變應萬變”不再是大數據時代應有的策略,老牌數據庫廠商在保持傳統市場領先的基礎上,不斷拓展新市場,微軟就是其中的一個代表。微軟的改變最早是為了向Bing提供高質量的搜索結果,這與Google的情況類似,互聯網行業總是最早面臨大數據挑戰的。

微軟端到端的大數據解決方案可以總結為SQL Server、Windows Azure和Hadoop,用微軟自己的話說就是數據管理、數據擴充和洞察力。下面筆者將按照自下而上的順序盤點微軟大數據解決方案的具體內容:
一、數據管理
在微軟的大數據解決方案中,數據管理是最底層和最基礎的一環。靈活的數據管理層,可以支持所有數據類型,包括結構化、半結構化和非結構化的靜態或動態數據。在數據管理層中主要包括三款產品:SQL Server、SQL Server并行數據倉庫和Hadoop on Windows。
針對不同的數據類型,微軟提供了不同的解決方案。具體來說,針對結構化數據可以使用SQL Server和SQL Server并行數據倉庫處理;非結構化數據可以使用Windows Azure和Windows Server上基于Hadoop的發行版本處理;而流數據可以使用SQL Server StreamInsight管理,并提供接近實時的分析。

1、SQL Server。去年發布的SQL Server 2012針對大數據做了很多改進,其中最重要的就是全面支持Hadoop,這也是SQL Server 2012與SQL Server 2008最重要的區別之一。今年年底即將正式發布的SQL Server 2014中,SQL Server進一步針對大數據加入內存數據庫功能,從硬件角度加速數據的處理,也被看為是針對大數據的改進。
2、SQL Server并行數據倉庫。并行數據倉庫(Parallel Data Warehouse Appliance,簡稱PDW)是在SQL Server 2008 R2中推出的新產品,目前已經成為微軟主要的數據倉庫產品,并將于今年發布基于SQL Server 2012的新款并行數據倉庫一體機。SQL Server并行數據倉庫采取的是大規模并行處理(MPP)架構,與傳統的單機版SQL Server存在著根本上的不同,它將多種先進的數據存儲與處理技術結合為一體,是微軟大數據戰略的重要組成部分。
3、Hadoop on Windows。微軟同時在Windows Azure平臺和Windows Server上提供Hadoop,把Hadoop的高性能、高可擴展與微軟產品易用、易部署的傳統優勢融合到一起,形成完整的大數據解決方案。微軟大數據解決方案還通過簡單的部署以及與Active Directory和System Center等組件的集成,為Hadoop提供了Windows的易用性和可管理性。憑借Windows Azure上基于Hadoop的服務,微軟為其大數據解決方案在云端提供了靈活性。
二、數據擴充
社交媒體的興起給企業帶來獨特的計劃,以獲取更多商業價值,最終實現競爭優勢。微軟大數據解決方案將數據和模型與公用的數據和服務(包括Twitter、Facebook和LinkedIn等社交媒體網站)相結合,從而能夠實現突破性的發現。在數據擴充層,微軟提供的最重要的平臺是Windows Azure Marketplace。
Windows Azure Marketplace是一個在線市場,用于購買和銷售完成的軟件即服務(SaaS)應用程序和高級數據集。Windows Azure Marketplace可以幫助將尋求基于云的創新解決方案的公司與開發了準備使用的解決方案的合作伙伴連接到一起,使客戶能夠使用Windows Azure Marketplace上的應用程序和挖掘算法來發現隱藏的模式。

通過Windows Azure Marketplace進行共享和協作:微軟大數據解決方案可讓客戶通過Windows Azure Marketplace共享數據并發現新的洞察力,Windows Azure Marketplace可通過開放數據協議(OData)展露數百種來自微軟和第三方的應用程序和數據挖掘算法。
與社交媒體集成:微軟大數據解決方案可讓客戶通過來自社交媒體網站(例如Twitter和Facebook)的公用數據來擴展他們的分析。微軟的一款代號為“Social Analytics”的基于云的項目允許企業將社交媒體信息與業務應用程序相集成。
借助Hadoop執行高級分析:微軟大數據解決方案支持傳統的BI以及高級分析(例如數據挖掘和圖形挖掘),從而可讓客戶從他們所有的數據中發現新價值。Hive ODBC Driver可讓客戶使用SQL Server數據挖掘工具執行預測分析。微軟還將支持Mahout等其他高級分析工具,以及使用C++、C#、Python、Ruby和Pearl編寫的挖掘算法。
三、洞察力
企業收集、存儲和處理數據,最終目的還是要獲得洞察力。企業需要能夠輕松處理和分析PB 級的新數據,而不用擔心建立復雜的分布式存儲和計算集群,并且要能夠隨著需求的增加實現縮放。微軟大數據解決方案可讓客戶用熟悉的BI工具從他們的結構化和非結構化數據中獲得可執行的洞察力。
從洞察力的層面,微軟提供了兩款主要的產品,分別是Office Powerpivot和SharePoint Power View。PowerPivot和Power View工具,能夠幫助企業快速的從數據中發現信息,從而解決業務問題。其中,PowerPivot可以用來設計數據模型,Power View可以用來設計可視化報表,報表還可以發布到SharePoint平臺上。最終用戶能夠根據自己業務視角及要求設計數據模型并展示出來,充分利用數據和前臺界面的力量,滿足業務需求。

使用熟悉的工具分析Hadoop數據:微軟可讓用戶利用Excel的Hive組件在熟悉的Excel環境中與Hadoop中的非結構化數據進行交互并加以分析。
通過任何數據獲得深入的洞察力:企業可以用熟悉的BI工具(例如Microsoft SQL Server Analysis Services (SSAS)、PowerPivot和Power View)通過Hive Open Database Connectivity (ODBC) Driver來分析Hadoop中的非結構化數據。企業還可以用SQL Server 2012上的PowerPivot和Power View對關系型數據采用自助服務的 BI 產品。
通過簡化的編程驅動洞察力:微軟通過與.NET和新的JavaScript庫集成簡化了Hadoop的編程。開發人員可以在JavaScript中使用新的JavaScript庫來輕松編寫MapReduce程序,然后通過簡單的瀏覽器來部署他們的JavaScript代碼。
小結
微軟的大數據解決方案從本質上看還是原有SQL Server和Office產品的升級,最大的亮點是在SQL Server、Windows Server和Windows Azure中都集成了Hadoop功能,使Hadoop成為連接這三者之間的橋梁。微軟的大數據解決方案產品豐富、功能齊全,但相對缺乏創新。在用戶看來,微軟最大的特色就是產品的易用性和界面的友好性,這也是用戶選擇微軟的主要原因。
【IT168】