GetInsight組件技術及功能(四):Hadoop數倉系統和全文搜索功能
GetInsight是慧都自主研發、應用最靈活的大數據平臺。能夠幫助您隨時找到您想要的數據,使數據得到安全、穩定和高效的管理與應用。GetInsight是企業大數據解決方案的重要組成部分,除了提供完整的大數據功能組件,我們還提供組件自定義搭配,為企業選擇滿足方案需要的大數據功能組件,使您的大數據解決方案成本降到最低,從而高品質的解決您的大數據需求問題。
了解什么是GetInsight,請點擊這里查看GetInsight的基礎介紹>>
本文主要跟大家介紹GetInsight的Hadoop數倉系統和全文搜索系統。
Hadoop數倉系統
Hadoop數倉系統將結構化的數據文件映射為一張數據庫表,并提供SQL交互的功能。數據倉庫系統本身不存儲和計算數據,它完全依賴分布式文件管理系統和分布式計算工具。它的數據模型和關系數據庫類似,是結構化的表,且列的數量有限。但不同的是,它在支持行存儲的同時,也支持列存儲格式的表。它在處理大規模、大批量數據時性能優于傳統數據庫以及數據倉庫組件,但是犧牲了小批量數據的低時延查詢能力。最后,數據倉庫系統支持多種接口,支持集成大數據平臺的其他系統,同時提供WEB SERVICE等接口供其他系統集成。
GetInsight- Hadoop數倉系統的特性
Hadoop數倉系統具有如下特性:
- 本身不支持數據存儲和運算,完全依賴分布式文件管理系統和分布式計算工具。
- 數據模型和關系數據庫類似,為結構化的表;列的數量有限。
- 同時支持行存儲與列存儲,但數據處理邏輯是基于行的模式。
- 有限支持Update以及Delete操作(部分表類型支持,但計算時延高開銷大)。
- 不能保證處理的低遲延問題,適用于離線的批量數據計算。
- 支持多種訪問方式,包括命令行、JAVA API、RESTFUL API、WEB SERVICE等。
GetInsight - Hadoop數倉系統的應用案例
Hadoop數倉規模
30人的數據資源中心團隊,定期發布更新數據;進行數據使用培訓;監控前端應用,如找出并解決過度消耗資源的查詢;指導各層應用對DW的數據使用。
3000個活躍用戶,包括ETL、應用、業務信息工具、SAS和許多通過其他DBMS實現的連接。
每月查詢次數在1~1.4億之間。數據訪問工具包括SAS、Qlik、ORACLE、分布式計算組件、全文搜索系統、數據倉庫分析平臺等。
元數據管理
IT和業務部門均設有元數據專家。數據模型的更新通過變革流程通知到數據倉庫,詳細到數據要素。數據倉庫通過主數據和客戶數據達到數據整合,保證數據的一致性。
元數據管理可以真正發揮數據倉庫窗口的作用,能夠為業務人員及應用開發人員提供如下信息:數據倉庫中有什么數據,這些數據從哪里來,到何處去,加工邏輯是什么。
元數據管理沒有針對性的權限控制,因為元數據信息對企業中每個人都有價值,合法的局域網用戶均可訪問。
數據質量
關于數據質量的基本原則:業務部門是數據的擁有者,因此他們應當對數據質量負責。技術人員配合業務人員維護數據質量,數據倉庫只接收數據,不修改數據。
數據質量是數據倉庫中非常重要的一個環節,有一個集中的團隊負責對數據質量的監控,同時每個業務部門和IT部門都設有數據管理員,他們會定期對數據質量進行檢查。他們重點監控關鍵的數據元素,首要任務是解決數據缺失和數據異常的問題。
每個業務部門在年初的計劃中會設定數據質量目標,年終會考核相關人員的數據質量目標完成情況。
全文搜索系統
全文搜索引擎是一個基于Apache Lucene(TM)的實時分布式搜索和分析引擎。它使用Java開發并使用Lucene作為其核心來實現所有索引和搜索的功能。它的目的是通過簡單的RESTful API來隱藏Lucene的復雜性,從而讓全文搜索變得簡單。
不過,全文搜索引擎不僅僅是全文搜索,我們還能這樣去描述它:
- 分布式的實時文件存儲,每個字段都被索引并可被搜索
- 分布式的實時分析搜索引擎
- 可以擴展到上百臺服務器,處理PB級結構化或非結構化數據
慧都工業大數據分析方案即將精益生產理論體系進行了完美的融合和應用,并對大數據總體架構進行了更細致明確的解讀,提供自主研發的大數據平臺,實現ETL、數據管理及存儲、數據建模。如下圖所示:
關于慧都大數據分析平臺
慧都大數據分析平臺「GetInsight®」升級發布,將基于企業管理駕駛艙、產品質量分析及預測、設備分析及預測等大數據模型的構建,助力企業由傳統運營模式向數字化、智能化的新模式轉型升級,抓住數據經濟的發展勢頭,提供管理效能,精準布局未來。了解更多,請聯系。
慧都大數據專業團隊為企業提供商業智能大數據平臺搭建,免費業務咨詢,定制開發等完整服務,快速、輕松、低成本將任何Hadoop集群從試用階段轉移到生產階段。
歡迎撥打慧都熱線023-68661681或咨詢慧都在線客服,我們有專業的大數據團隊,為您提供免費大數據相關業務咨詢!