GetInsight組件技術及功能(三):分布式NoSQL數據庫和文件管理系統
GetInsight是慧都自主研發、應用最靈活的大數據平臺。能夠幫助您隨時找到您想要的數據,使數據得到安全、穩定和高效的管理與應用。GetInsight是企業大數據解決方案的重要組成部分,除了提供完整的大數據功能組件,我們還提供組件自定義搭配,為企業選擇滿足方案需要的大數據功能組件,使您的大數據解決方案成本降到最低,從而高品質的解決您的大數據需求問題。
了解什么是GetInsight,請點擊這里查看GetInsight的基礎介紹>>
本文主要跟大家介紹GetInsight的分布式NoSQL數據庫和分布式文件管理系統。
分布式NoSQL數據庫
分布式NoSQL數據庫是一個分布式的、面向列的非關系型數據庫。它彌補了數據倉庫系統的不足,提供近實時的響應速度,支持實時查詢。它對表的管理是面向列的,支持列獨立檢索,適合海量數據的隨機訪問。它的表每行都有一個可排序的主鍵和任意多的列,列可以根據需要動態的增加,同一張表中不同的行可以有截然不同的列,并且其中空列(null)并不占用存儲空間。它自動生成時間戳,每個單元中的數據可以有多個版本,默認情況下版本號是單元格插入時的時間戳。最后,與其他非關系型數據庫不同的是,它提供一個中間件,幫助開發工程師能夠像使用JDBC訪問關系型數據庫一樣訪問它。
GetInsight分布式NoSQL數據庫的特性
分布式數據庫具有如下特性:
- 每行都有一個可排序的主鍵和任意多的列,列可以根據需要動態的增加,同一張表中不同的行可以有截然不同的列。
- 空列(null)并不占用存儲空間,表可以設計的非常稀疏。
- 面向列(族)的存儲和權限控制,列(族)獨立檢索,適合海量數據的隨機訪問。
- 每個單元中的數據可以有多個版本,默認情況下版本號自動分配,是單元格插入時的時間戳。
- 數據類型只有字符串,沒有其他類型。
- 支持Update以及Delete操作。
- 近實時的響應速度,支持實時查詢。
- 自動生成時間戳。
GetInsight分布式NoSQL數據庫的應用場景 - 爬蟲后端數據庫
搜索是一個定位用戶所關心的信息的行為:例如,搜索一本書的頁碼,其中含有用戶想讀的主題;或者網頁,其中含有用戶想找的信息。搜索含有特定詞語的文檔,需要查找索引,該索引提供了特定詞語和包含該詞語的所有文檔的映射。為了能夠搜索,首先必須建立索引。Google和其他搜索引擎正是這么做的。他們的文檔庫是整個互聯網;搜索的特定詞語就是搜索框里敲入的任何東西。
分布式數據庫,為這種文檔庫提供存儲,它提供行級訪問,所以爬蟲可以插入和更新單個文檔。搜索索引可以通過MapReduce計算高效生成。如果結果是單個文檔,可以直接從數據庫取出。
總體來說,數據流程分為下面幾個步驟:
- 爬蟲持續不斷地抓取新頁面,這些頁面每頁一行地存儲到數據庫里。
- 數據庫根據主鍵自動生成索引,為網絡搜索應用做準備。
- 用戶發起網絡搜索請求。
- 網絡搜索應用查詢建立好的索引,或者直接從數據庫直接得到信息。
- 搜索結果提交給用戶。
分布式文件管理系統
分布式文件管理系統,主要用于存儲和管理文件。它能存存儲大容量數據集,且集成硬盤能提供更快的硬盤讀取時間。它的構建思路是:一次寫入,多次讀取;更多用于批量處理,重點是數據訪問的高吞吐量,且不需要配置昂貴可靠的高端硬件產品。它提供了高可靠性的HA模式,在任意節點失效時提供完美的監控機制以及完整的備份恢復機制,即當部分節點故障時,它能在不被用戶察覺的情況下正常運行。
慧都工業大數據分析方案即將精益生產理論體系進行了完美的融合和應用,并對大數據總體架構進行了更細致明確的解讀,提供自主研發的大數據平臺,實現ETL、數據管理及存儲、數據建模。如下圖所示:
關于慧都大數據分析平臺
慧都大數據分析平臺「GetInsight®」升級發布,將基于企業管理駕駛艙、產品質量分析及預測、設備分析及預測等大數據模型的構建,助力企業由傳統運營模式向數字化、智能化的新模式轉型升級,抓住數據經濟的發展勢頭,提供管理效能,精準布局未來。了解更多,請聯系。
慧都大數據專業團隊為企業提供商業智能大數據平臺搭建,免費業務咨詢,定制開發等完整服務,快速、輕松、低成本將任何Hadoop集群從試用階段轉移到生產階段。
歡迎撥打慧都熱線023-68661681或咨詢慧都在線客服,我們有專業的大數據團隊,為您提供免費大數據相關業務咨詢!