傳統行業如何建立數據倉庫?(上)
建立數據倉庫是一個解決企業數據問題應用的過程,是企業信息化發展到一定階段必不可少的一步,也是發展數據化管理的重要基礎。數倉的知識市面上的書籍和文章不少,但是實際實施依據行業不同,企業核心訴求不同,從技術到方法論各有不同。如何實施數倉項目,本文先以傳統行業的數倉切入,從整體上講下數據倉庫的實施方法論。(點擊此處查看下文)
一、需求分析
需求分析是數據倉庫項目最重要的一個環節,數倉說到底還是服務于業務,支撐于業務,如果需求分析不準確,做了沒人用,上了不好用,會直接影響業務/客戶的使用,最終導致項目的失敗。為了避免最壞的情況,前期一定要重視需求的調研、挖掘和分析,并采用一些嚴謹科學的措施和方法去做需求分析。
在實際調研過程中分享幾個經驗:
- 盡可能與業務方/客戶方一起分析需求,引導對方將項目所要實現的整體框架和業務細節部分述清楚,最好的方式就是需求人員和設計人員基于原型來討論,從而正確理解實際的業務需求。
- 必須實事求是地將數據倉庫所能實現的目標和不容易解決的問題與協商清楚。這一個環節趟過不少坑,IT方急著上線,業務方對于項目還處于一知半解,甚至在推動的時候可能避重就輕,比如一期不滿足的需求強行上,長遠來看項目會產生不少推諉和扯皮,消磨的是對方的信任。
- 在需求討論的基礎上,需要理解業務工作流程,當然如果你已經具備了這個行業豐富的業務知識,那可以在需求調研的時候盡可能地讓對方按照自己的思路去完成數據倉庫系統的功能設計。
- 需求方群體的分類,BI項目最終的使用對象可以分為以下幾類:數據查詢者、報表查詢者、企業決策者。這三類人群的需求特點完全不一樣,溝通的時候需要注意區分并深刻理解
- 需求調研的再完美,也避免不了需求變更。現實是很多情況下需求是不確定的,業務方是提不出有價值的需求的,需求今天是A明天又變成B無法一步做到位的,這都很正常,作為項目實施者要做好心理預期。

一般情況下,業務方能夠提供的都是需求的整體框架部分或者是實際需求的一部分內容,不能預見未來需要增加的需求,這也注定了數倉項目是一個不斷循環、反饋,使系統不斷完善增長的過程。
不能規避風險但是可以減少風險,所以科學的調研尤為重要。以下是調研模板,當需求調研完成時,需要對采集結果進行分析、歸納、整理,最終形成完整的需求分析報告。
業務需求的實施目的就是真正理解企業決策者的戰略性目標。在理解建立商業智能系統目標的基礎上,建立有效的企業管理模式,制定出詳細的企業數據倉庫業務管理規范,設計出常用的ETL數據采集規范和工作流程,從而明確商業智能系統的實施范圍和目標。為了提高企業的分析決策能力,可以利用當下的局域網技術和互聯網技術實現企業對各種信息的查詢和分析,通過建立企業業務數據模型,分析商業智能系統的系統架構、數據源之間的差異、對數據質量的評估和各種信息的處理方法,有效地提高企業商業智能系統的分析和決策能力。
二、數據倉庫的邏輯分析
數據倉庫在邏輯上可以分成操作型數據庫、數據倉庫層、數據集市層、數據分析應用層和報表展示層,其架構如下圖所示:
三、設計ODS系統
ODS 可以有兩種形式:ODS 數據緩沖區和ODS統一信息視圖區。
- ODS數據緩沖區
ODS數據緩沖區是業務數據流動過程的第一個存儲區,實現了數據倉庫從各個業務系統的數據源中將數據抽取出來,并且裝載到ODS數據緩沖區的這一過程,從而實現統一的全局的企業數據平臺,為以后的數據抽取、清洗、轉換過程打下堅實的基礎。對于數據的數據源可以采用增量的方式進行抽取,對于經常變化更新的數據一般采用全量的方式進抽取。ODS數據緩沖區具有實時性的特征,ODS系統將各個孤立的業務系統的生產運營數據集成起來,組成統一的、全局的企業數據交換平臺
- ODS統一信息視圖區
ODS統一信息視圖區是指有選擇地集成各類業務源數據,對數據進行抽取、清洗、轉換操作,以數據主題域為數據集成的基礎,對數據進行分類和組織,使用戶能夠通過統一信心視圖區獲得跟某個主題域相關的實時性數據。各業務系統和ODS統一信息視圖區可以互相訪問,可以生成具有實時性的操作性報表和查詢某一主題的近期全部信息。
- ODS數據緩沖區和ODS統一信息視圖區的區別和共同點
ODS 數據緩沖區主要為業務源數據抽取到數據倉庫中提供中間數據緩沖的功能,與ODS 統一信息視圖區最大的區別就是數據抽取、清洗、轉換、加載的轉換規則和數據存儲的方式不同。ODS統一信息視圖區是完全按照主題的方式進行數據存儲,向用戶提供快速的報表展示和數據實時查詢的功能。而ODS數據緩沖區的ETL規則一般只進行簡單的匯總、計算,或者從操作型數據庫中直接抽取而中間不進行任何轉化。ODS 統一信息視圖區的數據一般都是從ODS數據緩沖區中抽取過來的。
下一期我們將會繼續介紹數倉的建模、數據集市的建模、數據源分析和數據的獲取與整合以及數據應用和報表展現。您可以持續關注本教程,獲得更多有關大數據方面的知識。
關于慧都大數據分析平臺
慧都大數據分析平臺「GetInsight®」升級發布,將基于企業管理駕駛艙、產品質量分析及預測、設備分析及預測等大數據模型的構建,助力企業由傳統運營模式向數字化、智能化的新模式轉型升級,抓住數據經濟的發展勢頭,提供管理效能,精準布局未來。了解更多,請聯系。
慧都大數據專業團隊為企業提供商業智能大數據平臺搭建,免費業務咨詢,定制開發等完整服務,快速、輕松、低成本將任何Hadoop集群從試用階段轉移到生產階段。
歡迎撥打慧都熱線023-68661681或咨詢慧都在線客服,我們有專業的大數據團隊,為您提供免費大數據相關業務咨詢!