IBM數(shù)據(jù)質(zhì)量分析方法和最佳實(shí)踐
1.信息質(zhì)量與你的業(yè)務(wù)息息相關(guān)
隨著數(shù)據(jù)量日益劇增,企業(yè)決策比以往更需要具備強(qiáng)大的和掌控能力來(lái)協(xié)助解決關(guān)鍵問(wèn)題。若要提升企業(yè)競(jìng)爭(zhēng)優(yōu)勢(shì),必須隨時(shí)掌握企業(yè)內(nèi)的信息,并透過(guò)這些“可信賴”信息獲得新的企業(yè)價(jià)值。在現(xiàn)實(shí)世界中,很多用戶使用數(shù)據(jù)時(shí)都難以取到可信賴信息,給業(yè)務(wù)運(yùn)營(yíng)和決策帶來(lái)高風(fēng)險(xiǎn)。常常讓客戶頭痛的數(shù)據(jù)質(zhì)量的問(wèn)題呈現(xiàn)多樣化、復(fù)雜化和時(shí)效化等多種因素交織、組合在一起,使得工作推進(jìn)和項(xiàng)目實(shí)施變得相當(dāng)艱難,問(wèn)題主要涉及到以下方面:
根據(jù)業(yè)界權(quán)威機(jī)構(gòu)(TDWI,Gartner)的調(diào)查核實(shí),用戶存在的數(shù)據(jù)質(zhì)量問(wèn)題的狀況按種類分布如下:
由于信息質(zhì)量問(wèn)題而造成的損失,使用戶因此付出相當(dāng)之大的代價(jià):
怎樣才能解決信息質(zhì)量問(wèn)題呢? IBM根據(jù)在全球各行各業(yè)客戶的相關(guān)項(xiàng)目實(shí)施經(jīng)驗(yàn),提出了要擺脫傳統(tǒng)的分析方法,主張組織或機(jī)構(gòu)必須停止僅通過(guò)IT手段來(lái)解決數(shù)據(jù)質(zhì)量問(wèn)題。當(dāng)今,業(yè)界中很多富有經(jīng)驗(yàn)的 CIO就如何有效地解決信息質(zhì)量問(wèn)題,找到了高效的方法,其底線如下:
- 業(yè)務(wù)部門(mén)也應(yīng)該為數(shù)據(jù)質(zhì)量負(fù)責(zé),不能由IT部門(mén)獨(dú)自承擔(dān)責(zé)任;
- 數(shù)據(jù)質(zhì)量是個(gè)業(yè)務(wù)問(wèn)題,業(yè)務(wù)領(lǐng)導(dǎo)層需要負(fù)上識(shí)別數(shù)據(jù)質(zhì)量問(wèn)題的相關(guān)責(zé)任,建立數(shù)據(jù)質(zhì)量最低可接受的標(biāo)準(zhǔn)和啟動(dòng)促進(jìn)改善數(shù)據(jù)質(zhì)量的舉措;
- 提升數(shù)據(jù)質(zhì)量需與重大業(yè)務(wù)問(wèn)題關(guān)聯(lián)一起,如法規(guī)遵循與安全投資,以及關(guān)注更多客戶數(shù)據(jù)外的要點(diǎn)以獲取改善。
2.IBM解決方案
評(píng)估信息資產(chǎn),首要任務(wù)是分析現(xiàn)有企業(yè)數(shù)據(jù)來(lái)源,以理解可用信息的結(jié)構(gòu)、內(nèi)容和質(zhì)量。用戶查看描述數(shù)據(jù)的現(xiàn)有文檔可能已經(jīng)過(guò)時(shí),且需要驗(yàn)證以確保數(shù)據(jù)的準(zhǔn)確性、一致性和完整性。為此,IBM提供基于 InfoSphere Information Analyzer(以下簡(jiǎn)稱 IA)分析軟件工具的信息質(zhì)量解決方案,幫助用戶了解在給定時(shí)間點(diǎn)的數(shù)據(jù)內(nèi)容、結(jié)構(gòu)和總體質(zhì)量,該解決方案提供了用于分析數(shù)據(jù)源和規(guī)則的分析方法的深入見(jiàn)解。
IA 對(duì)多個(gè)企業(yè)儲(chǔ)存庫(kù)中的源數(shù)據(jù)進(jìn)行概要和分析,它包括一個(gè)業(yè)務(wù)驅(qū)動(dòng)數(shù)據(jù)規(guī)則定義方法,可以進(jìn)行集成數(shù)據(jù)規(guī)則分析,來(lái)評(píng)估和監(jiān)控信息資產(chǎn)。IA 可以在一個(gè)包含 IBM 和非 IBM 信息源的異構(gòu) IT 環(huán)境中工作。它還可以在異構(gòu)信息源中及跨異構(gòu)信息源創(chuàng)建珍貴元數(shù)據(jù),作為數(shù)據(jù)概要流程的一部分,識(shí)別新數(shù)據(jù)目標(biāo),以及支持深度分析。評(píng)估可以跨整個(gè)企業(yè)信息生態(tài)系統(tǒng):各種數(shù)據(jù)庫(kù)、文件和企業(yè)應(yīng)用。沒(méi)有 IA,這個(gè)流程將需要手動(dòng)完成,耗時(shí),且容易出錯(cuò)。
通過(guò)IBM解決方案,實(shí)現(xiàn)了信息按分析功能進(jìn)行組織,向您提供深入的知識(shí)和最佳實(shí)踐,用于:
數(shù)據(jù)分析,包括:
- 應(yīng)用數(shù)據(jù)分析系統(tǒng)功能
- 在功能內(nèi)應(yīng)用數(shù)據(jù)分析技術(shù)
- 解釋數(shù)據(jù)分析結(jié)果
- 基于分析結(jié)果作出決策或執(zhí)行操作
數(shù)據(jù)質(zhì)量分析和監(jiān)視,包括:
- 支持業(yè)務(wù)驅(qū)動(dòng)的規(guī)則定義和組織
- 跨數(shù)據(jù)源應(yīng)用規(guī)則并以一致方式進(jìn)行復(fù)用
- 利用多級(jí)別規(guī)則分析來(lái)了解更廣泛的數(shù)據(jù)質(zhì)量問(wèn)題
- 根據(jù)已定義的基準(zhǔn)/閥值來(lái)評(píng)估規(guī)則
- 評(píng)估并注釋數(shù)據(jù)質(zhì)量結(jié)果
- 監(jiān)視數(shù)據(jù)質(zhì)量隨時(shí)間變化的趨勢(shì)
- 跨環(huán)境部署規(guī)則
- 運(yùn)行特定、預(yù)定或命令執(zhí)行選項(xiàng)
IA數(shù)據(jù)發(fā)現(xiàn)和分析工具,是基于Web的架構(gòu)方式,對(duì)數(shù)據(jù)倉(cāng)庫(kù)的源系統(tǒng)數(shù)據(jù)分析和數(shù)據(jù)倉(cāng)庫(kù)的表屬性級(jí)分析,表級(jí)分析和關(guān)聯(lián)分析,并可使用規(guī)則來(lái)定義和分析數(shù)據(jù)的分布和相關(guān)性。IA工具的架構(gòu)如下:
- IA通過(guò)ODBC連接源系統(tǒng),相關(guān)信息存在MDR信息庫(kù)中。
- Information Server Engine按照預(yù)先設(shè)置的規(guī)則和邏輯,執(zhí)行數(shù)據(jù)分析,并產(chǎn)生處理結(jié)果。
- IA分析的結(jié)果保存在IADB中,用戶需要設(shè)定好對(duì)IADB數(shù)據(jù)源的連接使用。
- Information Server Clients 訪問(wèn)和查看數(shù)據(jù)質(zhì)量分析結(jié)果,例如:聯(lián)機(jī)查詢、各類報(bào)告等等。
IA 提供的主要功能說(shuō)明如下:
- 列分析
- 分析和記錄下列屬性;
- 各個(gè)值或基數(shù)的數(shù)量;
- 空值、“null”值、和非“null”或非空值的數(shù)量;
- 最小、最大、和平均數(shù)值;
- 基本數(shù)據(jù)類型,包括不同的日期—時(shí)間格式;
- 最小、最大、和平均長(zhǎng)度;
- 數(shù)值的精度和范圍。
- 主鍵分析與推薦
主鍵分析針對(duì)一個(gè)或多個(gè)表識(shí)別所有候選鍵,幫助您測(cè)試一個(gè)列或 列組合,以確定是否存在成為主鍵的候選。
- 外鍵分析
外鍵分析檢查表之間的內(nèi)容和關(guān)系,有助于識(shí)別外鍵、檢查其完整 性、并檢查主鍵和外鍵之間的參照完整性。
- 交叉值域分析
交叉值域分析檢查表之間的內(nèi)容和關(guān)系,以確定列之間值的交疊,以及表內(nèi)或表間數(shù)據(jù)的任何冗余(參照上圖)
- 數(shù)據(jù)監(jiān)控和趨勢(shì)分析
通過(guò)基線分析,將來(lái)自先前列分析的數(shù)據(jù)(基線)和新的、當(dāng)前的列分析進(jìn)行比較,尋找變化。
- 數(shù)據(jù)規(guī)則和指標(biāo)
創(chuàng)建邏輯規(guī)則進(jìn)行數(shù)據(jù)驗(yàn)證,驗(yàn)證規(guī)則分析可以延伸數(shù)據(jù)源或跨數(shù)據(jù)源的評(píng)估,以定義數(shù)據(jù)之間的關(guān)系。允許以多種方式表達(dá)驗(yàn)證規(guī)則。它還可以檢查了解數(shù)據(jù)是否符合某些限制:
包含:一個(gè)字段是否包含一個(gè)字符串,或符合某個(gè)包含某些字符串的表達(dá)式。
相等:一個(gè)字段是否與某些值相等。
存在:一個(gè)源是否擁有任何數(shù)據(jù)。
模式:源數(shù)據(jù)中的值是否與一個(gè)模式字符串匹配。
出現(xiàn):一個(gè)源表中某些值出現(xiàn)的次數(shù)。
范圍:源數(shù)據(jù)的范圍。范圍可以包含最小值、最大值,或二者皆有。
參照列:源數(shù)據(jù)對(duì)參照列的參照完整性。
參照清單:數(shù)據(jù)是否符合一個(gè)允許值的參照清單。
類型:源數(shù)據(jù)是否能夠從字符轉(zhuǎn)換為數(shù)字或日期。
唯一性:源數(shù)據(jù)是否含有重復(fù)值。某些字段(如賬號(hào))必須為唯一。
這些規(guī)則可以與邏輯操作符結(jié)合,從一個(gè)或多個(gè)表中(其中,多個(gè)列擁有多種特征)找到行。您還可以將這些規(guī)則與邏輯操作符結(jié)合,進(jìn)行復(fù)雜條件評(píng)估,并指出雖然自身并沒(méi)有出現(xiàn)問(wèn)題,但是不符合更廣泛的限制或業(yè)務(wù)條件的數(shù)據(jù),隨時(shí)間發(fā)展以提供有關(guān)數(shù)據(jù)質(zhì)量趨勢(shì)的追蹤分析。
- 報(bào)表
提供全面分析報(bào)告,通過(guò)使用圖形顯示和打印報(bào)表理解源數(shù)據(jù)質(zhì)量狀況。
3.業(yè)務(wù)用例
- 組織需要詳細(xì)了解和理解其數(shù)據(jù)的優(yōu)缺點(diǎn)和內(nèi)在質(zhì)量。獲得這種了解并將其應(yīng)用于各種數(shù)據(jù)相關(guān)活動(dòng)的能力可以直接影響那些活動(dòng)的成本和效益。
- 在很多眾所周知的用例中,戰(zhàn)略性數(shù)據(jù)相關(guān)項(xiàng)目在實(shí)現(xiàn)的回報(bào)低于預(yù)期的同時(shí)還超出計(jì)劃的成本和進(jìn)度安排,或由于數(shù)據(jù)質(zhì)量缺陷(低估此缺陷或直到項(xiàng)目的實(shí)施階段才知道)完全失敗。
- 對(duì)于這些情況, IA可以用來(lái)在項(xiàng)目開(kāi)始時(shí)進(jìn)行關(guān)鍵數(shù)據(jù)質(zhì)量評(píng)估以識(shí)別和測(cè)量現(xiàn)有數(shù)據(jù)缺陷。通過(guò)盡早執(zhí)行此評(píng)估,組織可以對(duì)數(shù)據(jù)執(zhí)行任何必要的更正操作,或防止可能需要避免的任何數(shù)據(jù)問(wèn)題。
- 此外, IA可以用來(lái)在整個(gè)項(xiàng)目生命周期內(nèi)評(píng)估并測(cè)量數(shù)據(jù)質(zhì)量,方法是允許開(kāi)發(fā)者在交付正確且預(yù)期的結(jié)果測(cè)試其代碼或作業(yè)的準(zhǔn)確性,對(duì)關(guān)于功能準(zhǔn)確性和系統(tǒng)準(zhǔn)確性的質(zhì)量保證提供幫助,以及允許業(yè)務(wù)用戶以成功的系統(tǒng)裝入流程作為標(biāo)準(zhǔn)。
4.給用戶帶來(lái)變化
- 幫助機(jī)構(gòu)快速地完成提升數(shù)據(jù)質(zhì)量和數(shù)據(jù)移植的項(xiàng)目,減少由于數(shù)據(jù)質(zhì)量不好而帶來(lái)的業(yè)務(wù)風(fēng)險(xiǎn),提高數(shù)據(jù)質(zhì)量的規(guī)范化和數(shù)據(jù)管控水平,以實(shí)現(xiàn)幫助機(jī)構(gòu)在可信賴信息的基礎(chǔ)上,作出更佳的分析和決策;
-
分析數(shù)據(jù)的自動(dòng)化流程管理,無(wú)需要手工進(jìn)行處理。相對(duì)手工分析而言,減少 50+%分析數(shù)據(jù)的工作量,提高生產(chǎn)效率,加快數(shù)據(jù)整合速度;
- 具有執(zhí)行大量數(shù)據(jù)分析的能力,解決海量數(shù)據(jù)分析帶來(lái)的挑戰(zhàn);
- 執(zhí)行數(shù)據(jù)分析過(guò)程中而發(fā)現(xiàn)的元數(shù)據(jù),可傳遞給 Information Server的其他軟件模塊使用,包括 IBM InfoSphere QualityStage,DataStage and Business Glossary等,而無(wú)需從零開(kāi)始;
- 提供可獨(dú)立于系統(tǒng)界面的各類分析報(bào)告,更快地明白和分析數(shù)據(jù)處理結(jié)果,減低用戶開(kāi)發(fā)工作量;
- 提供不同安全級(jí)別來(lái)授權(quán)用戶是否可訪問(wèn)敏感的數(shù)據(jù),完善的管理機(jī)制,有助于用戶提高分析數(shù)據(jù)的管理模式;
- 不間斷的監(jiān)控?cái)?shù)據(jù)源的變化,及早地發(fā)現(xiàn)問(wèn)題和解決問(wèn)題,避免影響不間斷運(yùn)作的業(yè)務(wù)(如審計(jì)、法規(guī)與規(guī)范等),確保數(shù)據(jù)項(xiàng)目“總是”含有可信賴的數(shù)據(jù),由此給業(yè)務(wù)發(fā)展帶來(lái)較高的經(jīng)濟(jì)效益。
- 獲得認(rèn)可和滿意的投資回報(bào)率(ROI)。
5.成功實(shí)施參考案例
項(xiàng)目背景:
20xx年,某零售巨頭多年來(lái)第一次發(fā)生虧損。該企業(yè)通過(guò)一系列的研究與自我反思,認(rèn)為其主要是由以下幾方面原因引起的。
- 缺乏對(duì)庫(kù)存商品銷(xiāo)售數(shù)據(jù)的有效洞察和糟糕的商品推銷(xiāo)以及預(yù)測(cè)應(yīng)用系統(tǒng)問(wèn)題,致使其無(wú)法及時(shí)地調(diào)整出貨品種及推銷(xiāo)策略來(lái)改善情況;
- 過(guò)長(zhǎng)的生產(chǎn)交易期以及已有的大量生產(chǎn)合同制約,公司歷史遺留的供應(yīng)鏈等問(wèn)題,致使其便已經(jīng)深刻了解到這些問(wèn)題,也不能迅速地改變他們的產(chǎn)品線結(jié)構(gòu);
- 其他諸如PeopleSoft財(cái)務(wù)系統(tǒng)問(wèn)題和當(dāng)前不合理的數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)等問(wèn)題,致使其無(wú)法快速高效地整合統(tǒng)一所有資源。
項(xiàng)目挑戰(zhàn):
- 信息太雜太亂,不知道哪些是重要的無(wú)法及時(shí)找到需求點(diǎn)來(lái)改善供應(yīng)鏈無(wú)法通過(guò)客戶行為分析來(lái)指導(dǎo)賣(mài)場(chǎng)活動(dòng)無(wú)法分析有價(jià)值的非結(jié)構(gòu)化數(shù)據(jù);
- 事實(shí)資料版本太多,真相難以提取難以理順客戶、產(chǎn)品以及合作伙伴的關(guān)系缺乏透明統(tǒng)一的數(shù)據(jù)記錄規(guī)則;
- 缺乏可信任的信息不完備的,過(guò)時(shí)的,不正確的數(shù)據(jù)泛濫難以理解并管理信息的使用方式;
- 缺乏數(shù)據(jù)敏捷性難以利用創(chuàng)新的機(jī)遇因死板的系統(tǒng)和變化的需求而導(dǎo)致的不斷增加的成本開(kāi)銷(xiāo)。
解決方案:
Information Analyzer是IBM推出的一款數(shù)據(jù)質(zhì)量分析工具。它能幫助客戶方便快捷地全面理解企業(yè)數(shù)據(jù)。它提供了數(shù)據(jù)質(zhì)量評(píng)估,數(shù)據(jù)質(zhì)量監(jiān)控以及可定制的數(shù)據(jù)規(guī)則設(shè)計(jì)和分析功能。這些強(qiáng)大的能力能讓客戶輕易的掌控整個(gè)企業(yè)的雜亂數(shù)據(jù),并極大地加速企業(yè)的信息整合工程。因此本產(chǎn)品可以很好地滿足該企業(yè)的需求并加速實(shí)現(xiàn)其轉(zhuǎn)型目標(biāo)。
在IBM為該企業(yè)制定的全套解決方案中,Information Analyzer主要應(yīng)用于以下3個(gè)關(guān)鍵階段:
- 源數(shù)據(jù)分析
全面分析理解該企業(yè)各個(gè)數(shù)據(jù)庫(kù)系統(tǒng)的數(shù)據(jù)質(zhì)量,找出異常數(shù)據(jù),為隨后的數(shù)據(jù)清洗、轉(zhuǎn)換、整合提供有力的支持。
- 業(yè)務(wù)洞察及趨勢(shì)預(yù)測(cè)
通過(guò)對(duì)清洗過(guò)的歷史數(shù)據(jù)進(jìn)行高效的比對(duì),找出數(shù)據(jù)變化趨勢(shì),分析客戶行為,從而及時(shí)調(diào)整相應(yīng)的推銷(xiāo)策略。
- 各個(gè)環(huán)節(jié)之間的數(shù)據(jù)質(zhì)量審計(jì)
自動(dòng)按需審計(jì)各個(gè)接口的數(shù)據(jù)質(zhì)量,從而保證最低的臟數(shù)據(jù)率和最高的數(shù)據(jù)兼容性。
部署架構(gòu):
方案收益:
通過(guò)列分析、主/外鍵分析、域交叉分析等手段自動(dòng)分析您的數(shù)據(jù),快速完成整體分析并生成數(shù)據(jù)的結(jié)構(gòu)、內(nèi)容和質(zhì)量報(bào)告。
- 通過(guò)基線分析便捷地找出數(shù)據(jù)的變化部分,以此來(lái)研究業(yè)務(wù)行為的變化趨勢(shì);
- 通過(guò)定制的數(shù)據(jù)規(guī)則分析,篩選或預(yù)測(cè)出有業(yè)務(wù)價(jià)值的數(shù)據(jù)形態(tài);
- 降低數(shù)據(jù)分析校驗(yàn)環(huán)節(jié)所需要的時(shí)間使業(yè)務(wù)決策更及時(shí)加速整個(gè)數(shù)據(jù)轉(zhuǎn)換,整合過(guò)程;
- 與Information Server其他產(chǎn)品相互協(xié)作,保證數(shù)據(jù)的唯一性,準(zhǔn)確性和完備性。
詳情請(qǐng)咨詢!
客服熱線:023-66090381