翻譯|大數(shù)據(jù)新聞|編輯:況魚杰|2020-09-03 15:54:19.987|閱讀 323 次
概述:無論數(shù)據(jù)是大大小小,是舊數(shù)據(jù)還是新數(shù)據(jù),傳統(tǒng)數(shù)據(jù)還是現(xiàn)代數(shù)據(jù),無論是在內(nèi)部還是在云端,對(duì)數(shù)據(jù)質(zhì)量的需求都不會(huì)改變。處于從大數(shù)據(jù)和其他新數(shù)據(jù)資產(chǎn)中獲取業(yè)務(wù)價(jià)值的壓力下的數(shù)據(jù)專業(yè)人員可以利用現(xiàn)有技能,團(tuán)隊(duì)和工具來確保大數(shù)據(jù)的質(zhì)量。即便如此,僅僅因?yàn)槟梢岳矛F(xiàn)有技術(shù)也不意味著這就是您應(yīng)該做的。我們必須使現(xiàn)有技術(shù)適應(yīng)當(dāng)前時(shí)代的要求。
# 界面/圖表報(bào)表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
相關(guān)鏈接:
無論數(shù)據(jù)是大大小小,是舊數(shù)據(jù)還是新數(shù)據(jù),傳統(tǒng)數(shù)據(jù)還是現(xiàn)代數(shù)據(jù),無論是在內(nèi)部還是在云端,對(duì)數(shù)據(jù)質(zhì)量的需求都不會(huì)改變。處于從大數(shù)據(jù)和其他新數(shù)據(jù)資產(chǎn)中獲取業(yè)務(wù)價(jià)值的壓力下的數(shù)據(jù)專業(yè)人員可以利用現(xiàn)有技能,團(tuán)隊(duì)和工具來確保大數(shù)據(jù)的質(zhì)量。即便如此,僅僅因?yàn)槟梢岳矛F(xiàn)有技術(shù)也不意味著這就是您應(yīng)該做的。我們必須使現(xiàn)有技術(shù)適應(yīng)當(dāng)前時(shí)代的要求。
數(shù)據(jù)專業(yè)人員必須調(diào)整,優(yōu)化和擴(kuò)展數(shù)據(jù)質(zhì)量及相關(guān)數(shù)據(jù)管理最佳實(shí)踐,以適應(yīng)大數(shù)據(jù)和類似現(xiàn)代數(shù)據(jù)集的業(yè)務(wù)和技術(shù)要求,才能保護(hù)傳統(tǒng)企業(yè)數(shù)據(jù)的質(zhì)量。 除非組織兩者都做,否則它可能無法提供所有數(shù)據(jù)資產(chǎn)所期望的那種可信分析,操作報(bào)告,自助服務(wù)功能,業(yè)務(wù)監(jiān)控和治理。
好消息是,組織可以將當(dāng)前的數(shù)據(jù)質(zhì)量和其他數(shù)據(jù)管理能力應(yīng)用于大數(shù)據(jù)。但是組織仍然需要了解并進(jìn)行某些調(diào)整和優(yōu)化。熟悉的數(shù)據(jù)質(zhì)量任務(wù)和工具功能與大數(shù)據(jù)和其他有價(jià)值的新數(shù)據(jù)資產(chǎn)(從Web應(yīng)用程序,社交媒體,數(shù)字供應(yīng)鏈,SaaS應(yīng)用程序和物聯(lián)網(wǎng))高度相關(guān),如下所示。
標(biāo)準(zhǔn)化。廣泛的用戶期望以依賴基于SQL的工具的自助服務(wù)方式探索和使用大數(shù)據(jù)。數(shù)據(jù)質(zhì)量的標(biāo)準(zhǔn)化使大數(shù)據(jù)更適合臨時(shí)瀏覽,可視化和查詢。
刪除重復(fù)數(shù)據(jù)。大數(shù)據(jù)平臺(tái)總是以相同的數(shù)據(jù)加載多次而告終。這會(huì)歪曲分析結(jié)果,使度量標(biāo)準(zhǔn)計(jì)算不準(zhǔn)確,并對(duì)運(yùn)營(yíng)流程造成嚴(yán)重破壞。數(shù)據(jù)質(zhì)量的多種匹配和重復(fù)數(shù)據(jù)刪除方法可以補(bǔ)救數(shù)據(jù)的冗余。
匹配。數(shù)據(jù)集之間的鏈接可能很難發(fā)現(xiàn),特別是當(dāng)數(shù)據(jù)來自傳統(tǒng)和現(xiàn)代的各種源系統(tǒng)時(shí)。數(shù)據(jù)質(zhì)量的數(shù)據(jù)匹配功能有助于驗(yàn)證各種數(shù)據(jù)并確定數(shù)據(jù)集之間的依存關(guān)系。
分析和監(jiān)視。許多大數(shù)據(jù)源-例如電子商務(wù),Web應(yīng)用程序和物聯(lián)網(wǎng)(IoT)-缺乏一致的標(biāo)準(zhǔn),并且無法預(yù)知地發(fā)展其架構(gòu)而無需通知。無論是在開發(fā)中對(duì)大數(shù)據(jù)進(jìn)行概要分析還是在生產(chǎn)中對(duì)其進(jìn)行監(jiān)視,數(shù)據(jù)質(zhì)量解決方案都可以在出現(xiàn)新方案和異常時(shí)揭示它們。數(shù)據(jù)質(zhì)量的業(yè)務(wù)規(guī)則引擎和新的智能算法可以自動(dòng)進(jìn)行大規(guī)模補(bǔ)救。
客戶數(shù)據(jù)。似乎維持有關(guān)客戶的傳統(tǒng)企業(yè)數(shù)據(jù)的質(zhì)量挑戰(zhàn)還不夠,許多組織現(xiàn)在正在從智能手機(jī)應(yīng)用程序,網(wǎng)站訪問,第三方數(shù)據(jù)提供商,社交媒體以及不斷增長(zhǎng)的客戶渠道和接觸點(diǎn)列表中捕獲客戶數(shù)據(jù)。對(duì)于這些組織,客戶數(shù)據(jù)是新的大數(shù)據(jù),所有成熟的數(shù)據(jù)質(zhì)量工具均具有針對(duì)客戶領(lǐng)域設(shè)計(jì)的功能。這些工具中的大多數(shù)最近已更新,以支持大數(shù)據(jù)平臺(tái)和云,以利用它們的速度和規(guī)模。
工具自動(dòng)化。大數(shù)據(jù)是如此之大(大小,復(fù)雜性,來源和用途),以至于數(shù)據(jù)專業(yè)人士和分析人員難以準(zhǔn)確,高效地將工作擴(kuò)展到大數(shù)據(jù)。此外,一些業(yè)務(wù)用戶想要大規(guī)模地以自助方式探索和分析數(shù)據(jù),發(fā)現(xiàn)質(zhì)量問題和機(jī)會(huì),甚至自行修復(fù)數(shù)據(jù)。兩種情況都需要工具自動(dòng)化。
數(shù)據(jù)質(zhì)量工具長(zhǎng)期以來一直支持業(yè)務(wù)規(guī)則,以自動(dòng)做出一些開發(fā)和補(bǔ)救決策。業(yè)務(wù)規(guī)則并沒有消失-多種類型的用戶仍然發(fā)現(xiàn)它們很有用,許多用戶擁有龐大的規(guī)則庫,他們無法放棄。
業(yè)務(wù)規(guī)則與新的自動(dòng)化方法結(jié)合在一起,新的自動(dòng)化方法已經(jīng)出現(xiàn)在各種數(shù)據(jù)管理工具中,包括數(shù)據(jù)質(zhì)量工具。這些通常采用智能算法的形式,這些算法基于人工智能和機(jī)器學(xué)習(xí)來應(yīng)用預(yù)測(cè)功能,以自動(dòng)確定數(shù)據(jù)狀態(tài),要應(yīng)用的質(zhì)量功能以及如何與開發(fā)人員和用戶協(xié)調(diào)這些動(dòng)作。
Minitab 是質(zhì)量改進(jìn)和統(tǒng)計(jì)學(xué)教育方面領(lǐng)先的軟件和服務(wù)提供商。Minitab 通過提供一套全面的一流統(tǒng)計(jì)分析和過程改進(jìn)工具,幫助公司和機(jī)構(gòu)找出趨勢(shì)、解決問題和發(fā)掘?qū)氋F見解。
必須更改數(shù)據(jù)質(zhì)量的實(shí)踐(以及數(shù)據(jù)集成,元數(shù)據(jù)管理和客戶視圖的相關(guān)實(shí)踐)以遵循不同的范例。請(qǐng)注意,在以下示例中,大多數(shù)范式轉(zhuǎn)換對(duì)于滿足大數(shù)據(jù)分析中的新要求都是必需的。
盡早攝取大數(shù)據(jù)。數(shù)據(jù)管理中最強(qiáng)勁的趨勢(shì)之一是更快地存儲(chǔ)輸入數(shù)據(jù),以便對(duì)時(shí)間敏感的流程(如運(yùn)營(yíng)報(bào)告和實(shí)時(shí)分析)盡早訪問大數(shù)據(jù)。在這些情況下,持久數(shù)據(jù)優(yōu)先于提高數(shù)據(jù)質(zhì)量。 為了加快數(shù)據(jù)到存儲(chǔ)的持久性,在用戶和進(jìn)程可以在以后訪問或重新利用大數(shù)據(jù)時(shí)進(jìn)行這些改進(jìn)的假設(shè)下,最小化或省略了數(shù)據(jù)的前期轉(zhuǎn)換或聚合。
實(shí)時(shí)獲取大數(shù)據(jù)質(zhì)量。這些范式轉(zhuǎn)移的后果是,在讀取或分析時(shí),數(shù)據(jù)聚合和質(zhì)量改進(jìn)正在不斷地進(jìn)行中。這使數(shù)據(jù)質(zhì)量執(zhí)行更接近實(shí)時(shí)。此外,動(dòng)態(tài)大數(shù)據(jù)質(zhì)量功能有時(shí)會(huì)嵌入其他解決方案中,尤其是那些用于數(shù)據(jù)集成,報(bào)告和分析的解決方案。為了實(shí)現(xiàn)嵌入并實(shí)現(xiàn)實(shí)時(shí)性能,現(xiàn)代工具將大多數(shù)數(shù)據(jù)質(zhì)量功能作為服務(wù)提供。幸運(yùn)的是,當(dāng)今的快速CPU,內(nèi)存處理,數(shù)據(jù)流水線和MPP數(shù)據(jù)架構(gòu)提供了在大數(shù)據(jù)規(guī)模上即時(shí)執(zhí)行數(shù)據(jù)質(zhì)量所需的高性能。
保留大數(shù)據(jù)的到達(dá)(原始)狀態(tài),以備將來使用。新建立的具有大數(shù)據(jù)的最佳做法是保留從源頭到達(dá)時(shí)的所有詳細(xì)內(nèi)容,結(jié)構(gòu),條件,甚至異常情況。存儲(chǔ)和保護(hù)大數(shù)據(jù)的到達(dá)狀態(tài)為需要詳細(xì)源信息的用例提供了一個(gè)龐大的數(shù)據(jù)存儲(chǔ)區(qū)(通常是數(shù)據(jù)湖)。 用例包括數(shù)據(jù)探索,數(shù)據(jù)發(fā)現(xiàn)以及基于挖掘,集群,機(jī)器學(xué)習(xí),人工智能以及預(yù)測(cè)算法或模型的面向發(fā)現(xiàn)的分析。
此外,詳細(xì)的源數(shù)據(jù)存儲(chǔ)可以重復(fù)地用于未來的分析應(yīng)用程序,這些應(yīng)用程序的數(shù)據(jù)要求無法事先知道。聚合,標(biāo)準(zhǔn)化和完全清除的數(shù)據(jù)不能像到達(dá)狀態(tài)的數(shù)據(jù)那樣靈活或廣泛地重新利用。
并行數(shù)據(jù)質(zhì)量。如今,Hadoop,數(shù)據(jù)湖和其他大數(shù)據(jù)環(huán)境的最佳實(shí)踐是維護(hù)大量的詳細(xì)原始數(shù)據(jù)存儲(chǔ),作為一種源歸檔。用戶無需轉(zhuǎn)換源,而是制作需要質(zhì)量改進(jìn)的數(shù)據(jù)子集的副本,并將數(shù)據(jù)質(zhì)量功能應(yīng)用于子集。同樣,數(shù)據(jù)科學(xué)家和分析師創(chuàng)建了所謂的數(shù)據(jù)實(shí)驗(yàn)室和沙箱,以在其中改進(jìn)數(shù)據(jù)以進(jìn)行分析。這種“并行的數(shù)據(jù)質(zhì)量”對(duì)于保留大數(shù)據(jù)的原始價(jià)值,同時(shí)通過成熟的數(shù)據(jù)質(zhì)量功能創(chuàng)造另一種價(jià)值是必要的。
上下文相關(guān)的數(shù)據(jù)質(zhì)量。如今,分析用戶傾向于對(duì)大數(shù)據(jù)子集進(jìn)行盡可能少的修改,因?yàn)榇蠖鄶?shù)現(xiàn)代分析方法都傾向于與原始的詳細(xì)源數(shù)據(jù)配合使用,并且分析通常依賴于發(fā)現(xiàn)的異常情況。例如,非標(biāo)準(zhǔn)數(shù)據(jù)可能是欺詐的跡象,而異常值可能是新客戶群的預(yù)兆。作為另一個(gè)示例,可能需要詳細(xì)的源數(shù)據(jù)來準(zhǔn)確量化客戶資料,完整視圖和績(jī)效指標(biāo)。
慧都大數(shù)據(jù)分析平臺(tái)「GetInsight®」升級(jí)發(fā)布,將基于企業(yè)管理駕駛艙、產(chǎn)品質(zhì)量分析及預(yù)測(cè)、設(shè)備分析及預(yù)測(cè)等大數(shù)據(jù)模型的構(gòu)建,助力企業(yè)由傳統(tǒng)運(yùn)營(yíng)模式向數(shù)字化、智能化的新模式轉(zhuǎn)型升級(jí),抓住數(shù)據(jù)經(jīng)濟(jì)的發(fā)展勢(shì)頭,提供管理效能,精準(zhǔn)布局未來。了解更多,請(qǐng)聯(lián)系。
慧都大數(shù)據(jù)專業(yè)團(tuán)隊(duì)為企業(yè)提供商業(yè)智能大數(shù)據(jù)平臺(tái)搭建,免費(fèi)業(yè)務(wù)咨詢,定制開發(fā)等完整服務(wù),快速、輕松、低成本將任何Hadoop集群從試用階段轉(zhuǎn)移到生產(chǎn)階段。
本站文章除注明轉(zhuǎn)載外,均為本站原創(chuàng)或翻譯。歡迎任何形式的轉(zhuǎn)載,但請(qǐng)務(wù)必注明出處、不得修改原文相關(guān)鏈接,如果存在內(nèi)容上的異議請(qǐng)郵件反饋至chenjj@fc6vip.cn
文章轉(zhuǎn)載自: