【干貨】一文讀懂工業大數據的算法與模型基本知識與應用
隨著信息化和工業化的深度融合,在目前的工業企業產業鏈中,二維碼、RFID、工業傳感器、自動控制系統、工業互聯網、ERP、CAD/CAM/CAE等得到了越來越廣泛的應用,大量在工業生產活動中產生的與經營和設備相關的數據被實時收集并存儲,特別是互聯網、移動互聯網和物聯網技術的應用使得大家對這些數據的關注度也越來越高,對這些工業大數據的深入分析和利用有助于改進生產工藝、提高生產效率、降低生產成本、提升產品附加價值。
而算法和模型則是大數據分析體系中關鍵的核心問題,因此,本次慧都大數據對相關的基本概念和算法計算做一個系統的梳理和介紹。
算法的基本概念
算法/演算法/算則法(algorithm)為一個計算的具體步驟,常用于計算、數據處理和自動推理。英文名稱“algorithm”歐幾里得算法被人們認為是史上第一個算法。邱奇-圖靈論題認為“任何在算法上可計算的問題同樣可由圖靈機計算”并提出一種假想的計算機的抽象模型,這個模型被稱為圖靈機。圖靈機的出現解決了算法定義的難題,我們可以認為算法就是一系列為了解決問題和實現一定目標而設定的相關規則。
算法和模型是大數據分析系統中的兩個問題,很多時候人們無法將這兩個概念準確的區分開來,或者在某些場景下經常把算法和模型當做是同一個概念。實際上,算法和模型是有緊密聯系的。
數據分析的算法是一般規則,所采用的方法是具有通用性和一般性的,如果需要用算法來解決實際的問題,達到商業的價值,就需要將算法和實際的應用場景結合起來,將算法得到的結果賦予相應的含義,提供決策支持或分析結果,將算法和業務場景結合起來,并對輸入和輸出的結果進行業務上的處理,就是大數據分析的建模過程,得到的解決方案就是大數據分析模型。
算法的基本特征
確定性:算法中每個步驟都是明確的,對結果的預期也是確定的,例如在預測中的指數平滑算法中,同樣的輸入數據和平滑系數,得到的結果是確定的,并且無論算法運行多少次,得到的結果都是相同的。
有窮性: 算法必須是有限個步驟組成的過程,步驟的數量可能是幾個,也可能是幾百個,但是必須有確定的結束條件。在類似遺傳算法中,迭代次數或者結果迭代的條件也都是確定的,這種特征保證了算法的效率,同時也是在運行成本和運算結果滿意度之間的平衡方式,特別對于一些管理系統中的優化算法,是不可能得到最優解的,只能在可接受的運行效率下得到相對滿意的解。
可行性: 算法中的每一個步驟都是可行的,只要有一個不可行,算法就是失敗的,或者不能被稱為算法。
輸入和輸出: 算法解決特定的問題,問題來源是算法的輸入,期望結果是算法的輸出。
目前大數據分析的算法主要還是數據挖掘算法,它大量采用了統計學的思想,原理方法和工具,比如聚類分析、相關分析、主成分分析、回歸分析和序列分析等,但是相比于傳統的統計學方法,工業大數據的數據挖掘算法有著以下幾個方面的區別:
- 工業大數據的數據源樣品量巨大,相比于統計學中樣本數量大于30就稱之為大樣本的計量,工業大數據的樣本量往往上百萬級別的。
- 工業大數據的數據來源和質量與統計學不同。工業大數據的數據來源是實際的工業過程和物聯網,對處理和分析的實時性要求很高,這是傳統統計學的分析方法中很難做到的。
- 工業大數據分析面對的數據不僅包括傳統統計學中的結構化數據,也包括非結構化和異型數據。
- 傳統的統計學方法在對大規模數據進行處理時的效率較低,因此神經網絡和遺傳算法等機器學習和人工智能算法是工業大數據經常采用的方法。
常見算法及分類介紹
01.預測算法
預測算法,顧名思義就是對某個問題做出預測,通常說來預測的目標是數字形式的連續值,例如房價、GDP等等。根據預測方法的不同,又可以分為外生預測和內生預測。
例如預測產品的需求量,外生預測是根據會影響物流需求量的外部因素,例如地理位置、經濟發展水平等對某個區域的物流需求量進行估計,典型的例子是線性回歸,將希望預測的物流需求量作為因變量,位置和經濟發展水平作為自變量,用一個算式將二者之間的關系表示出來,物流需求量=a*位置+b*發展水平,求a和b的過程就是線性回歸算法的過程。很多監督類算法都具有數值預測能力,例如:神經網絡、決策樹、貝葉斯網絡、KNN、SVM等。
而內生預測,主要是指時間序列分析,則是通過物流需求量的歷史變化估計其未來趨勢,通過分解歷史變化中的總體趨勢、周期性、季節性、波動性等要素,預測未來值。例如ARIMA,移動平均、指數平滑等。
還有一類是主觀預測法,例如德爾菲法,層次分析法AHP等,這在大數據分析中作為專家知識對其他預測方法就行修正,或者作為平滑系統、移動平均系數的先驗條件。
02.分類算法
分類算法,也被稱作有監督算法,主要是針對離散屬性值的判斷和預測,如故障檢測和診斷、客戶細分在某些方面與預測算法類似,都是對一個預先存在的目標變量進行估計。但是,預測算法的目標通常是數字形態的值,而分類算法則是一個類別。一個典型的例子是設備的故障診斷。這時候,目標是設備“是/否”正常運行或者,也就是說是一個類別。
我們可以利用設備已有的運行參數和故障狀態建立一個分類模型,這部分已有的用戶中包含那些正常運行和不同故障等級的運行參數,然后就可以用這個分類模型判斷一個新的設備運行狀態參數是否正常運行。用來建立模型的那部分數據叫做“訓練數據”。
分類算法是工業大數據分析中應用中常的一類算法,它包含經典的決策樹算法貝葉斯分類算法、邏輯回歸、判別式,也包含支持向量機、神經網絡這些較新的方法。分類算法的模型在實際應用中經常表現為一個“黑箱”,只要能得到滿意的分類結果,模型內部的細節可能是不可見的。
03.細分算法
與監督算法相對應的是也被稱為無監督算法的一類細分算法,它和分類算法相類似的地方是,它們的目的都是把數據分成幾個不同的類別。但是,分類算法的類別是已經存在的,就像前面提到的設備故障診斷,我們能夠對設備已有的運行狀態參數進行故障等級的劃分。但細分算法不同,它沒有這樣一個預先分好的類別,而是根據數據本身的分布特點,“自然而然”地劃分出類。
細分算法常見的應用是客戶細分,購物中心根據會員的消費金額、消費頻次和最近一次消費時間將會員劃分為不同價值的群體。在實施細分算法之前,我們并不知道這些會員可能被分為幾類,每個類別是什么,只有建立細分模型之后,才能根據劃分出類別在這三個方面表現出的特點歸納出每一類具體是什么。
在工業生產中,細分算法往往應用于工藝優化,比如對車間生產歷史數據的細分算法,得到工藝參數與產品質量、能耗水平的影響關系,從而提升制造水平。對生產過程和設備使用過程中異常點的細分,對設備潛在性能提升提供依據。
細分算法中主要的就是聚類,主要有基于距離的層次聚類和k-means聚類,基于密度的DBSCAN聚類,以及模糊聚類和核聚類等方法。
04.關聯規則算法
關聯規則的主要目標在于發現數據中所存在的關系,這種關系會以規則的形式表現出來。例如購物籃分析就是典型的關聯規則算法的應用場景。它的目標是發現消費者在超市購買商品時哪些商品同時購買的機會比較高,或者購買某一項商品時,同時購買哪個商品的幾率比較高。通過這樣的分析,我們就可以發現購買商品之間的關聯關系,從而實現優化貨架擺放、提升銷售額的目的。
關聯規則算法可以作為最終的算法目標,也可以作為其他算法的手段,比如通過關聯規則算法找出某些因素之間的相關性,作為數據降維的手段,或者作為回歸分析的依據。
關聯規則經典的算法是Apriori算法,但是由于它本身具有適應嗎窄、會產生大量中間集的缺陷,許多專家學者提出了一些改進的算法提供Apriori算法的效率,包括基于抽樣技術、基于動態的項目集計數、基于劃分的方法、基于hash計數以及事務壓縮等方法。除此之外,有出現了其他的算法,其中頻繁樹(FP-Tree)算法的應用也十分廣泛。
05.數據融合算法
數據融合算法主要是把數據融合的思想引入到工業大數據的預處理過程中,加入數據的智能化合成,產生比單一信息源更準確、更完全、更可靠的數據進行估計和判斷,解決工業大數據的數據源中存在的重復、冗余、錯誤和噪聲。比較常見的一個場景是對傳感器測量數據誤差的處理,假設在工業設備中,有額定的理論運行參數,同時傳感器實時監測到一套運行參數,兩種途徑得到的數據均有誤差,則可以用數據融合算法得到更為滿意更為可靠的數據源。
常用的數據融合算法有貝葉斯估值算法、遞歸加權最小平方法、卡爾曼濾波、小波變換的分布式濾波算法、馬爾科夫隨機場、最大似然法、聚集分析、表決邏輯、信息熵等算法。
慧都大數據分析平臺為您提供從數據對接,數據準備,數據建模,可視化分析的端到端解決方案,聚焦制造業,為制造企業提供端到端的工業大數據分析平臺,洞察數據的應用價值,讓決策更智能。
歡迎撥打慧都熱線023-68661681或咨詢,我們將幫您轉接大數據專業團隊,為您免費定制分析方案!