Prashanth Southekal談應用機器學習,如何分析各類數據

DBP研究所管理負責人Prashanth Southekal上月在2019年企業數據世界大會上舉辦了一個研討會,主題是應用機器學習技術以及何時使用不同的ML算法。

機器學習(ML)使計算機能夠使用大量數據集自動學習和適應。Southekal談到了五種主要的分析方法和三種機器學習方法。他還討論了ML算法,如決策樹、支持向量機(SVM)、邏輯迴歸線性迴歸聚類

InfoQ採訪了Southekal,瞭解他關於應用機器學習領域的會議環節和數據分析。

InfoQ:如何對數據進行分類,對每種類型的數據進行哪種分析?

Prashanth Southekal:廣泛的數據,尤其是商業數據,主要可以分爲三種類型。首先,從數據存儲和處理的角度,可以將業務數據分爲結構化數據和非結構化數據。其次,從數據集成的角度來看,業務數據可以是管理類別(如工廠和地理位置)的參考數據,管理業務實體(如供應商和產品)的主數據,以及捕獲業務事件(如採購訂單和發票)的事務數據。第三,從數據分析的角度來看,業務數據可以分爲標定數據(用於管理類別,如產品描述)、有序數據(用於捕獲有序數據集,如付款項和交付優先級)和連續數據(用於處理價格和數量)。

現在進入問題的第二部分——對每種類型的數據執行哪種類型的分析。在我看來,分析是基於你的問題使用數據。所以,你問的問題在分析學中非常重要。這些問題的答案來自於算法,算法的選擇基於數據類型。例如,如果問題是“貨物會按時交貨嗎?”,答案將會是“Yes/No”,答案將會使用logistic迴歸算法得到。另一方面,如果問題是“貨物需要多長時間才能送到?”,答案將是一個數值,該數值可能會使用線性迴歸算法得到。

InfoQ:你能談談一些數據質量維度以及它們如何影響數據質量嗎?

Southekal:數據質量是對數據在給定上下文中是否適合服務於其目的的評估。在我看來,有12個數據質量維度,包括完整性、一致性、有效性、基數性、準確性、正確性、可訪問性、安全性、及時性、冗餘、覆蓋率和完整性。在我的書Data for Business Performance中,我詳細解釋了這些數據質量維度。然而,數據質量並不意味着所有這12個維度都應該一直滿足。數據質量維度的選擇取決於適用性、目的和上下文。

InfoQ:選擇ML解決方案時需要考慮什麼?

Southekal: 在我看來,如果一個解決方案滿足四個關鍵條件,那麼就可以認爲它是ML解決方案:

輸出是不斷優化的,即數據持續不斷地攝入到ML算法中。
在獲取和應用輸出時,很少(甚至沒有)人爲干預
輸出是概率的形式,因爲解決方案是面向未來狀態的。
輸出主要提供關於事件事務(實體或類別)的問題的答案。

InfoQ:你能談一下你在研討會中談到的四種ML算法:迴歸、分類、聚類和關聯嗎?

Southekal:ML算法有數百種,但我選擇了這四種類型的ML算法,即迴歸、分類、聚類和關聯,因爲它們在業務中非常常用。

迴歸算法基於一組自變量預測因變量的值。

分類算法利用輸入的數據對觀測結果進行分類。

聚類算法根據一些相似的條件將一組觀測值分配到聚簇中。

關聯ML算法揭示了項之間是如何關聯的。

InfoQ:對於想學習機器學習技術的數據庫專業人士,您有什麼建議嗎?

Southekal:選擇一項你和你的公司都能輕易獲得的技術。例如,如果你是一個採購專家,在一家在SAP ERP中完成採購活動的公司工作,那麼最好利用SAP的分析工具,如BI/BOBJLeonardo等。你將有一個良好的開端,因爲分析所需的數據已經在你的SAP環境中,並且你可以訪問SAP生態系統。如果你剛剛開始你的職業生涯,可以嘗試RPython,因爲它們都是具有大型社區的開源工具。但是,要始終注重應用工具解決問題,而不是學習工具本身。除了在技術方面的技能,還要在統計和線性代數方面培養良好的技能。描述性分析需要統計,而預測分析和ML需要線性代數和統計。網上有許多免費的優質資料。在選擇昂貴的課程之前,可以先嚐試一下它們。

查看英文原文Prashanth Southekal on Applied Machine Learning

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章