Prashanth Southekal談應用機器學習，如何分析各類數據

DBP研究所管理負責人Prashanth Southekal上月在2019年企業數據世界大會上舉辦了一個研討會，主題是應用機器學習技術以及何時使用不同的ML算法。

機器學習（ML）使計算機能夠使用大量數據集自動學習和適應。Southekal談到了五種主要的分析方法和三種機器學習方法。他還討論了ML算法，如決策樹、支持向量機（SVM）、邏輯迴歸、線性迴歸和聚類。

InfoQ採訪了Southekal，瞭解他關於應用機器學習領域的會議環節和數據分析。

InfoQ：如何對數據進行分類，對每種類型的數據進行哪種分析？

Prashanth Southekal：廣泛的數據，尤其是商業數據，主要可以分爲三種類型。首先，從數據存儲和處理的角度，可以將業務數據分爲結構化數據和非結構化數據。其次，從數據集成的角度來看，業務數據可以是管理類別（如工廠和地理位置）的參考數據，管理業務實體（如供應商和產品）的主數據，以及捕獲業務事件（如採購訂單和發票）的事務數據。第三，從數據分析的角度來看，業務數據可以分爲標定數據（用於管理類別，如產品描述）、有序數據（用於捕獲有序數據集，如付款項和交付優先級）和連續數據（用於處理價格和數量）。

現在進入問題的第二部分——對每種類型的數據執行哪種類型的分析。在我看來，分析是基於你的問題使用數據。所以，你問的問題在分析學中非常重要。這些問題的答案來自於算法，算法的選擇基於數據類型。例如，如果問題是“貨物會按時交貨嗎？”，答案將會是“Yes/No”，答案將會使用logistic迴歸算法得到。另一方面，如果問題是“貨物需要多長時間才能送到？”，答案將是一個數值，該數值可能會使用線性迴歸算法得到。

InfoQ：你能談談一些數據質量維度以及它們如何影響數據質量嗎？

Southekal：數據質量是對數據在給定上下文中是否適合服務於其目的的評估。在我看來，有12個數據質量維度，包括完整性、一致性、有效性、基數性、準確性、正確性、可訪問性、安全性、及時性、冗餘、覆蓋率和完整性。在我的書Data for Business Performance中，我詳細解釋了這些數據質量維度。然而，數據質量並不意味着所有這12個維度都應該一直滿足。數據質量維度的選擇取決於適用性、目的和上下文。

InfoQ：選擇ML解決方案時需要考慮什麼？

Southekal： 在我看來，如果一個解決方案滿足四個關鍵條件，那麼就可以認爲它是ML解決方案：

輸出是不斷優化的，即數據持續不斷地攝入到ML算法中。
在獲取和應用輸出時，很少（甚至沒有）人爲干預。
輸出是概率的形式，因爲解決方案是面向未來狀態的。
輸出主要提供關於事件或事務（實體或類別）的問題的答案。

InfoQ：你能談一下你在研討會中談到的四種ML算法：迴歸、分類、聚類和關聯嗎？

Southekal：ML算法有數百種，但我選擇了這四種類型的ML算法，即迴歸、分類、聚類和關聯，因爲它們在業務中非常常用。

迴歸算法基於一組自變量預測因變量的值。

分類算法利用輸入的數據對觀測結果進行分類。

聚類算法根據一些相似的條件將一組觀測值分配到聚簇中。

關聯ML算法揭示了項之間是如何關聯的。

InfoQ：對於想學習機器學習技術的數據庫專業人士，您有什麼建議嗎？

Southekal：選擇一項你和你的公司都能輕易獲得的技術。例如，如果你是一個採購專家，在一家在SAP ERP中完成採購活動的公司工作，那麼最好利用SAP的分析工具，如BI/BOBJ、Leonardo等。你將有一個良好的開端，因爲分析所需的數據已經在你的SAP環境中，並且你可以訪問SAP生態系統。如果你剛剛開始你的職業生涯，可以嘗試R或Python，因爲它們都是具有大型社區的開源工具。但是，要始終注重應用工具解決問題，而不是學習工具本身。除了在技術方面的技能，還要在統計和線性代數方面培養良好的技能。描述性分析需要統計，而預測分析和ML需要線性代數和統計。網上有許多免費的優質資料。在選擇昂貴的課程之前，可以先嚐試一下它們。

查看英文原文：Prashanth Southekal on Applied Machine Learning

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Prashanth Southekal談應用機器學習，如何分析各類數據

Service Mesh終極指南（第二版）：次世代微服務開發

深入淺出雲原生架構（三）：服務編排和服務網格

深入淺出雲原生架構（一）：架構演進與成熟

揭開平臺的神祕面紗：Cloud Foundry、Kubernetes、Eirini與Knative

谷歌開發者佈道師談企業中採用Kubernetes的最佳實踐

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結