Gartner報告：我們正處於數據科學與機器學習工具 “大爆炸”的時代

日前， Gartner 發佈了 2019 年版面向數據科學與機器學習工具的魔力象限。Gartner 的魔力象限是在某一特定時間內對市場情況進行的圖形化描述，根據 Gartner 的定義，它描述了 Gartner 依據標準對該市場內的廠商所進行的分析。Datanami 的 Alex Woodie 爲我們解讀了 2019 年版面向數據科學和機器學習工具的魔力象限。

Gartner 表示，目前用於數據科學的工具正在迅速發生變化。該公司在其最新的數據科學和機器學習平臺的報告中稱，我們正處於 “大爆炸” 中。

1 月 28 日，Gartner 發佈了《數據科學和機器學習平臺魔力象限》（Magic Quadrant for Data Science and Machine Learning Platforms），並表示：“數據科學和機器學習市場是健康、活躍的，衆多供應商提供了一系列產品。這個市場正在經歷一場‘大爆炸’，這場‘大爆炸’不僅重新定義了應由誰來做數據科學和機器學習，還重新定了數據科學和機器學習應如何實現。”

分析師小組將數據科學平臺定義爲綜合場所，在這裏，數據科學家、民間數據科學家和開發人員不僅可以得到構建數據科學應用所需的所有核心功能，還可以將它們嵌入到現有業務流程和管理中，並對其進行管理和維護。

數據科學和機器學習平臺必須滿足最低要求，幷包括以下工具：

提取和準備數據；
以交互方式探索和可視化數據；
工程數據特徵和構建預測模型；
與周圍基礎設施集成，測試並部署這些模型。

Gartner 數據科學與機器學習平臺魔力象限（圖：Gartner）

Gartner 認爲，整合和凝聚力是關鍵，如果應用程序（尤其是開源產品）只是簡單地將各種包和庫捆綁起來，那麼這樣的產品並不能視爲真正的平臺。

雖然這些核心要求爲數據科學和機器學習平臺奠定了基礎，但不同的供應商在如何實現這些需求上存在着很大的差異。Gartner 指出，專業數據科學家可能更喜歡用 Python 或 R 編寫代碼，而其他人更喜歡數據科學筆記本的易用性，如 Jupyter。還有一些不太懂技術的人更喜歡用鼠標在界面上點擊，因爲對他們來說這樣很直觀。

領導者象限

在領導者象限中，Gartner 列入了四家供應商，包括：KNIME、RapidMiner、TIBCO Software、SAS。

在 Gartner 的評估中，KNIME 名列前茅，這歸功於客戶的大力支持、廣泛的產品組合以及市場上 “最平衡的” 願景之一。蘇黎世公司的產品系列（包括開源 KNIME Analytics 產品和商業 KNIME Server 產品）被譽爲分析領域的 “瑞士軍刀”。對深度學習、中級用戶提供的的易用性以及與其他包集成的高級功能的支持受到了稱讚，然而，性能和可擴展性被視爲弱點，以及對物聯網的吸引力也很有限。

在領導者象限中，Rapid Miner 也是名列前茅，這得益於它在易用性和支持複雜數據科學能力之間的平衡。這款軟件支持深度學習技術並部署到 GPU，Gartner 似乎很喜歡 Rapid Miner 爲機器學習部署提供更高的透明度。它與開源工具的整合有利於數據科學家。主要關注點是數據準備和可視化、許可和定價、模型操作。

TIBCO 從挑戰者象限中邁出了一大步，購買了一系列分析領域的企業，包括 Jaspersoft、Spotfire、Statistica 和 Alpine Data，並將它們整合到統一的平臺中。Gartner 很欣賞 TIBCO 的這一點：提供端到端工作流程集成以及物聯網功能，尤其是流式分析的整合。它潛在的問題包括性能和穩定性、數據管理及操作方面的問題。

SAS 是這份名單上的多年競爭者。實際上它有多個經過評估的平臺。它的 Enterprise Miner 產品在一系列指標中提供了強大可靠的性能，而可視化數據挖掘與機器學習（Visual Data Mining and Machine Learning，VDMML）在數據準備和擴充方面得分很高。很高的客戶滿意度和強大的市場佔有率鞏固了 SAS 作爲領導者的地位。但 Gartner 也指出了 SAS 存在的一些缺點，特別是在定價和產品一致性方面，SAS EM 的用戶體驗並沒有達到公衆的預期，而且 SAS 的開源方式對 Gartner 來說是個問號。

挑戰者象限

挑戰者象限相當空蕩，在這一象限中只有兩家供應商： Alteryx 和 Dataiku。

Alteryx 通過保持其 “執行能力”（Y 軸），但卻失去了一些 “視覺完整性”（X 軸），從而跌出了領導者象限。Gartner 在端到端管道中提及了加州 Irvin 公司的民間數據科學能力，分析師小組表示，儘管 Alteryx 有這種能力，但市場認爲 Alteryx 只是一種數據準備工具，這一觀點掩蓋了它真正的價值。

Dataiku 的數據科學工作室（Data Science Studio，DSS）因其促進不同利益相關者（從數據工程師到科學家）之間合作的方式而獲得好評。Gartner 還喜歡它爲機器學習工作流程帶來的自動化，以及模型投產後的管理和監控。報告稱，Dataiku 存在的一些問題包括可擴展性、定價以及對流式分析和物聯網用例的支持。

有遠見者象限

有遠見者象限如此擁擠不堪，只有不到七家新的供應商在這一象限裏爭奪位置。

Databricks 於 2 月 5 日獲得了 2.5 億美元的風投。Databricks 對整個分析生命週期的支持、對混合雲戰略的支持以及支持各種用戶的能力，給 Gartner 留下了深刻的印象。用戶對基於 Spark 的產品給予了高度評價，據 Gartner 稱，文檔是 Databricks 的加分項之一。然而，定價、合同談判及監視、管理和故障排除與調試的潛在問題都是 Databricks 的潛在弱點。

Gartner 表示，這是 DataRobot 在有遠見者象限中首次亮相，這要歸功於它 “爲增強數據科學和機器學習設定了標準”，客戶因此有了強大的體驗，這有助於公司在已有忠實客戶羣上獲得吸引力。銷售執行、定價、可擴展性問題以及 “增強分析” 空間可能的商品化都是共同關注的問題。

H2O.ai 在 2 月 5 日召開了 H2O 世界大會，由於市場競爭激烈，以及客戶對其能力的一些擔憂，H2O.ai 從領導者象限跌落到有遠見者象限中。但，其核心開源機器學習組件的性能仍然是 H2O.ai 的強項，它基於 GPU 的深度學習和無人駕駛人工智能的自動機器學習能力令 Gartner 印象深刻。但是，對於非開發人員來說，學習曲線過於陡峭，而且缺乏管理能力，數據訪問和數據準備的能力也欠缺，這些都是令人擔憂的問題。

據 Gartner 的說法，Mathworks 在滿足以資產爲中心的行業客戶的需求方面有着 “驚人的力量”（該公司在製造商和工程組織中有着多年的經驗）。因此，MathWorks 從挑戰者象限向有遠見者象限邁出了巨大的一步。它提供的 MATLAB 因其 “民間工程師” 能力而廣受讚譽，而實時流媒體、深度學習和仿真的集成數據準備和支持，給人們留下了深刻的印象。Dings 很難被非工程師使用，而且不支持 Google Cloud Platform，缺乏自動機器學習能力也是其不利因素。

Microsoft 憑藉基於雲端的產品取得了不錯的成績，包括 Azure Machine Learning、Azure Data Factory、Azure HDInsight、Power BI。Microsoft 與第三方合作的方式，尤其是 Databricks 的 Spark 產品，對各種數據角色（包括入門級的機器學習愛好者）的支持也是一個加分項。機器學習過程中的自動化是一個問題，所有不同工具的一致性也是如此。缺乏本地化能力也限制了它的適用性。

儘管 IBM 在 2019 年仍然留在有遠見者象限，但它已經失去了優勢。IBM Watson Studio 產品的全面性得到了 Gartner 的稱讚，該產品爲專家和民間數據科學家提供服務。將 SPSS 建模器集成到 Watson Studio 中也得到了稱讚。但是，IBM 重塑產品和轉變戰略的頻率是 Gartner 關注的問題，因爲獲得完整的端到端功能還需要多個產品的許可授權。

Google 在數據科學和機器學習平臺排名方面表現相當不錯，很大程度上這要歸功於 Google 的雲端上廣泛的可用工具。它的核心數據科學平臺包括 Cloud ML Engine、Cloud AutoML、TensorFlow 和 BigQuery ML。但是 Google 也提供了獨特的硬件，包括 Tensor 處理單元（Tensor Processing Unit，TPU）、Kaggle 衆包以及一系列其他產品。對 Google 來說，可擴展性和速度是 Google 的優勢。但是，這些工具之間缺乏端到端的一致性是個問題，而且也缺乏可用性。另外，缺少本地化產品也是個問題。

特定領域者象限

特定領域者象限有四家供應商。

SAP 的 Predictive Analytics（PA）產品與 HANA 緊密集成，使其適合 SAP HANA 客戶。處理大型 HANA 數據集和江模型部署到 SAP 應用的能力是強項。SAP 對統一機器學習架構的願景也是如此，它與 Leonardo 機器學習基金會相關。然而，產品的一致性、不斷變化的人工智能戰略以及客戶體驗，都是對這家德國巨頭不利的標誌。

Domino Data Lab 從有遠見者象限降級，這主要反映了其感知執行能力的下降。Gartner 很欣賞 Domino 的產品戰略，尤其是它專注於協作和構建端到端解決方案。它與開源和專有產品的整合能力是額外的優勢，它的可擴展性也是如此。但是，根據 Gartner 的調查，Domino 側重於專家數據科學家，這讓民間數據科學家感到不滿，而且它還缺乏一些數據準備、自動化和增強功能。

Anaconda 仍然屬於特定領域者類別。Anaconda 產品的主要優勢在於它能夠接觸開源 Python 社區，該社區繼續推動數據科學的創新。它擴展開源 Python 的能力也是個優勢。但是根據 Gartner 的說法，成功使用 Anaconda 平臺所需的專業知識是一個警示，Python “叢林” 的複雜性也是一個問題。對開源社區的依賴也使客戶在需要某些特定內容時處於劣勢（Gartner 使用了模型操作化的示例），整體的一致性水平也是缺點之一。

Datawatch 是魔力象限的新成員，於 2018 年 1 月收購了 Angoss，Angoss 在該領域擁有超過 20 年的經驗。Datawatch 產品的一致性和易用性得到了 Gartner 的稱讚，其文本分析和優化引擎組件被標記爲高於平均水平。客戶支持也是一個加分項，但，數據準備能力的缺乏，以及產品的總體前景和收購帶來的不確定性拉低了 Datawatch 的成績。

原文鏈接：
https://www.datanami.com/2019/02/08/the-big-bang-of-data-science-and-ml-tools/

Gartner報告：我們正處於數據科學與機器學習工具 “大爆炸”的時代

領導者象限

挑戰者象限

有遠見者象限

特定領域者象限

DAPPER 事務 TRANSACTION

估值62億美元，Databricks會成爲企業AI平臺的黑馬嗎？

後Hadoop世界中的大數據

Gartner報告：我們正處於數據科學與機器學習工具 “大爆炸”的時代

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結