Cloudera果然向雲出手了!新機器學習服務採用雲原生路徑!

今年10月份,Cloudera宣佈與Hortonworks合併,這兩家Hadoop領域的頭部廠商爲了抗住主流雲供應商亞馬遜、微軟和谷歌的壓力不得不走到一起,根據當時的報道,雙方之後會將重心轉移到雲上。在預計與Hortonworks合併之前的最後一份季度報告中,Cloudera終於向雲平臺出手,公開DSW的全新雲原生預覽版並附帶原生機器學習服務Cloudera ML,這是Cloudera的首個百分百Kubernetes產品。

Cloudera認爲市場的一個重要趨勢是遷移到雲端,雖然只有大約25-30%的Cloudera基礎服務在雲中運行工作負載,但云採用的趨勢是明確無誤的。Ovum預測,明年將有一半新大數據服務在雲上運行;第二個趨勢是AI,更具體地說是機器學習。Cloudera最初發布DSW就是爲了構建、更改和部署數據科學模型,只是最初的DSW沒有云端版本。

傳統意義上,機器學習服務通常運行在Hadoop之上,但Apache Hadoop社區已着手將Hadoop與HDFS分離,以便雲對象存儲也可成爲一流公民。由於Hadoop不再是運行大數據或機器學習的唯一場所,所以Cloudera ML無論是在Kubernetes集羣、本地還是公有云上運行都可以。

考慮到Databricks(適用於Spark),Amazon SageMaker,Azure機器學習和Google Cloud AutoML等服務早已大規模推廣,Cloudera現在推出該服務也是有些晚。Cloudera ML通過基於Kubernetes的新架構運行,該架構繞過了內部部署Hadoop集羣時的資源調度工具Yarn。需要說明的是,這並不能取代在Hadoop和YARN上運行現有DSW的方式,只是提供了另一個在Kubernetes環境中運行的版本。

這不是Cloudera第一次支持數據科學或ML工作的容器,通過使用容器,Cloudera可以打包物理部署所需的相互依賴性。鑑於最初的DSW針對運行Hadoop集羣的用戶,因此雲原生版本同樣如此,其實在YARN上運行Spark也可適應相同的部署,但隨着Kubernetes成爲雲原生計算的事實標準,如果Cloudera真的想向雲下手必須接受Kubernetes,而不是Yarn。

Cloudera ML目前處於有限的預覽狀態,且不對所有人開放預覽版本,支持訪問雲對象存儲、HDFS和外部數據庫中的數據,部署在公有云中或最終通過OpenShift部署在私有云中均可。

顯然,Cloudera還將繼續支持內部部署的大數據服務,畢竟這是當前服務的核心。作爲一個向雲計算擴展的內部部署供應商,Cloudera將通過類似的混合支持開始,並逐漸向雲平臺過渡。支持混合就意味着添加雲原生選項,數據倉庫等其他工作也可能從運行Kubernetes集羣中受益。

這就不禁激起用戶對Hadoop問題的討論,其實Apache社區也在努力讓Hadoop平臺更加適合雲平臺,從分離存儲到容納容器化工作負載,這些都需要一定時間纔可以完成。一旦你用雲對象存儲替代HDFS,用Spark替換MapReduce,也沒有什麼是無法在雲平臺上運行的,這就是雲對多種類型工作負載的管理和支持。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章