初探未來十年,Cloudera 對待數據的全新方式

雲棲號資訊:【點擊查看更多行業資訊
在這裏您可以找到不同行業的第一手的上雲資訊,還在等什麼,快來!

1977 年 9 月 5 日,旅行者一號發射升空,攜帶了一張鍍金銅質磁盤唱片記載着人類的聲音,科學,影像,音樂,思想和情感,駛入了浩瀚的宇宙。這是人類具有歷史意義的一次數據的時空遷移,將數據從地球發向宇宙深處,發送給未來的數據接收者。

時隔 50 多年後的今天,隨着計算機技術,傳感器技術以及互聯網技術的發展,人類的數據總量已經達到了前所未有的規模。數據充斥着每個人的日常生活,對企業的每天都面臨着管理數據以及使用數據的挑戰。

隨着數據規模的指數增長,存儲數據的載體,數據的處理技術,數據的使用的方式方法都在不斷的演進。企業用戶對數據價值的預期也不斷增加。因此企業用戶期望通過數據能快速帶來商業價值,同時對數據的安全,數據隱私與合規等要求越來越高。

根據哈佛的商業評論最近的一份的研究報告顯示,越來越多的企業在尋求企業級的成熟穩定的平臺解決方案,在完成基本的數據攝取、數據整合批處理以及數據倉庫的功能的基礎上,還能面向業務人員提供即時互動的分析工具, 以及提供建模、數據科學、機器學習,甚至是一些深度訓練的平臺工具。

在今天的這篇文章裏,筆者想跟大家分享一下 Cloudera 這家企業,他們對於企業級數據管理有怎樣的深刻理解,在數據管理需求不斷更替的今天是如何推動開源和創新的。

2008 年, Cloudera 成立,此後便順應技術發展潮流,持續關注如何能讓用戶更快的從數據裏獲取價值。2019 年,Cloudera 提出了全新的對待數據的方式—— Cloudera Data Platform (以下簡稱 CDP),賦能企業 IT 從而應對新的商業挑戰。據瞭解,CDP 是世界上第一款企業數據雲平臺產品。 同時,Cloudera 的開源的商業模式發展戰略以及新的開源許可模式,爲 CDP 未來的發展提供原動力。

一眼十年,數據管理需求日新月異

以 2020 年爲時間節點,回看過去十年以及展望未來十年,企業對數據的應用需求有很大的不同。

過去的十年裏,用戶需求主要集中在解決高效的存儲,並且能夠同時處理大規模數據。通過分佈式的方式把數據分散在不同的服務器上,以分而治之的方式來併發處理數據,避免網絡傳輸帶來的消耗和延遲等。Hadoop 在過去十年裏解決用戶需求的同時也在不斷自我演進。

Cloudera’s Distribution Including Apache Hadoop(CDH)作爲衆多 Hadoop 分支的一種,得到了企業用戶廣泛的認可和使用。

未來十年裏,現有的數據管理使用架構與解決方案面臨新的諸多挑戰。例如龐大集羣規模部署時間長,企業實際應用中缺乏高效數據隱私與安全管理,數據災難恢復能力弱,多雲及混合雲跨雲管理繁瑣等。都需要在現有技術架構基礎上進行延展從而來應對這些新的挑戰。Cloudera 的全新 CDP 產品就是爲了幫助用戶應對未來的新挑戰。

從 Cloudera 數據架構的迭代,看數據管理方式的轉變

Cloudera 在 Hadoop 基礎架構下發展出的商業版 CDH,是第一代架構的代表,主要關注在本地部署雲上集中同位的存儲和計算以及大型共享集羣;Cloudera 認爲的第二代架構,主要關注在公有云上的存儲與計算解耦和多集羣,例如 Amazon EMR;Cloudera 目前提出的平臺方案 CDP 被認爲是第三代架構,主要關注在多雲以及混合雲上的存儲與計算解耦,多租戶以及容器化的 SaaS 體驗。

去年年初,Cloudera 正式完成與 Hortonwork 的合併,新公司採用 Cloudera 品牌,新數據平臺將 HDP(Hortonworks 數據平臺)和 CDH(Cloudera Distribution Hadoop)的功能進行結合,加入安全治理堆棧,支持百分百開源,同時支持國際主流的五大公有云平臺。
此後,Cloudera 開始全面轉變爲一家數據雲公司,致力於建設四個方面的能力:

  • 在任何雲上面,不管是在公有云、私有云,混合雲,還是公有云上的任何一朵雲,都可以來運行 Cloudera 的數據平臺。
  • 提供全數據生命週期支持,不只是提供 Hadoop 技術本身的支持,還提供在整個數據生命週期所有使用到的工具和平臺,包括數據採集、IoT、數據分析、BI、數據倉庫、機器學習、數據科學等。
  • 在數據安全和治理上,提出了共享的數據體驗架構,實現存儲層和計算層的解耦,更好的管理源數據,同時實現數據存儲分離。對數據的安全、治理、血緣和審計方面,提供了單獨的 SDX 工具
  • 延續 100% 開源宗旨,保證產品開源開放。

以上四方面能力最終轉化爲 Cloudera 的雲數據平臺軟件即爲 CDP 產品。

CDP 可以爲企業從數據戰略上提供完整的服務,其多雲和混合雲的統一平臺解決方案,可以實現快速部署,並靈活適用於企業各自的雲使用策略,節約成本同時實現快速上線。全數據生命週期的支持可以讓企業更加高效的使用數據和挖掘數據,提升企業數據價值。同時數據安全治理爲分佈各種雲上的數據提供有效管理。

因此,現在的 CDP,既能提供多雲與混合雲的統一平臺解決方案,又可以支持企業全數據生命週期中提升數據價值,還能實現企業雲上的數據安全治理。

管理多雲、公有云、私有云與混合雲的新理念

企業在使用雲的策略上,通常會根據其業務特點選擇公有云或私有云,有的企業也會選擇公有云 + 私有云,並構建混合雲環境。Cloudera 在多雲以及混合雲的使用方面提出了很多新的理念和實踐。

1、私有云對象存儲標準
對公有云來說,原生雲服務商建立了相關的對象存儲標準,但私有云目前確沒有對應的標準。Cloudera 通過主推 Ozone 爲私有云提供未來的對象存儲標準。

Ozone 是 Cloudera 在 2019 年創建並引入的一個 Hadoop 子項目,是一個開源的對象存儲項目。引入 Ozone 是爲了能夠徹底解決 HDFS 文件數量的限制的弱點。目前很多企業用戶在部署大規模集羣的時候,都需要使用 HDFS 聯邦,而 HDFS 聯邦在實際應用中也存在各種問題,並不是最佳的解決方案,隨着集羣規模不斷的增長,侷限性也越發的明顯。

Cloudera 在不斷研發一些底層的新的存儲技術,計劃在今後幾年能夠替換 HDFS,爲企業用戶部署大規模集羣提供更加優化的解決方案。

2、數據存儲與數據處理的集成
結合 CDP 存儲跟計算分離的概念,Cloudera 將 Ozone 定位爲私有云的數據存儲引擎。Ozone 可以被理解爲私有云裏面的“S3”,所有數據都是存放在 Ozone 裏面,而分離的計算集羣都是通過源數據,網絡遠程處理。未來規劃中,Hive、Spark、Impala 等一系列的處理引擎都會跟 Ozone 集成。

同時私有云版上跟公有云版進行映射,從而使存儲的接口和計算引擎都可以在 Ozone 上面可以實施。由此不但可以滿足用戶使用對象存儲接口的需求,而且可以靈活的去分配計算資源,給開發帶來很多好處。

3、混合雲體驗
從不同雲的使用上講,CDP 提供公有云,Data Center,和私有云版本,提供體驗相同的各種數據服務。例如流式處理,Hive 批量處理,Spark 和即時查詢等。讓用戶在私有云環境裏面,可以獲得跟公有云一樣的體驗。

用戶使用 CDP 在自己搭建部署的雲和使用 CDP 在原生雲服務商的公有云時,CDP 都會提供統一的用戶界面和相同的使用的方式。避免了用戶重複學習,同時大大節約了運維集羣的時間。

開源商業模式及 CDP 發展戰略

開源是整個軟件技術創新的一個潮流,幾乎所有最新的技術都是以開源的形式在傳播和推廣。同時開源會成就技術的多樣化,一個百花齊放社區的文化可以持續不斷的發展。因此,Cloudera 會藉助開源強大的創新能力,不斷提升對用戶的服務。

Cloudera 曾公開表示,作爲一家開源公司,Cloudera 會延續 100% 開源的宗旨,並保證產品的持續開源開放。Cloudera 的新的授權許可方式,整合了 Hortonworks 和 Cloudera 各自在之前使用的授權許可方式,並在合併 Hortonworks 之後做出了一些新的改變:

  • 在授權許可方面,Cloudera 所有產品均將採用 OSI 批准的許可證,即 Apache 軟件許可證 (ASL) 或 Affero 通用公共許可證 (AGPL)。 在此基礎上,Cloudera 貢獻代碼的由 Apache 軟件基金會託管的所有開源項目將繼續由 ASF 監管。同時,Cloudera 的代碼貢獻模式沒有改變,第三方項目將繼續採用 upstream first 方式。第三方項目代碼庫的公開源僅保持在 upstream。
  • Cloudera 將採用類似紅帽的開源模式,市場及全球企業用戶已接受該模式。從 2019 年 11 月開始,產品的二進制文件都將置於付費專區需訂閱後才能訪問。將二進制文件置於付費專區的原因是它爲廠商提供了一定程度的保護。二進制文件包含 Cloudera 特定的知識產權,將許多分散的開源項目整合到企業級的功能系統中。
  • CDP 會對 Hadoop 開源組件進行精選與整合,結合新創建的開源項目,提供跨雲服務,全數據生命週期支持,數據安全和治理等,滿足企業級用戶的需求,爲企業提供完整的雲數據服務。

Cloudera 對以上新的開源許可策略與其業務模型進行了有機的結合。在最終制定策略方向之前,詳細的與客戶,行業專家,律師,同行公司和員工進行了討論與諮詢。採用目前類似紅帽開源模式,是更爲友好的開源軟件企業化商業模式服務於用戶,突出了軟件產品的“面向服務”本質,Cloudera 的軟件產品按訂閱方式提供,消除了購買軟件的麻煩。

購買訂閱服務與購買私有軟件許可相比,訂閱提供用戶所需的一切,不需要用戶端訪問許可,不需要持續爲升級投入成本,沒有服務支持限制以及隱藏費用。購買訂閱的用戶可以獲得諸多價值,例如:

  • 訂閱使用戶可以持續訪問 Cloudera 的商業軟件,獲得更新與維護,包括所有安全更新和漏洞修復。
  • 訂閱不依賴於特定的版本或架構,讓用戶無需任何代價即可升級系統,易於基於雲的服務器上輕鬆部署。
  • 購買訂閱可以獲得 Cloudera 的全球服務支持,解決用戶的後顧之憂。服務支持與用戶合作過程中,也打開了用戶與 Cloudera 研發團隊的通道,在與用戶充分的溝通過程中,研發團隊也能更好的根據用戶的反饋研發更加貼近用戶需求的產品。
  • Cloudera 擁有 700 多個研發工程師,其中大概 300 名左右的 committers,同時其系列產品在全球幾千個大型客戶經過廣泛的驗證,用戶之間的普遍問題可以得到快速的解決。因此企業用戶訂閱 Cloudera 的企業版產品,不需要建立各自的技術團隊進行平臺底層研發和日常維護,讓企業最大限度的節省平臺成本投入。
  • 用戶訂閱本質上是購買 Cloudera 所提供的服務,使用戶能夠釋放出維護軟件版本所需的大量寶貴的工程師資源,也不必擔心轉換平臺供應商所帶來的成本投入。令用戶能將更多資源投入在能產生更多收入的應用和產品服務上。
  • Cloudera 開發了許多開源項目,這些項目已經成爲行業標準,但是沒有一家公司可以成爲創新唯一來源。通過投資 Spark、Kubernetes 和 Kafka 等開源項目,通過訂閱服務,用戶可以獲得可持續發展的長期架構。

Cloudera 通過以上開放包容的商業策略,最大限度的發揮開源社區創新的原動力,真誠的服務於廣大用戶。

結語

在應對企業用戶新需求方面,CDP 通過簡化操作,減少了在整個企業機構內上線新用例的時間。同時使用機器學習來智能地自動調整工作負載,以便更經濟有效地使用雲基礎架構。如此一來,CDP 可以管理任何環境中的數據,包括多種公共雲、裸機、私有云和混合雲環境。

此外,藉助共享數據體驗技術(SDX)、CDP 中的安全和治理功能,IT 人員可以放心地在任何地方提供針對數據運行的安全分析。

綜上,筆者系統介紹了 Cloudera 的集成數據平臺解決方案,它的特點是讓企業可以更加靈活的組建符合各自需求的雲服務,最終通過使用 CDP 進行統一管理。同時,其數據隱私以及安全管理方面的設計,可以幫助企業保證日常的安全運營。此外,Cloudera 在堅持開源的基礎上,持續探索關於開源生態、商業模式的更多可能性。

未來,我們期待可以看到 Cloudera 創造更多的產品模式和服務,爲企業數據管理帶來更多本質上的進化。

【雲棲號在線課堂】每天都有產品技術專家分享!
課程地址:https://yqh.aliyun.com/zhibo

立即加入社羣,與專家面對面,及時瞭解課程最新動態!
【雲棲號在線課堂 社羣】https://c.tb.cn/F3.Z8gvnK

原文發佈時間:2020-04-22
本文作者:郭鋒
本文來自:“InfoQ”,瞭解相關信息可以關注“InfoQ

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章