阿里雲飛天技術總架構師唐洪:飛天技術與應用

一年一度的阿里技術論壇(Alibaba Technology Forum)已走進第7個年頭,4月15日,阿里衆多技術領軍人走進清華校園。通過特設的三大技術論壇,參會人員近距離接觸了阿里巴巴在雲計算、大數據、金融、電商等方面的技術創新。

在雲計算與大數據論壇上,來自阿里雲飛天技術總架構師唐洪帶來了以《飛天技術與應用》爲主題的深度分享。下面是精彩內容內容整理。

eb499f00bb6e48fbd6b6e3f90c1e45695d77ae30

圖:阿里雲發展歷程飛天是阿里雲自主研發的大規模分佈式雲操作系統

飛天設計原則

在開始介紹飛天技術前,唐洪和現場觀衆分享了當初判斷要做雲計算需要解決的三個本質問題,而這三個本質問題決定了飛天系統設計的基本原則。

第一個本質問題,大規模。雲計算本質上是隨着互聯網誕生並且爲了解決互聯網的問題產生出來的。根據2012年10月份數據統計,互聯網每天產升2.5EB的數據,並且這個數字每40個月就會翻一番,處理這樣大的數據一定要解決大規模計算的問題。拿淘寶爲例,淘寶上每天完成上百億元規模交易,同時要在6小時內(早晨6點以前)完成所有交易數據的統計。當然規模是相對的,但規模增加了時間限制,絕對值本身不是很大數據量的計算在本質上也是大規模計算的問題。

第二個本質問題,低成本。也就是說我們不單要解決規模計算的問題,而且要想辦法讓大家算得起。低成本不單單是簡單的降低價格,而是像電話一樣改變人們的習慣。同時,也能夠像“電網”做到對資源的調度。

第三個本質問題,服務運營。真正能夠提供大規模廉價的計算,唯一的方式是賣計算而不是賣計算機,像公共服務一樣做到按量付費,這對很多創業公司來說是非常有益的。服務運營也意味着彈性擴展,當用戶需要使用更多資源的時候可以很快開動資源,而不是等着再跟供應商下單,等計算機運到機房裏。最後,服務運營也要解決安全問題,大家在使用自然資源、在使用雲計算的時候不用擔心安全問題。

正是基於上述對雲計算要解決的三個本質問題的理解,在飛天系統設計開始就定下了兩個基本原則。第一個原則,以大規模通用計算平臺爲基礎,用同一套系統支持離線和在線服務,能夠做到資源共享。第二個原則,以Web API的方式提供服務,也就是說希望提供線上服務,而不是到門市部填申請單交銀行卡才能提供服務,讓用戶感覺不到地域的邊界。

圖解飛天架構

339e408476bd1ef0ffd8fadc37664803b09dd7a2

飛天開放平臺架構

飛天最底層是全球部署的12個地區和幾十個數據中心,這些數據中心裏是安裝了Linux操作系統的通用高端服務器。橙色組件組成了大規模通用計算平臺,最底下四個橙色塊(夸父遠程過程調用、安全管理、女媧分佈式協同和伏羲資源管理)代表構建分佈式系統最基本的組件。唐洪着重指出,在整個飛天設計裏面第一就把安全作爲一個功能來設計。盤古分佈式存儲,簡單來說,就是把所有集羣中的硬盤組織成一個單個的文件系統。同時,兩側分別是天基的數據中心管理、分佈式部署,以及神農分佈式監控。唐洪說,大家覺得部署和監控是很簡單的事,但做成7×24小時不間斷就沒有那麼容易了,這時需要非常大的監控系統,秒級監控所有指標判斷是否有問題並且實時修復。

中間藍色一層是核心的資源型服務組件,大概分爲三類:一是彈性計算,簡單理解就是將物理機切分成虛擬服務器的概念。二是海量存儲的數據庫,其中OSS是存儲無結構的數據比如視頻、照片、音樂之類的,Table Store可以認爲是半結構化存儲,RDS則是關係型數據庫服務。第三類是數據計算,它則分爲多維度準實時數據的查詢服務、實時流計算處理服務和大規模批量計算服務。

在上面還有一些端到端、基於雲的應用所需要的核心服務,比如內容分發CDN、網絡服務、安全服務、數據服務等。網絡服務,包括VPC、域名服務和VPN。中間件服務,包括消息隊列、工作流等。數據服務,則包括比如人工智能、語音識別、翻譯、圖象識別之類。

最上層則是生態支撐,容器服務可以支持那些基於容器的微服務架構,或者是編排服務幫助開發者在雲上開展資源的編排。還有云市場,可以認爲是雲上的AppStore,開發者可以把他們的應用註冊在雲市場裏面,使用者直接註冊使用。還有開發者服務,開發者很容易監控診斷他們的應用並且發現問題和調試。

飛天技術特色

談到飛天的技術特色,共六個方面。其中第一點,飛天同一個平臺同時支持離線在線服務,這是飛天的通用性特色。如阿里巴巴集團子公司神馬搜索就是建在飛天上,他們會進行千億級別網頁的離線處理,索引所有網頁,大概每一兩個月把整個索引翻一遍,此外擁有這麼多網頁的同時同樣擁有整個網頁之間關聯的連接圖,也是千億級別的節點,並且有百億級別的索引可以在線查詢;在線方面,基於飛天平臺的郵箱服務每天處理億量級的郵件,日發送郵件達到千萬量級,所有發送和接收在10毫秒級別完成。

其他幾點包括:規模,飛天單集羣達到了萬臺規模、百PB級別存儲、10萬級別的CPU合數;整個架構設計裏面沒有單點,確保了整個系統可用性達到99.95%;飛天應用設有默認等級,通過多副本冗餘算法,數據可靠性達到10個9的可靠性;完全分佈式的部署、監控和診斷。關於第六點安全方面,唐洪指出,飛天安全管理嵌入在飛天內核最底層,並且使用基於權能的安全管理框架,真正有效實施“最小化權限”原理。

e64e696bd2169f0d52c7d60446d6aa7d1c82ec2b

2013年8月15號,阿里巴巴集團已經擁有了中國範圍最大的集羣,達到五千臺規模。現在,飛天已經成爲阿里巴巴所有核心業務數據處理的平臺,包括廣告、搜索、個性化推薦、信用分析、風險管理等,並且飛天現在已有多個萬臺規模的集羣,每天處理上百PB數據。

2014年7月1號MaxCompute(原ODPS服務)正式對外開放,這也標誌着阿里巴巴成爲世界上第一家對外公開提供5K處理能力的公司。很多公司可能有這樣一個計算能力但從來沒有把它當作公共服務開放給大家。在MaxCompute平臺上線之前,組織了一場“天池大數據算法大賽”,當時有七千多個團隊,主要是高校團隊報名參加,在沒有任何推廣的情況下還有350多個來自海外的團隊。

2015年10月,飛天打破了世界排序競賽的記錄,當時打破了4項,最有名的是用377秒完成100TB排序工作。之前這個成績是1400多秒,也就提高了三倍還不止。

飛天之上

除了介紹飛天平臺技術方面的內容,唐洪還分享了雲計算如何實踐技術拓展商業邊界。

05d312e761d86a186355cb2727deadf81ed48954

阿里雲幫助它們降低創業門檻

在降低互聯網創業門檻方面,移動APP中的小咖秀就是一個典型。移動App天然就是長在雲計算上的,移動設備本身的計算能力、存儲能力非常有限,所以必須把大量計算和存儲轉換到雲上去。並且很多移動創業公司面臨着啓動資金少、迭代週期快的問題,並且如果他們真正設計了一款非常流行的產品,業務增長非常快,所以要抵抗快速增長的壓力,都對應到雲計算的幾個本質特徵。小咖秀利用阿里雲多媒體解決方案,開發第一版僅用了2天時間,2015年5月上線後兩個月下載量位列App Store全榜前十,娛樂榜前五,日活躍用戶超過5000萬。然而,小咖秀後端服務團隊僅有三個後臺工程師,一個運維工程師。

在賦能業務創新方面,經典案例是天弘基金和《小門神》動畫電影。天弘基金在10個月內管理資產從零增長到890億美元,從一個無名小卒變成中國最大的貨幣基金。在產品發佈後,天弘基金從IOE架構遷移到了阿里雲,處理能力提升11倍、清算速度提升16倍。

《小門神》是追光動畫打造的3D動畫電影,其總渲染量達八千萬核小時,超過《工夫熊貓2》、《超能陸戰隊》等好萊塢大片,《小門神》每秒鐘影片渲染量超過一萬核小時。阿里雲提供了三萬CPU核的彈性資源,縮短整體渲染週期幾十倍。

在支持傳統產業升級方面,經典案例比如12306。12306在2014年底上雲,承接2015年春運高峯75%的餘票查詢流量,2014年12月19日達到春運火車票售賣高峯,PV297億次,平均每秒PV 30萬次,共發售火車票956.4萬張,互聯網售票佔比59%。12306案例真正體現了雲計算的優勢——彈性擴容、秒級交付、按量付費。

最後在問答環節,唐洪再次強調了阿里雲和其他開源系統和雲計算公司的區別:“雲計算的本質之一是服務運營。與開源相比,我們提供的是服務而不是軟件。所以在提供服務的時候,我們想到的是怎麼能夠最高效、提供最好性能來完成用戶的計算。在架構設計方面,阿里雲不用虛擬機可以做到多租戶,這和亞馬遜提供的EMR之類的一個本質區別。”

本文轉載自雲棲社區:https://yq.aliyun.com

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章