2016年北京中國雲計算技術大會會後感

概述

筆者有幸受邀請參加中國雲計算技術大會,感謝主辦方CSDN。此次大會有3天,第一天全部爲topic,隨後分爲了若干個場次,有《Container技術峯會》、《大數據核心技術與應用實戰峯會》、《雲計算核心技術與架構》,第三天爲《中國Spark技術峯會》、《OpenStack技術峯會》、《亞馬遜AWS專場》,筆者基本一直在《大數據核心技術與應用實戰峯會》與《中國Spark技術峯會》場次。

由於筆者關注在大數據方面,對OpenStack、Container沒有去聽。本文主要走馬觀花幾句話講述下筆者聽的一些場次的見解,講述的是什麼,如果需要詳細瞭解,請自行google或者聯繫演講嘉賓。

PS:北京的天氣還是可以的
screenshot

第一天

基本就是各家雲廠商在做廣告

  • 《開啓共享經濟雲計算時代》講述了怎麼利用共享經濟做CDN,簡單的講就是利用大家閒置的資源做共享的CDN,跟P2P很類似。不過 陳磊 說還有點不一樣,P2P是用戶觀看的時候共享,他這個是無時無刻的。有三點認爲的優勢:無限節點、SDK、共享經濟。其它兩個好懂,特別是對於SDK,陳認爲SDK有效解決了延遲、卡頓等問題。

  • 《微軟智能雲的核心DNA》這個說白了就是來講雲計算,介紹自家的各個產品。特別提到了對於開源的支持,Linux已經超過了50%的主機,開源閉源沒有界限,微軟不會封閉。

  • 《企業IT基礎架構在雲端如何變革》 這個就是百度來介紹百度的產品了,基本就是介紹了一圈產品。其實各家雲計算場景都有在做的。有幾個觀點:1、人工智能引領未來。2、對企業分爲 微型、中型、大型分別給予支持

  • 《雲時代,我們用技術如何改變世界》 騰訊的同學,從彙編、高級語言一直講到到高內聚、低耦合,最後引出了微服務。

  • 《圓桌論壇:微服務在下一代企業架構中的實戰》 討論微服務,主要的觀點1、微服務並不是一個新的技術,更像一個最佳實踐 2、docker等容器技術的出現催出了這種最佳實踐。

  • 《Evolution of YARN Scheduler》 Naganarasimha Garla 來自印度,主要講述了Yarn調度器的發展歷程,從FIFO一直到接下來的異構機型,隔離等技術。

  • 《京東雲探祕:從實踐者到服務者》 基本說京東以後 電子商務、金融、雲計算 是三大基礎,跟阿里好類似的。對於雲計算不評價。

第二天

筆者主要在《大數據核心技術與應用實戰峯會》

  • 《Hadoop在雲上的最佳實踐》 下載地址 ,這個是筆者講的,主要講述了 Hadoop在雲上的常見部署構架,一些挑戰比如:Shuffle、本地化、自動化運維,一些常見的使用模式及場景,一些常見的問題,需要注意的事項。原諒筆者做下廣告:如果是大數據想上雲的朋友,可以看下,阿里雲的E-mapreduce
    screenshot

  • 《大數據時代的數據倉儲實現技術實戰》 百度同學講述的。主要對比了Hadoop、MPP的異同,我感覺有點片面,比如Hadoop的容錯性、擴容簡單基本沒有講述。最後當然也介紹了百度雲關於大數據的方方面面。
    screenshot

  • 《京東數據倉庫3.0時代:面向服務化的大數據平臺與實戰》 這個基本是在講京東內部的Hadoop生態平臺的建設,會遇到的問題。跟2013年阿里雲梯很類似。基本爲:1.0時代是用數據庫來做數據倉庫; 2.0採取了Hadoop的技術,也做了一些建設,不過基本處於沒有組織的狀態 ; 3.0在2.0的基礎上,更多的是數據鏈路的整理、數據質量的控制、數據平臺等上游產品的建設。

  • 《小米大數據平臺與開源技術應用》 常冰琳 小米雲平臺軟件工程師,就是在講kudu的,特別畫了一個處理的象限,預計在不久會發布kudu的穩定版本。
    screenshot

  • 《Apache Flink: Stream engine beyond Batch》李呈祥 萬達金融 ,Flink就是批基於流,Spark就是流基於批,講述了 failover、at least once等方面的處理方法。

  • 《青雲QingCloud大數據雲平臺基礎架構實踐》 是一個系統工程師講述的,特別強調磁盤IO的性能會影響整體的性能,並且想在一個自研發類似docker上實現,直接連接到物理盤上。 不評價。

  • 《Hadoop YARN在異構環境下應用與實踐》 董老師講述的,主要講述在YARN裏面怎麼去部署了一套在線的系統,例如利用lable機制調度container到GPU的機器上。

第三天

筆者主要在《中國Spark技術峯會》,spark2.0即將發佈,一些功能還是很期待的。

  • 《Spark and YARN: Better Together》邵賽賽 Hortonworks技術專家,講述了Spark在Yarn上怎麼去調度,例如:當前 Dynamic Resource Allocation 的實現及一些缺點。在共享環境中,yarn還是spark使用的首選。
    screenshot

  • 《Spark Streaming 在騰訊廣點通的應用》 林立偉 騰訊高級軟件工程師,來自廣點通業務線,特別提到了業務線同學面對Spark的代碼在不能修改的情況下,怎麼去修改功能。比如,修改字節碼。
    screenshot

  • 《Elasticsearch 與大數據》 曾 勇 Elastic開發工程師與佈道師,講述了Elasticsearch 與大數據的結合,Elasticsearch for Hadoop這項目。當問到自身es是否支持大數據分析時,說也會考慮。
    screenshot

  • 《Dataset in Spark SQL》範文臣 Apache Spark committer,Databricks 軟件工程師。dataset就是有類型的dataframe。跟SQL、dataframe的區別如下圖:
    screenshot

  • 《利用ELK來進行Hadoop集羣負載性能監控》 王 棟 分佈式系統組件管理與性能監控資深專家,
    ELK(Elasticsearch + Logstash + Kibana) ,利用ELK收集了YARN、job運行等日誌,在通過Kibana可視化展現出來。
    screenshot

  • 《Spinach: Spark SQL之上的快速交互式查詢引擎》 程 浩 英特爾亞太研發有限公司Spark Core團隊研發經理,Spinach是Intel內部做的一個POC項目,還沒有對外發布。基本的思路就是在OSS、HDFS之上做一個index層加速查詢,用戶可以即時創建index,再查詢。期待早日發佈
    screenshot

  • 《Spark 實時計算》 連 城 Apache Spark & Apache Parquet committer,Databricks 軟件工程師,spark2.0的新功能Structured Streaming,streaming跟batch後續會統一一套API,引入了trigger等概念。
    screenshot

總結

信息量還是比較大的,如果聽得明白,還是需要一定的基礎的。三人行必有我師,在跟大家交流的過程中,也學習到了很多,特別是跨領域交流。比如跟openstack、container的同學。大致總結下:

  • 雲廠商,阿里雲、百度雲、騰訊雲、青雲等各級小廠商都有參加會議,雲化也慢慢也是一個趨勢。雲上的一些應用也基本類似,後續是拼服務、拼技術能力的競技場。
  • 因爲阿里、百度、騰訊 都走在使用大數據技術及應用的前面,特別是在技術的嘗試使用上,目前京東、美團等第二梯隊的公司也有自己的大數據團隊,包括基礎的。一些小的公司也還嘗試。
  • IASS、PASS在市場競爭下,會越來越難存活,創業還是建議做某個行業的垂直類的服務較好,平臺的機會越來越少,也越來越難存活。
  • 新的技術,spark2.0、flink、kudu基本在一些大的公司使用或者嘗試,中小公司(技術團隊100以下的)在大數據方面的投資基本還是在用hive、hadoop,也有一些嘗試了spark1.x的功能。

版權聲明

如果侵權,請聯繫筆者,筆者負責刪除。
筆者微博:阿里封神 歡迎轉載,但請保留原文地址

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章