2016年北京中國雲計算技術大會會後感

概述

筆者有幸受邀請參加中國雲計算技術大會，感謝主辦方CSDN。此次大會有3天，第一天全部爲topic，隨後分爲了若干個場次，有《Container技術峯會》、《大數據核心技術與應用實戰峯會》、《雲計算核心技術與架構》，第三天爲《中國Spark技術峯會》、《OpenStack技術峯會》、《亞馬遜AWS專場》，筆者基本一直在《大數據核心技術與應用實戰峯會》與《中國Spark技術峯會》場次。

由於筆者關注在大數據方面，對OpenStack、Container沒有去聽。本文主要走馬觀花幾句話講述下筆者聽的一些場次的見解，講述的是什麼，如果需要詳細瞭解，請自行google或者聯繫演講嘉賓。

PS:北京的天氣還是可以的

第一天

基本就是各家雲廠商在做廣告

《開啓共享經濟雲計算時代》講述了怎麼利用共享經濟做CDN，簡單的講就是利用大家閒置的資源做共享的CDN，跟P2P很類似。不過陳磊說還有點不一樣，P2P是用戶觀看的時候共享，他這個是無時無刻的。有三點認爲的優勢：無限節點、SDK、共享經濟。其它兩個好懂，特別是對於SDK，陳認爲SDK有效解決了延遲、卡頓等問題。
《微軟智能雲的核心DNA》這個說白了就是來講雲計算，介紹自家的各個產品。特別提到了對於開源的支持，Linux已經超過了50%的主機，開源閉源沒有界限，微軟不會封閉。
《企業IT基礎架構在雲端如何變革》這個就是百度來介紹百度的產品了，基本就是介紹了一圈產品。其實各家雲計算場景都有在做的。有幾個觀點：1、人工智能引領未來。2、對企業分爲微型、中型、大型分別給予支持
《雲時代，我們用技術如何改變世界》騰訊的同學，從彙編、高級語言一直講到到高內聚、低耦合，最後引出了微服務。
《圓桌論壇：微服務在下一代企業架構中的實戰》討論微服務，主要的觀點1、微服務並不是一個新的技術，更像一個最佳實踐 2、docker等容器技術的出現催出了這種最佳實踐。
《Evolution of YARN Scheduler》 Naganarasimha Garla 來自印度，主要講述了Yarn調度器的發展歷程，從FIFO一直到接下來的異構機型，隔離等技術。
《京東雲探祕：從實踐者到服務者》基本說京東以後電子商務、金融、雲計算是三大基礎，跟阿里好類似的。對於雲計算不評價。

第二天

筆者主要在《大數據核心技術與應用實戰峯會》

《Hadoop在雲上的最佳實踐》下載地址，這個是筆者講的，主要講述了 Hadoop在雲上的常見部署構架，一些挑戰比如：Shuffle、本地化、自動化運維，一些常見的使用模式及場景，一些常見的問題，需要注意的事項。原諒筆者做下廣告：如果是大數據想上雲的朋友，可以看下，阿里雲的E-mapreduce
《大數據時代的數據倉儲實現技術實戰》百度同學講述的。主要對比了Hadoop、MPP的異同，我感覺有點片面，比如Hadoop的容錯性、擴容簡單基本沒有講述。最後當然也介紹了百度雲關於大數據的方方面面。
《京東數據倉庫3.0時代：面向服務化的大數據平臺與實戰》這個基本是在講京東內部的Hadoop生態平臺的建設，會遇到的問題。跟2013年阿里雲梯很類似。基本爲：1.0時代是用數據庫來做數據倉庫； 2.0採取了Hadoop的技術，也做了一些建設，不過基本處於沒有組織的狀態； 3.0在2.0的基礎上，更多的是數據鏈路的整理、數據質量的控制、數據平臺等上游產品的建設。
《小米大數據平臺與開源技術應用》常冰琳小米雲平臺軟件工程師，就是在講kudu的，特別畫了一個處理的象限，預計在不久會發布kudu的穩定版本。
《Apache Flink: Stream engine beyond Batch》李呈祥萬達金融，Flink就是批基於流，Spark就是流基於批，講述了 failover、at least once等方面的處理方法。
《青雲QingCloud大數據雲平臺基礎架構實踐》是一個系統工程師講述的，特別強調磁盤IO的性能會影響整體的性能，並且想在一個自研發類似docker上實現，直接連接到物理盤上。不評價。
《Hadoop YARN在異構環境下應用與實踐》董老師講述的，主要講述在YARN裏面怎麼去部署了一套在線的系統，例如利用lable機制調度container到GPU的機器上。

第三天

筆者主要在《中國Spark技術峯會》，spark2.0即將發佈，一些功能還是很期待的。

《Spark and YARN: Better Together》邵賽賽 Hortonworks技術專家，講述了Spark在Yarn上怎麼去調度，例如：當前 Dynamic Resource Allocation 的實現及一些缺點。在共享環境中，yarn還是spark使用的首選。
《Spark Streaming 在騰訊廣點通的應用》林立偉騰訊高級軟件工程師，來自廣點通業務線，特別提到了業務線同學面對Spark的代碼在不能修改的情況下，怎麼去修改功能。比如，修改字節碼。
《Elasticsearch 與大數據》曾勇 Elastic開發工程師與佈道師，講述了Elasticsearch 與大數據的結合，Elasticsearch for Hadoop這項目。當問到自身es是否支持大數據分析時，說也會考慮。
《Dataset in Spark SQL》範文臣 Apache Spark committer，Databricks 軟件工程師。dataset就是有類型的dataframe。跟SQL、dataframe的區別如下圖：
《利用ELK來進行Hadoop集羣負載性能監控》王棟分佈式系統組件管理與性能監控資深專家，
ELK(Elasticsearch + Logstash + Kibana) ,利用ELK收集了YARN、job運行等日誌，在通過Kibana可視化展現出來。
《Spinach: Spark SQL之上的快速交互式查詢引擎》程浩英特爾亞太研發有限公司Spark Core團隊研發經理，Spinach是Intel內部做的一個POC項目，還沒有對外發布。基本的思路就是在OSS、HDFS之上做一個index層加速查詢，用戶可以即時創建index，再查詢。期待早日發佈
《Spark 實時計算》連城 Apache Spark & Apache Parquet committer，Databricks 軟件工程師，spark2.0的新功能Structured Streaming，streaming跟batch後續會統一一套API，引入了trigger等概念。

總結

信息量還是比較大的，如果聽得明白，還是需要一定的基礎的。三人行必有我師，在跟大家交流的過程中，也學習到了很多，特別是跨領域交流。比如跟openstack、container的同學。大致總結下：

雲廠商，阿里雲、百度雲、騰訊雲、青雲等各級小廠商都有參加會議，雲化也慢慢也是一個趨勢。雲上的一些應用也基本類似，後續是拼服務、拼技術能力的競技場。
因爲阿里、百度、騰訊都走在使用大數據技術及應用的前面，特別是在技術的嘗試使用上，目前京東、美團等第二梯隊的公司也有自己的大數據團隊，包括基礎的。一些小的公司也還嘗試。
IASS、PASS在市場競爭下，會越來越難存活，創業還是建議做某個行業的垂直類的服務較好，平臺的機會越來越少，也越來越難存活。
新的技術，spark2.0、flink、kudu基本在一些大的公司使用或者嘗試，中小公司（技術團隊100以下的）在大數據方面的投資基本還是在用hive、hadoop，也有一些嘗試了spark1.x的功能。

版權聲明

如果侵權，請聯繫筆者，筆者負責刪除。
筆者微博：阿里封神歡迎轉載，但請保留原文地址

2016年北京中國雲計算技術大會會後感

概述

第一天

第二天

第三天

總結

版權聲明

阿里系技術博客原力覺醒，首批36支夢之隊亮相雲棲社區！

吳翰清：雲計算安全是“皇帝的新裝”麼？

阿里研究員蔣江偉：雙十一背後的分佈式技術

阿里巴巴集團CTO張建鋒：將開放阿里的技術能力

魯肅：螞蟻金服的三個夢想

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結