大數據開發工程師學習路線分享

引言


image.png

    最近有很多人問我如何學習大數據?我也是思考了很多時日才動筆寫下此文。一方面我自己還只是大數據學習中的一個小學生,貿然動筆怕貽笑大方;另一方面大數據本身領域博大精深,其涵蓋領域之廣技術種類之多確實很難用一篇文章囊括。怎奈“下雨天打孩子,閒着也是閒着”,今天也請允許我寫一點務虛類的東西吧。

    本文的目的是希望給所有大數據初學者規劃一條比較清晰的學習路線,幫助它們開啓大數據學習之旅。鑑於大數據領域內的技術絢麗繁複,每位大數據初學者都應該根據自己的實際情況制定專屬的學習路徑。

    要說當下IT行業什麼最火?ABC無出其右。所謂ABC者,AI + Big Data + Cloud也,即人工智能、大數據和雲計算(雲平臺)。每個領域目前都有行業領袖在引領前行,今天我們來討論下大數據這個方向。

    大數據,即Big Data,關於它的定義很多,我這裏不再贅述了。最權威的莫屬IBM的定義,讀者可以自行查閱。既然本文關注如何學習大數據,那麼我們首先就要定義大數據領域內的不同角色設定。這樣各位才能根據自身實際情況找準自己的定位從而開啓學習過程。

 

角色    

 以我的愚見,當下大數據行業有兩類角色:

  • 大數據工程

  • 大數據分析

    這兩類角色相互依存但又獨立運作,何意?沒有大數據工程,大數據分析便無從談起;但倘若沒有大數據分析,我也實在想不出大數據工程存在的理由。這就類似於結婚和談戀愛——戀愛的目的是爲了結婚,且不以結婚爲目的的談戀愛都是耍流氓。



互聯網科技發展蓬勃興起,人工智能時代來臨,抓住下一個風口。爲幫助那些往想互聯網方向轉行想學習,卻因爲時間不夠,資源不足而放棄的人。我自己整理的一份最新的大數據進階資料和高級開發教程,大數據學習羣:868847735   歡迎進階中和進想深入大數據的小夥伴加入。


    具體來說,大數據工程需要解決數據的定義、收集、計算與保存的工作,因此大數據工程師們在設計和部署這樣的系統時首要考慮的是數據高可用的問題,即大數據工程系統需要實時地爲下游業務系統或分析系統提供數據服務;而大數據分析角色定位於如何利用數據——即從大數據工程系統中接收到數據之後如何爲企業或組織提供有產出的數據分析,並且確實能夠幫助到公司進行業務改善或提升服務水平,所以對於大數據分析師來說,他們首要解決的問題是發現並利用數據的價值,具體可能包括:趨勢分析、模型建立以及預測分析等。

    簡單總結一下,大數據工程角色需要考慮數據的收集、計算(或是處理)和保存;大數據分析角色則是執行數據的高級計算。

 如果您具有良好的編程基礎且深入瞭解計算機的交互方式以及互聯網底層技術原理,但數學和統計學掌握不深,那麼大數據工程可能是您今後學習的方向

  • 如果你有一定的編程基礎(掌握一些高級語言,如Python等)同時又很強的數學功底,那麼大數據分析是您今天努力的方向

     

 學習路線


image.png

 無論是學習大數據工程還是大數據分析,這些理論知識都是必要的,因爲它們是設計很多分佈式系統必備的技能。下面我們就針對不同的角色設計不同的學習路線:

大數據工程師

    對於大數據工程師而言,您至少要掌握以下技能:

  • 一門JVM系語言:當前大數據生態JVM系語言類的比重極大,某種程度上說是壟斷也不爲過。這裏我推薦大家學習Java或Scala,至於Clojure這樣的語言上手不易,其實並不推薦大家使用。另外,如今是“母以子貴”的年代,某個大數據框架會帶火它的編程語言的流行,比如Docker之於Go、Kafka之於Scala。因此筆者這裏建議您至少要精通一門JVM系的語言。值得一提的,一定要弄懂這門語言的多線程模型和內存模型,很多大數據框架的處理模式其實在語言層面和多線程處理模型是類似的,只是大數據框架把它們引申到了多機分佈式這個層面。

  • 筆者建議:學習Java或Scala

  • 計算處理框架:嚴格來說,這分爲離線批處理和流式處理。流式處理是未來的趨勢,建議大家一定要去學習;而離線批處理其實已經快過時了,它的分批處理思想無法處理無窮數據集,因此其適用範圍日益縮小。事實上,Google已經在公司內部正式廢棄了以MapReduce爲代表的離線處理。因此如果要學習大數據工程,掌握一門實時流式處理框架是必須的。當下主流的框架包括:Apache Samza, Apache Storm, Apache Spark Streaming以及最近一年風頭正勁的Apache Flink。當然Apache Kafka也推出了它自己的流式處理框架:Kafka Streams

  • 筆者建議:學習Flink、Spark Streaming或Kafka Streams中的一個


  • 分佈式存儲框架:雖說MapReduce有些過時了,但Hadoop的另一個基石HDFS依然堅挺,並且是開源社區最受歡迎的分佈式存儲,絕對您花時間去學習。筆者建議:學習HDFS

  • 資源調度框架:Docker可是整整火了最近一兩年。各個公司都在發力基於Docker的容器解決方案,最有名的開源容器調度框架就是K8S了,但同樣著名的還有Hadoop的YARN和Apache Mesos。後兩者不僅可以調度容器集羣,還可以調度非容器集羣,非常值得我們學習。

  • 筆者建議:學習YARN

  • 分佈式協調框架:有一些通用的功能在所有主流大數據分佈式框架中都需要實現,比如服務發現、領導者選舉、分佈式鎖、KV存儲等。這些功能也就催生了分佈式協調框架的發展。最古老也是最有名的當屬Apache Zookeeper了,新一些的包括Consul,etcd等。學習大數據工程,分佈式協調框架是不能不瞭解的, 某種程度上還要深入瞭解。

  • 筆者建議:學習Zookeeper——太多大數據框架都需要它了,比如Kafka, Storm, HBase等

  • KV數據庫:典型的就是memcache和Redis了,特別是Redis簡直是發展神速。其簡潔的API設計和高性能的TPS日益得到廣大用戶的青睞。即使是不學習大數據,學學Redis都是大有裨益的。

  • 筆者建議:學習Redis,如果C語言功底好的,最好熟讀源碼,反正源碼也不多

  • 列式存儲數據庫:筆者曾經花了很長的時間學習Oracle,但不得不承認當下關係型數據庫已經慢慢地淡出了人們的視野,有太多的方案可以替代rdbms了。人們針對行式存儲不適用於大數據ad-hoc查詢這種弊端開發出了列式存儲,典型的列式存儲數據庫就是開源社區的HBASE。

  • 消息隊列:大數據工程處理中消息隊列作爲“削峯填谷”的主力系統是必不可少的,當前該領域內的解決方案有很多,包括ActiveMQ,Kafka等。國內阿里也開源了RocketMQ。這其中的翹楚當屬Apache Kafka了。Kafka的很多設計思想都特別契合分佈流式數據處理的設計理念。這也難怪,Kafka的原作者Jay Kreps可是當今實時流式處理方面的頂級大神。

  • 筆者建議:學習Kafka,不僅僅好找工作(幾乎所有大數據招聘簡歷都要求會Kafka:-) ),還能觸類旁通進一步理解基於備份日誌方式的數據處理範型

 

大數據分析師或數據科學家

 

    要想成爲一個數據科學家,您至少要掌握以下技能:

  • 數學功底:微積分是嚴格要掌握的。不一定要掌握多元微積分,但一元微積分是必須要熟練掌握並使用的。另外線性代數一定要精通,特別是矩陣的運算、向量空間、秩等概念。當前機器學習框架中很多計算都需要用到矩陣的乘法、轉置或是求逆。雖然很多框架都直接提供了這樣的工具,但我們至少要了解內部的原型原理,比如如何高效判斷一個矩陣是否存在逆矩陣並如何計算等。

  • 重溫同濟版《高等數學》,有條件可以去Coursea學習賓夕法尼亞大學的微積分課程

  • 推薦學習Strang的線性代數:《Introduction to Linear Algebra》——這是最經典的教材,沒有之一!

  • 數理統計:概率論和各種統計學方法要做到基本掌握,比如貝葉斯概率如何計算?概率分佈是怎麼回事?雖不要求精通,但對相關背景和術語一定要了解

  • 找一本《概率論》重新學習下

  • 交互式數據分析框架:這裏並不是指SQL或數據庫查詢,而是像Apache Hive或Apache Kylin這樣的分析交互框架。開源社區中有很多這樣類似的框架,可以使用傳統的數據分析方式對大數據進行數據分析或數據挖掘。筆者有過使用經驗的是Hive和Kylin。不過Hive特別是Hive1是基於MapReduce的,性能並非特別出色,而Kylin採用數據立方體的概念結合星型模型,可以做到很低延時的分析速度,況且Kylin是第一個研發團隊主力是中國人的Apache孵化項目,因此日益受到廣泛的關注。

  • 首先學習Hive,有時間的話瞭解一下Kylin以及背後的數據挖掘思想

  • 機器學習框架:機器學習當前真是火爆宇宙了,人人都提機器學習和AI,但筆者一直認爲機器學習恰似幾年前的雲計算一樣,目前雖然火爆,但沒有實際的落地項目,可能還需要幾年的時間才能逐漸成熟。不過在現在就開始儲備機器學習的知識總是沒有壞處的。說到機器學習的框架,大家耳熟能詳的有很多種, 信手拈來的就包括TensorFlow、Caffe8、Keras9、CNTK10、Torch711等,其中又以TensorFlow領銜。筆者當前建議大家選取其中的一個框架進行學習,但以我對這些框架的瞭解,這些框架大多很方便地封裝了各種機器學習算法提供給用戶使用,但對於底層算法的瞭解其實並沒有太多可學習之處。因此筆者還是建議可以從機器學習算法的原理來進行學習


總結

    以上就是我對大數據學習路線的一些思考和建議,希望對讀者朋友們有所幫助。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章