Google Professional Data Engineer(PDE)考試

在國內參加PDE考試的人比較少,導致資料也很少。我在19年1月30號去上海蔘加PDE考試,參加前也是完全沒底,因爲時間短資料少,但幸運的是順利通過了。回過頭來看,其中有些技巧和重點,在此做一些總結,希望可以給參加PDE考試的同學提供一些幫助。

收穫

1)對雲有新的認識
2)對大數據架構、機器學習架構設計有新的認識
3)當然最重要的是獲得google官方發的證書

說說我的準備

1)花了5周的時間看完google官方提供的視頻,幾乎是完全脫產(只做一些事故處理)。
2)試做官方提供example,一共20道題,我錯了五道。我錯的主要是安全和BigTable相關的。
3)google的同學建議是看concept的相關內容,但離考試也就剩三四天了,不可能詳細複習,concept是一定看不完的。那麼就針對沒有掌握的知識進行復習,安全相關的官方視頻是沒有涉及的,所以必須自己找資料看,別的資料也沒有,就只能看concept中涉及安全的方便,這個比較少,最多一天就全部看完。BigTable看來我也是掌握不好,那麼我就看BigTable的concept知識。
4)看完上面的就參加考試了,也再沒做特別複習。

整體來看

google的產品大致涉及存儲(cloud storage、SQL、spanner、memory、BigTable、datastore)、消息中間件Pub\Sub、計算(dataproc、BigQuery、Dataflow)、機器學習ML Engine、API、DataLab以及可視化。各個產品的使用場景必須心裏有數,如果看完視頻忘了,必須重新複習,最好和開源對應起來,因爲開源多多少少有點兒瞭解,不要從頭學習google cloud所有產品知識。



思維轉變

把自己定位爲產品解決方案工程師,不是找最優解,而是找最適合案例的解決方案。

產品詳情

Cloud SQL & spanner

Cloud SQL 就是mysql\postsql的單機版,google幫你做了安裝部署和管理(安全、備份等),如果需要水平擴展就是spanner了,而且支持事務,這兩個產品的應用場景就是應用交易記錄等。

cloud storage

就是存儲引擎,什麼都可以放,沒有大小文件、結構化和非結構化的限制,利用好存儲級別(正常、nearline(月級訪問)和cold(年級訪問))可以節約成本。

BigTable

考試重點。注意key值的設置,如何避免熱點問題,時間序列的問題大部分就是選BigTable存儲,BigTable適用於時延性要求高的場景。

datastore

類似於mongodb,通過屬性來查詢,不是重點。

BigQuery

考試重點。注意安全和視圖相關知識,數據存儲在BigQuery和存儲在cloud storage的價錢差不多,根據使用情況,會自動處理存儲介質,降低價格,一定要合理利用BigQuery。

Dataproc

主要是爲了適應客戶原來使用hadoop堆棧,現在不像修改代碼,就像上雲的場景。

dataflow

是google大力推進的產品,是替代Dataproc的下一代計算引擎,實現自動擴縮容,並且流處理和批處理代碼保持一致。題外話:dataflow和bigquery(秒級響應)是google大數據方面兩大殺傷性武器,區別於其他雲的地方。

Pub\Sub

Pub\Sub和dataflow配合使用處理事件流,延時性要求高選用BigTable存儲,不高選用BigQuery。

ML Engine

tensorflow的雲化版,實現離線訓練和在線服務的自動化,配合dataprep可以實現離線數據的預處理,datalab(jupyter notebook)實現數據探索和離線訓練。

Auto ML

Auto ML是爲了豐富API,容許用戶自己提供數據,對模型進行訓練。

綜述

其實知識點也不那麼難,最後難得可能是英語這一關,視頻和考試全英語。祝大家順利通過考試。

如果有疑問歡迎關注下面公衆號進行交流。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章