像原設計者一樣深入理解Spark

在數據領域可用的框架中,只有少數框架在採用和交付方面達到了Spark的水平。顯然,該框架已經成爲一個贏家,特別是在數據工程方面。本文是對Spark組件的一個非常簡單的介紹,其主要目的是提供對Spark架構的一般理解。

本文最初發佈於Towards Data Science博客,由InfoQ中文站翻譯並分享。

爲什麼要了解Spark?

在數據領域可用的框架中,只有少數框架在採用和交付方面達到了Spark的水平。顯然,該框架已經成爲一個贏家,特別是在數據工程方面。

如果你正在閱讀這篇文章,這意味着你已經理解了我這樣說的原因,所以我們直接進入主題。

爲什麼要了解Spark的內部構造?

有人可能會說,開車並不需要了解發動機的工作原理,是這樣。不過,有人可能會說,瞭解發動機會讓你成爲更好的駕駛員,因爲你將能夠了解整個車輛的性能、侷限性和根本問題。

同理,你不需要了解Spark的內部構造就可以使用它提供的API。但是,如果你瞭解的話,就可以減輕糟糕的性能和隱藏的Bug所帶來的許多痛苦。此外,你還將掌握在整個分佈式系統領域隨處可見的概念。

方法

在我看來,學習有兩個方面: 知識技術 。前者涉及到通過書本、結構化課程等形式獲取知識。它更關注 是什麼 。後者與技能有關,即“邊做邊學”,更側重於 如何做 。這是我們這裏要探討的。

原文鏈接:【https://www.infoq.cn/article/c9fvmCxUosJLTp0dYff4】。未經作者許可,禁止轉載。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章