大數據學習、工作過程中最容易掉入的十大天坑!你中招了嗎?

“數據科學家=統計學家+程序員+講故事的人+藝術家。“ – Shlomo Aragmo。博主總結了一些在大數據學習工作過程中容易出現的一些問題,希望能給各位帶來幫助,願各位都能在2019年更上一層樓!

一、分佈式存儲

傳統的集中式存儲已經存在一段時間了。但是,大數據並不真正適合於集中式存儲體系結構。Hadoop旨在使計算更接近數據節點,並使用HDFS文件系統的大規模橫向擴展。

不過,解決Hadoop在管理自己的數據時效率低下的通常方法是在SAN上存儲Hadoop數據。但它也會造成自身的性能和規模瓶頸。現在,如果您通過一個集中的SAN處理器處理所有的數據,那麼這就違背了Hadoop的分佈式和並行特性。您可以爲不同的數據節點管理多個SAN,也可以將所有數據節點集中到一個SAN中。

但是Hadoop是一個應該在分佈式存儲上運行的分佈式應用程序,因此存儲保持了與Hadoop本身相同的靈活性,但它還需要採用軟件定義的存儲方案並在商業服務器上運行,這自然比瓶頸Hadoop更高效。

二、超融合vs分佈式

注意不要把過度融合和分佈混淆。有些超融合方案是分佈式存儲,但這個術語通常意味着應用程序和存儲存儲存儲在同一個計算節點上。這是一種解決數據本地化問題的嘗試,但它會導致資源爭用過多。Hadoop應用程序和存儲平臺爭奪相同的內存和CPU。Hadoop運行在專有應用層,分佈式存儲運行在專有存儲層,這是更好的。然後,利用緩存和分層技術解決了數據定位問題,彌補了網絡性能的損失。

很多小夥伴,對大數據的概念都是模糊不清的,大數據是什麼,能做什麼,學的時候,該按照什麼線路去學習,學完往哪方面發展,想深入瞭解,想學習的同學歡迎加入大數據學習Qun:775908246,有大量乾貨(零基礎以及進階的經典實戰)分享給大家,並且有清華大學畢業的資深大數據講師給大家免費授課,給大家分享目前國內最完整的大數據高端實戰實用學習流程體系。

三、避免控制器瓶頸

實現這一目標的一個重要方面是避免通過單點(如傳統控制器)處理數據。相反,爲了確保存儲平臺的並行化,性能可以顯著提高。

此外,該方案還提供了增量可伸縮性。向數據池添加功能非常簡單,只需將服務器放入其中即可。分佈式存儲平臺將根據需要自動添加功能並重新調整數據。

四、刪除和壓縮

掌握大數據的關鍵是刪除和壓縮技術。通常70%到90%的數據簡化發生在大型數據集中。在PB容量方面,它可以節省數萬美元的磁盤成本。現代平臺提供內聯(對比度後處理)刪除和壓縮,大大降低了存儲數據所需的容量。

五、合併Hadoop分佈

許多大型企業都有多個Hadoop發行版。也許開發人員需要它,或者企業部門已經適應了不同的版本。然而,最終這些集羣需要維護和運行。一旦大量數據真正開始影響企業,多個Hadoop分發存儲可能會導致效率低下。我們可以通過創建一個單一的、可刪除的和壓縮的數據池來獲得數據效率。

六、Hadoop的虛擬化

虛擬化已經席捲了企業市場。許多領域80%以上的物理服務器現在都是虛擬化的。但由於性能和數據本地化問題,仍有許多公司避免談論虛擬化Hadoop。

七、創建彈性數據湖

創建一個數據湖並不容易,但可能需要大量的數據存儲。有很多方法可以做到這一點,但哪一個是正確的?正確的架構應該是一個動態、靈活的數據池,它可以以多種格式(結構化、非結構化、半結構化)存儲所有資源。更重要的是,它必須支持應用程序的執行,而不是在遠程資源上,而是在本地數據資源上。

不幸的是,傳統體系結構和應用程序(即非分佈式)並不令人滿意。隨着數據集越來越大,將應用程序遷移到數據是不可避免的,因爲延遲太長,所以無法反轉數據集。

理想的數據湖基礎設施將存儲數據的單個副本,並且可以在單個數據資源上實現,而無需遷移數據或進行復制。

八、集成分析

分析並不是一個新的特性,它已經在傳統的RDBMS環境中存在了很多年。區別在於開源應用程序的出現,以及數據庫表單和社交媒體、非結構化數據資源(如維基百科)的集成能力。關鍵是能夠將多種數據類型和格式集成到一個標準中,這有助於更輕鬆、一致地可視化和生成報表。適當的工具對分析/商業智能項目的成功也至關重要。

九、大數據與大視頻

大數據存儲的問題一直是一個有點頭疼的問題,現在有一個大的視頻現象。例如,在安全性、運營和工業效率方面,企業正在逐步使用視頻監控來簡化交通管理,支持法規遵從性和其他幾個用例。在很短的時間內,這些資源將產生大量的內容,必須處理大量的內容。如果沒有專業的存儲解決方案,可能會導致視頻丟失和質量下降。

十、沒有絕對的贏家

Hadoop確實取得了一些進展。因此,隨着大數據存儲到處開花,不管它是否會成爲贏家,並推動其他解決方案,事實上,它不是。

例如,傳統的基於SAN的體系結構在短期內是不可替代的,因爲它們具有OLTP的固有優勢,即100%的可用性需求。因此,最好的方法是將超融合平臺與分佈式文件系統和分析軟件相結合。成功的最重要因素是存儲的可擴展性。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章