大數據技術平臺的分類,學習指南之精華篇!

大數據的處理過程可以分爲大數據採集、存儲、結構化處理、隱私保護、挖掘、結果展示(發佈)等,各種領域的大數據應用一般都會涉及到這些基本過程,但不同應用可能會有所側重。

     大數據的處理過程可以分爲大數據採集、存儲、結構化處理、隱私保護、挖掘、結果展示(發佈)等,各種領域的大數據應用一般都會涉及到這些基本過程,但不同應用可能會有所側重。對於互聯網大數據而言,由於其具有獨特完整的大數據特點,除了共性技術外,採集技術、結構化處理技術、隱私保護也非常突出。


image.png


今天爲大家整理了部分大數據學習教程與大家共享,每個人可以根據自己的需要來選擇,需要的小夥伴可以+下學習資料分享裙 199加上427最後是210數字連起來就是了。


有很多算法和模型可以解決這些處理過程中的技術問題,並且爲了最終用戶的使用方便,它們大都被進一步的封裝,形成了比較簡單易用的操作平臺。目前大數據技術平臺有很多,歸納起來可以按照以下方式進行分類:


  (1)從大數據處理的過程來分:包括數據存儲、數據挖掘分析、以及爲完成高效分析挖掘而設計的計算平臺,它們完成數據採集、ETL、存儲、結構化處理、挖掘、 分析、預測、應用等功能。


  (2)從大數據處理的數據類型來劃分:可以分爲針對關係型數據、非關係型數據(圖數據、文本數據、網絡型數據等)、半結構化數據、混合類型數據處理的技術平臺。


  (3)從大數據處理的方式來劃分:可以分爲批量處理、實時處理、綜合處理。其中批量數據是對成批數據進行一次性處理,而實時處理(流處理)對處理的延時有嚴格的要求,綜合處理是指同時具備批量處理和實時處理兩種方式。


  (4)從平臺對數據的部署方式看:可以分爲基於內存的、基於磁盤的。前者在分佈式系統內部的數據交換是在內存中進行,後者則是通過磁盤文件的方式。


  此外,技術平臺還有分佈式、集中式之分,雲環境和非雲環境之分等。阿里雲大數據平臺構建在阿里云云計算基礎設施之上,爲用戶提供了大數據存儲、計算能力、大數據分析挖掘、以及輸出展示等服務,用戶可以容易地實現BI商業智能、人工智能服務,具備一站式數據應用能力。


不同的大數據技術平臺提供了對這些處理過程的支持,有的平臺可能會支持多個過程,但是側重點也不同,支持的深度也有所不同,因此有必要熟悉各種平臺的功能,並做出比較分析,以便在實際應用中選擇適合於自己需求的技術平臺。


  選擇一個合適的大數據技術平臺是非常重要的,它能夠使得大數據應用開發更加容易、讓開發人員更集中精力在業務層面的數據分析與處理上。一些共性的基礎問題,例如數據如何存儲、如何檢索、數據統計等,就可以由平臺來完成。選擇合適的大數據技術平臺應當考慮以下因素:


  (1)平臺的功能與性能:由於不同平臺側重的功能不同,平臺的性能也就有很多需要考察的方面。比如對於存儲平臺來說,數據的存儲效率、讀寫效率、併發訪問能力、對結構化與非結構化數據存儲的支持,所提供的數據訪問接口等方面就是比較重要的。對於大數據挖掘平臺來說,所支持的挖掘算法、算法的封裝程度、數據挖掘結果的展示能力、挖掘算法的時間和空間複雜度等,是比較重要的指標。


  (2)平臺的集成度:好的平臺應該具有較高的集成度,爲用戶提供良好的操作界面,具有完善的幫助和使用手冊、系統易於配置、移植性好。同時隨着目前軟件開源的趨勢,開源平臺有助於其版本的快速升級,儘快發現其中的bug,此外,開源的架構也比較容易進行擴展,植入更多的新算法,這對於最終用戶而言也是比較重要的。


  (3)是否符合技術發展趨勢:大數據技術是當前發展和研究的熱點,其最終將走向逐步成熟,可以預見在這個過程中,並非所有的技術平臺都能生存下來。只有符合技術發展趨勢的技術平臺纔會被用戶、被技術開發人員所接受。因此,一些不支持分佈式、集羣計算的平臺大概只能針對較小的數據量,側重於對挖掘算法的驗證。而與雲計算、物聯網、人工智能聯繫密切的技術平臺將成爲主流,是技術發展趨勢。



  當我們花很多時間去掌握熟悉某種技術平臺後,可能新的更好的技術平臺出現了,導致我們受累奔波於各種技術平臺,因此,最好的策略就是全面系統地掌握大數據技術的原理和實現方案,這樣學習新的技術平臺就很容易上手。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章