原创 什麼是Apache Flink? —運維篇

什麼是Apache Flink? —運維篇 Apache Flink是用於無界和有界的數據流上的有狀態計算的框架。由於許多流應用程序的設計目的是在最少的停機時間內連續運行,因此流處理器必須提供出色的故障恢復能力,以及在運行時監控和維護應用

原创 大家可以關注我的公衆號,跟我一起學習大數據

大家可以掃碼關注我的公衆號,跟我一起學習大數據 大數據技術學習和分享

原创 Git&GitHub(一)

Git&GitHub(一)版本控制版本控制應該具備的功能集中式版本控制工具和分佈式版本控制工具Git的簡介Git的官網Git 的優勢Git的安裝Git在本地的結構Git和代碼託管中心本地庫和遠程庫團隊內部協作跨團隊協作 版本控制

原创 ArrayList源碼深度剖析(一)

ArrayList概述 ArrayList是List接口的可調整大小的數組實現,具有動態擴展的能力,能夠動態的擴容和縮容。 數組結構的特點 查詢快:由於數組在內存中是一塊連續的空間,因此可以根據地址+索引的方式快速獲取對應位置的元

原创 手寫真正的動態數據結構-鏈表

鏈表 線型數據結構 爲什麼鏈表很重要 鏈表是真正的動態數據結構 鏈表是最簡單的動態數據結構 可以更深入的理解引用(指針) 可以更深入的理解遞歸 可以輔助組成其他的數據結構 什麼是鏈表(LinkedList) 數據存

原创 手寫動態數組ArrayList,幫你徹底弄明白ArrayList的實現原理

數組基礎 概念 所謂數組,是有序的元素序列。數組是在程序設計中,爲了處理方便, 把具有相同類型的若干元素按有序的形式組織起來的一種形式。這些有序排列的同類數據元素的集合稱爲數組。 數組是用於儲存多個相同類型數據的集合。數組本身是靜態的,在

原创 電商數倉用戶行爲數據採集-需求分析和架構設計

電商數倉-用戶行爲數據採集 數據倉庫的概念 數據倉庫( Data Warehouse ),是爲企業所有決策制定過程,提供所有系統數據支持的戰略集合。 通過對數據倉庫中數據的分析,可以幫助企業,改進業務流程、控制成本、提高產品質量等。 數據

原创 Spark 2.1.1 快速開始

官方文檔地址 Spark 2.1.1 快速開始 本教程提供了使用Spark的快速介紹。我們將首先通過Spark的交互式Shell(使用Python或Scala)介紹API,然後說明如何使用Java,Scala和Python編寫應用

原创 Spark 2.1.1 官方文檔翻譯 Overview(概覽)

Spark 2.1.1 官方文檔翻譯 Overview(概覽) Spark 概覽 Apache Spark是一個快速的通用集羣計算系統。它提供Java,Scala,Python和R的高級API,以及支持常規執行圖的優化引擎。它還支持豐富的