原创 一個月面試近20家大中小廠,在互聯網寒冬突破重圍,成功上岸!

文章目錄前言一、面試準備二、Hadoop三、Hive四、Flume五、Kafka六、HBase七、Spark八、數倉九、寫在最後 前言 我努力了這一年,不僅僅是爲了逼歲月回頭。 我是年前離職的,沒想到這個突如其來的疫情,完全將

原创 數倉分層的意義價值及如何設計數據分層

文章目錄一、前言二、數倉建模三、數倉分層四、數倉的基本特徵五、數據倉庫用途六、數倉分層的好處七、如何分層Refer 一、前言 現在說數倉,更多的會和數據平臺或者基礎架構搭上,已經融合到整個基礎設施的搭建上。這裏呢,我們不說Hado

原创 Spark(十七)Spark Core 調優之資源調優JVM的GC垃圾收集器

文章目錄一、概述二、垃圾收集器(garbage collector (GC)) 是什麼?三、爲什麼需要GC?四、爲什麼需要多種GC?五、對象存活的判斷六、垃圾回收算法6.1 標記 -清除算法6.2 複製算法6.3 標記-整理算法6

原创 Spark(十五)Spark Core 調優之Spark資源調優

文章目錄一、概述二、Spark作業基本運行原理三、資源參數調優3.1 num-executors3.2 executor-memory3.3 executor-cores3.4 driver-memory3.5 spark.def

原创 Spark(十三)Spark Core 調優之Shuffle調優

文章目錄一、概述二、shuffle的定義三、ShuffleManager發展概述四、HashShuffleManager的運行原理4.1 未經優化的HashShuffleManager4.2 優化後的HashShuffleMana

原创 Spark(十二)Spark Core 調優之數據傾斜調優

文章目錄一、調優概述二、數據傾斜發生時的現象三、數據傾斜發生的原理四、如何定位導致數據傾斜的代碼五、某個task執行特別慢的情況六、某個task莫名其妙內存溢出的情況七、查看導致數據傾斜的key的數據分佈情況數據傾斜的解決方案解決

原创 Spark(十五)Spark Core 調優之資源調優JVM的基本架構

文章目錄一、JVM的結構圖1.1 Java內存結構1.2 如何通過參數來控制各區域的內存大小1.3 控制參數1.4 JVM和系統調用之間的關係二、JVM各區域的作用2.1 Java堆(Heap)2.2 方法區(Method Are

原创 Spark(十一)Spark Core 調優之開發調優

文章目錄一、前言二、開發調優三、調優概述原則一:避免創建重複的RDD一個簡單的例子原則二:儘可能複用同一個RDD一個簡單的例子原則三:對多次使用的RDD進行持久化對多次使用的RDD進行持久化的代碼示例Spark的持久化級別如何選擇

原创 Spark(十四)Spark Core 調優之Spark內存模型

文章目錄一、概述二、堆內和堆外內存規劃2.1 堆內內存2.2 堆外內存2.3 內存管理接口三、內存空間分配3.1 靜態內存管理3.2 統一內存管理四、存儲內存管理4.1 RDD 的持久化機制4.2 RDD 緩存的過程4.3 淘汰和

原创 數倉架構實踐2:京東四層模型架構

京東數倉大致分四層架構 BDM:數據緩衝層,與源系統保持一致,相當於傳統數倉的ODS。 FDM:基礎數據層,按主題設計,數據融合,存放明細歷史數據,相當於傳統數倉的EDW。 GDM:通用匯總數據層,明細粒度,可以查詢到具體字段

原创 【Flink】(二)詳解 Flink 運行架構

文章目錄一、 Flink 運行時的組件二、任務提交流程三、任務調度原理3.1 TaskManger 與 Slots3.2 程序與數據流(DataFlow)3.3 執行圖(ExecutionGraph)3.4 並行度(Paralle

原创 【Flink】(一)初識 Flink

文章目錄一、Flink 簡介二、Flink 的重要特點2.1 事件驅動型(Event-driven)2.2 流與批的世界觀2.3 分層api三、Flink 幾大模塊 一、Flink 簡介 Flink 起源於 Stratospher

原创 【Azkaban 】(二)十分鐘搞定 Azkaban 安裝,親測完美!

文章目錄一、安裝過程1、軟件介紹2、軟件下載3、安裝說明4、安裝步驟5、啓動6、驗證 一、安裝過程 1、軟件介紹 Azkaban Web 服務器:azkaban-web-server-2.5.0.tar.gz Azkaban Ex

原创 關於數據埋點的認識以及在流量分析系統中的實際使用

文章目錄一、前言二、“埋點”知多少三、“埋點”有何用四、幾種埋點“姿勢”4.1 前端埋點4.1.1 代碼埋點4.1.2 可視化埋點4.1.3 無埋點4.2 後端埋點4.3 其它埋點五、最理想的埋點方式?六、流量分析系統中日誌埋點6

原创 Spark 中 ML 和 MLlib 的特點和區別

大數據學習過程中一個重要的環節就是spark,但是在spark中有很多的知識點,很多人都傻傻分不清楚,其中,最易搞混的就是ml與mllib的區別,所以我們不妨來詳細的瞭解一下二者的區別。 1. Spark ML 1)定義: