原创 spark任務調度

Job Scheduling OverviewScheduling Across ApplicationsScheduling Within an Application Fair Scheduler PoolsDefault Beha

原创 LinkedList實現

gperftools中threadcache用鏈表存放cache內存,其中鏈表是這樣實現的: inline void *SLL_Next(void *t) { return *(reinterpret_cast<void**>(t)

原创 Actor 簡易教程

Akka Actor 學習 Actor System 每個Actor 獨立運行,Actor間只有通過消息傳遞來communication.- ! 傳遞消息 並立即返回- ? 傳遞消息 返回一個變量future用來表示可能的回覆. 每個Ac

原创 Spark Sparrow

簡介 大規模數據分析框架正在朝短任務和高並行度低延時方向發展。高並行度短運行時間(百毫秒級)任務調度爲作業調度器的設計帶來了挑戰,既要求每秒百萬級調度,又要提供毫秒級延時,還要保持高可用性(high availability)。我們闡述一

原创 spark性能調優

Spark性能調優 Data SerializationMemory Tuning Determining Memory ConsumptionTuning Data StructuresSerialized RDD StorageGa

原创 從控制流分析Spark運行邏輯

本文將從控制流的角度分析spark的運行邏輯. Spark的一切都是圍繞RDD展開的. /spark/rdd/RDD.scala包含了RDD的源碼, RDD數據結構正如spark論文中的一樣, 給出了transformation, act