原创 Zookeeper實戰-使用Curator開發

Curator是Netflix公司開源的一套Zookeeper客戶端框架,是Apache的頂級項目,是全世界範圍內使用最廣泛的Zookeeper客戶端之一。“Guava is to Java what Curator is to

原创 Zookeeper實戰-使用Curator實現Leader選舉

分佈式系統中,對於一個複雜的任務,我們經常會選舉一個Master節點,藉助zk我們可以輕易的實現此項任務,在kafka以及spark的standalone模式下都是使用zk來實現Master選舉,本文先從原理方面介紹爲什麼zk可

原创 Zookeeper實戰-使用原生api開發

zookeeper 提供了java api來進行node的創建、刪除、數據的獲取設置、子節點的狀態的觀察、權限的設置。並且zookeeper客戶端提供了異步操作,並有監聽機制,更爲方便的提供對zookeeper數據的監聽和維護,

原创 RDD源碼分析之Partition

概述 ​ RDD中最重要的一項是partition,RDD的五個要素裏面有兩個牽扯到partition,如下所示,研究partition不僅要研究Partition的定義,還要研究不同RDD的如下兩個方法。 // 對特定分配

原创 RDD源碼分析之Dependency

概述 ​ RDD實現了基於Lineage的容錯機制,不同RDD的依賴關係構成了計算鏈,當某個RDD出現錯誤時候,可以通過依賴關係進行重算。那麼spark的依賴關係是如何劃分的,以及是如何進行依賴關係記錄的,本文通過分析源碼

原创 spark源碼分析之stage生成

概述 ​ spark主程序中當遇到action算子的時候,就會提交一個job。一個job通常包含一個或多個stage,各個Stage之間存在着依賴關係,下游的Stage依賴於上游的Stage,Stage劃分過程是從最後一個S

原创 Spark常用參數配置

Spark常用參數配置 Spark on YARN模式下,有Driver、ApplicationMaster、Executor三種進程。在任務調度和運行的過程中,Driver和Executor承擔了很大的責任,而Application

原创 乍看文章關鍵詞提取

TextRank PageRank TextRank jieba分詞提取關鍵詞demo Tf-idf Bm25 參考文獻 https://www.letiantian.me/2014-06-10-pagerank/ https://ww

原创 Spark學習之SparkSession

sparksession是spark的入口點。 https://people.apache.org/~pwendell/spark-nightly/spark-master-docs/latest/api/java/index.html

原创 python之sqlalchemy使用

mysql安裝 python庫安裝 sqlalchemy語法 sqlalchemy使用 參考

原创 sparksql執行流程及原理淺析

寫了很多sparksql程序,一直覺得sparksql比較方便,但是一直不明白其中是如何進行解析,優化的,藉此機會瞭解下原理,寫出來分享,以備日後使用。 參考資料 https://databricks.com/blog/2015/04/1

原创 spark原數據catalog

Spark中的DataSet和Dataframe API支持結構化分析。結構化分析的一個重要的方面是管理元數據。這些元數據可能是一些臨時元數據(比如臨時表)、SQLContext上註冊的UDF以及持久化的元數據(比如Hivemeta st

原创 spark緩存cache與persist

cache與persist關係 緩存級別 web ui顯示 import org.apache.spark.storage.StorageLevel https://spark.apache.org/docs/2.2.0/api/java

原创 spark之dataset基本操作

dataset是強類型的dataframe.

原创 spark之udf函數

spark自帶udf函數 自定義udf函數及使用 https://people.apache.org/~pwendell/spark-nightly/spark-master-docs/latest/api/java/index.html