台部落小白数据猿

Curator是Netflix公司開源的一套Zookeeper客戶端框架，是Apache的頂級項目，是全世界範圍內使用最廣泛的Zookeeper客戶端之一。“Guava is to Java what Curator is to

2020-03-09 00:59:14

分佈式系統中，對於一個複雜的任務，我們經常會選舉一個Master節點，藉助zk我們可以輕易的實現此項任務，在kafka以及spark的standalone模式下都是使用zk來實現Master選舉，本文先從原理方面介紹爲什麼zk可

2020-03-09 00:59:14

zookeeper 提供了java api來進行node的創建、刪除、數據的獲取設置、子節點的狀態的觀察、權限的設置。並且zookeeper客戶端提供了異步操作，並有監聽機制，更爲方便的提供對zookeeper數據的監聽和維護，

2020-03-01 02:39:09

概述 RDD中最重要的一項是partition，RDD的五個要素裏面有兩個牽扯到partition，如下所示，研究partition不僅要研究Partition的定義，還要研究不同RDD的如下兩個方法。 // 對特定分配

2019-10-25 16:57:42

概述 RDD實現了基於Lineage的容錯機制，不同RDD的依賴關係構成了計算鏈，當某個RDD出現錯誤時候，可以通過依賴關係進行重算。那麼spark的依賴關係是如何劃分的，以及是如何進行依賴關係記錄的，本文通過分析源碼

2019-10-25 16:57:42

概述 spark主程序中當遇到action算子的時候，就會提交一個job。一個job通常包含一個或多個stage，各個Stage之間存在着依賴關係，下游的Stage依賴於上游的Stage，Stage劃分過程是從最後一個S

2019-10-25 16:57:42

Spark常用參數配置 Spark on YARN模式下，有Driver、ApplicationMaster、Executor三種進程。在任務調度和運行的過程中，Driver和Executor承擔了很大的責任，而Application

2019-03-06 18:57:26

TextRank PageRank TextRank jieba分詞提取關鍵詞demo Tf-idf Bm25 參考文獻 https://www.letiantian.me/2014-06-10-pagerank/ https://ww

2018-08-23 15:48:00

sparksession是spark的入口點。 https://people.apache.org/~pwendell/spark-nightly/spark-master-docs/latest/api/java/index.html

2018-08-23 15:48:00

mysql安裝 python庫安裝 sqlalchemy語法 sqlalchemy使用參考

2018-08-23 15:48:00

寫了很多sparksql程序，一直覺得sparksql比較方便，但是一直不明白其中是如何進行解析，優化的，藉此機會瞭解下原理，寫出來分享，以備日後使用。參考資料 https://databricks.com/blog/2015/04/1

2018-08-23 15:48:00

Spark中的DataSet和Dataframe API支持結構化分析。結構化分析的一個重要的方面是管理元數據。這些元數據可能是一些臨時元數據（比如臨時表）、SQLContext上註冊的UDF以及持久化的元數據（比如Hivemeta st

2018-08-23 15:47:59

cache與persist關係緩存級別 web ui顯示 import org.apache.spark.storage.StorageLevel https://spark.apache.org/docs/2.2.0/api/java

2018-08-23 15:47:59

dataset是強類型的dataframe.

2018-08-23 15:47:59

spark自帶udf函數自定義udf函數及使用 https://people.apache.org/~pwendell/spark-nightly/spark-master-docs/latest/api/java/index.html

2018-08-23 15:47:59