原创 使用BulkLoading將數據導入HBase

https://www.jianshu.com/p/7e05a223c18c https://blog.csdn.net/lrxcmwy2/article/details/81592001 https://blog.csdn.net/op

原创 HBase的架構

  1、整體架構 2、HBase中涉及的角色及每個角色的具體功能 2.1 HMaster 2.2 RegionServer 2.2.1 保證高可靠性的WAL 2.3 zookeeper 2.3.1 客戶端連接RS 3、RS內部剖析 3.1

原创 林子雨-5.1 RDD編程基礎

目錄 1、RDD屬於Spark Core 2、RDD的創建 文件加載 通過並行集合(數組)創建RDD 3、RDD的操作(Transformation) filter(func):高階函數→參數是函數 map(func):一對一的映射 fl

原创 在win中用MapReduce處理HBase出錯:XXX.jar is not a valid DFS filename

原因:Hadoop文件系統檢查路徑時沒有區分是本地windows系統還是Hadoop集羣文件系統 解決: 只需將Map和Reduce的init方法最後一個參數(boolean addDependencyJars)設爲false(默認爲tr

原创 spark_程序接收外部傳入的參數

spark-submit --class "test" --master spark://master:7077 / --driver-cores 16 --executor-cores 16 --conf spark.driv

原创 怎麼將python時間段(Timedelta)轉化爲int或float數值形式

  下面是一個實例: #選取並構建LRFMC模型的特徵 airline_selection = airline[["FFP_DATE","LOAD_TIME","FLIGHT_COUNT","LAST_TO_END",

原创 Python數據分析中 DataFrame axis=0與axis=1的理解

python中的axis究竟是如何定義的呢?他們究竟代表是DataFrame的行還是列? 直接上代碼 people=DataFrame(np.random.randn(5,5), columns=['a

原创 pandas中的繪圖函數(什麼是kde)

不難看出,matplotlib實際上是一種比較低級的工具。要組裝一張圖表,我們得用它的各種基礎組件纔行:數據展示(即圖表類型:線型圖、柱狀圖、盒形圖、散佈圖、等值線圖等)、圖例、標題、刻度標籤以及其他註解型信息。這是因爲要根據數據製作一張

原创 如何增加windows的IP和機器名映射(hosts文件)

點擊文件→打開windows PowerShell→以管理員身份打開Windows PowerShell

原创 Python sklearn中的.fit與.predict的作用

clf=KMeans(n_clusters=5) #創建分類器對象 fit_clf=clf.fit(X) #用訓練器數據擬合分類器模型 clf.predict(X) #也可以給新數據數據對其預測 print(clf.cluster

原创 JAVA操作HBase過濾器

HBase中可以根據Filter進行高效過濾,基於Hbase本身提供的三維有序(主鍵有序、列有序、版本有序),這些Filter可以高效的完成查詢過濾的任務。帶有Filter條件的RPC查詢請求會把Filter分發到各個RegionServ

原创 Spark監控篇

Spark監控官網地址 一、每個Spark程序都有的4040端口Web 界面進行監控 Every SparkContext launches a web UI, by default on port 4040, that displays

原创 計算機組成原理之CPU的功能和組成部分

計算機組成原理中Ac和Acc都指的是累加寄存器 這是比較全面的計組知識點:https://www.cnblogs.com/moonsoft/p/9933934.html 以下所有均來自:https://blog.csdn.net/qq_3

原创 Spark 的幾種運行模式

1.測試或實驗性質的本地運行模式(單機) 該模式被稱爲Local[N]模式,是用單機的多個線程來模擬Spark分佈式計算,通常用來驗證開發出來的應用程序邏輯上有沒有問題。其中N代表可以使用N個線程,每個線程擁有一個core。如果不指定N,