原创 淺談HDFS的寫流程

1、使用HDFS提供的客戶端Client,向遠程的Namenode發起RPC請求2、Namenode會檢查要創建的文件是否已經存在,創建者是否有權限進行操作,成功則會爲文件創建一個記錄,否則會讓客戶端拋出異常;3、當客戶端開始寫入文件的時候

原创 淺談HDFS的讀流程

1、使用HDFS提供的客戶端Client,向遠程的Namenode發起RPC請求;2、Namenode會視情況返回文件的部分或者全部block列表,對於每個block,Namenode都會返回有該block拷貝的DataNode地址;3、客

原创 idea運行的時候出現的問題Exception in thread “main” java.lang

idea運行的時候出現的問題Exception in thread “main” java.lang.NoSuchMethodError: scala.collection.immutable.HashSet$這類錯誤主要是環境中運行sca

原创 Pycharm配置Anaconda

所需軟件 PyCharm Community Edition 2017.3.2 x64,Anaconda官網可以自行下載。有錢還是支持正版,沒錢的話......你懂得,度娘。 兩個軟件的安裝就不詳細敘述了,下面直接講Anaconda的配置。

原创 淺談HDFS架構

1、HDFS   HDFS(Hadoop Distributed File System)是Hadoop項目的核心子項目,是分佈式計算中數據存儲管理的基礎,是基於流數據模式訪問和處理超大文件的需求而開發的,可以運行於廉價的商用服務器上。它所

原创 linux下主從節點互相免密匙登陸

安裝了三個節點,master,slave1,slave2 1.主節點免密匙登陸從節點主機點窗口輸入 ssh-keygen -t rsa 一路回車下去2.然後輸入cat ~/.ssh/id_rsa.pub >> ~/.ssh/autho

原创 spark的寬依賴窄依賴

1 RDD的依賴關係及容錯1.1 RDD的依賴關係RDD的依賴關係分爲兩種:窄依賴(Narrow Dependencies)與寬依賴(Wide Dependencies,源碼中稱爲Shuffle Dependencies)依賴有2個作用,其

原创 用PHP簡單計算信源熵

要求:對於各定的信源計算其中各個字母以及空格出現的次數,概率,信源熵!        首先在大腦裏構思編輯過程要用到哪些具體的函數功能等等,然後自己現在紙上畫一畫,好的根據求信源熵的公式E(X)=-p(xi)log2 p(xi)(i=1,2

原创 Error, return code 1 from org.apache.hadoop.hive.

Hive創建表格報【Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException】這個錯誤;可能是字符集的原因,可以通過在mysql中將數據庫

原创 Pycharm配置Anaconda

所需軟件 PyCharm Community Edition 2017.3.2 x64,Anaconda官網可以自行下載。有錢還是支持正版,沒錢的話......你懂得,度娘。 兩個軟件的安裝就不詳細敘述了,下面直接講Anaconda的配置。

原创 淺談Spark算子

RDD的操作類型分爲兩類:Ø Transformation,根據原有的RDD創建一個新的RDDØ actions,對RDD操作後把結果返回給driver  Transfrmation操作是延遲的,也就是說從一個RDD轉換到另一個RDD的轉換