原创 移動數據和移動計算(本地計算)的區別

在學習大數據的時候接觸了移動數據和移動計算這兩種聯繫緊密而又有很大不同的概念,其中移動計算也叫做本地計算。 在以前的數據處理中時使用的移動數據,其實就是將需要處理的數據傳輸到存放不同處理數據方式邏輯的各個節點上。這樣做的效率很低,特別是

原创 遇到的一個MR處理業務

最近遇到的一個要求使用MR處理的業務,原始數據一共有7個字段,原始數據中的兩個字段可以根據客戶提供的方法得出一個指標。 要求: 1、新的數據是在原始的數據後面調加上這個指標 2、保證數據沒有重複的 3、。。。 由於保密,數據就

原创 淺談大數據框架調用過程中用到的RPC

在大數據框架的調用中,在一個節點上經常會需要調用另一個節點上的程序,這時就需要用到RPC。 RPC——遠程過程調用協議,它是一種通過網絡從遠程計算機程序上請求服務。RPC採用客戶機/服務器模式。請求程序就是一個客戶機,而服務提供程序就

原创 spark中會遇到的一些名詞

RDD Resillient distributed dataset 彈性分佈式數據集 Application Spark的用戶程序 Driver Program 運行main函數並且新建SparkContext的程序 Clust

原创 spark的生態圈

Spark系統中,其核心框架是spark core,同時涵蓋支持結構化數據SQL查詢與分析的查詢引擎Spark SQL和shark,提供機器學習功能的系統MLbase及底層的分佈式機器學習庫MLlib,並行圖計算框架GraphX、流計算框

原创 關於Java程序在編譯時出現的編碼問題

今天寫完一個簡單的Java程序後,在Windows命令行窗口使用javac命令進行編譯時出現了編碼類的問題。代碼和錯誤如下: 在網上查找資料發現是編碼的不兼容。 在Linux下爲UTF-8編碼,javac編譯gbk編碼的Java文件

原创 Spark剛學習時遇到的一個小問題

在之前學習spark時遇到的一個問題,這個問題比較簡單,是剛開始學習時遇到的,屬於最簡單的問題。 org.apache.spark.SparkException: A master URL must be set in your con