原创 SPARK standlone安裝配置

集羣一共有3臺機器,集羣使用hadoop用戶運行,3臺機器如下:1DEV-HADOOP-01192.168.9.1102DEV-HADOOP-02192.168.9.1113DEV-HADOOP-03192.168.9.112配置集羣間ha

原创 idea設置eclipse快捷鍵

File-->Settings-->keymap 即可以設置。

原创 解決com.mysql.jdbc.PacketTooBigException: Packet for query is too large (3158064)問題

在做查詢數據庫操作時,報了以上錯誤,還有out of memery heap hacp ,原因是mysql的max_allowed_packet設置過小引起的,我一開始設置的是1M,後來改爲了20Mmysql根據配置文件會限制server接

原创 HIVE2.1.0安裝

https://my.oschina.net/jackieyeah/blog/735424

原创 函數定義

函數定義 定數定義如下: var sum = 0 def add(a: Int): Unit = { sum += a } 高級用法 如果函數只有一條語句,則可以把花括號去掉,如下所示: def add(a: Int): U

原创 Java實現KMP算法

package arithmetic; /** * Java實現KMP算法 * * 思想:每當一趟匹配過程中出現字符比較不等,不需要回溯i指針, * 而是利用已經得到的“部分匹配”的結果將模式向右“滑動”儘可能

原创 Prime_DSC_MentionCalcSpark性能調優

Prime_DSC_MentionCalcSpark系統簡介實現功能 : 根據條件(siteId, startTime, endTime, campaignId, folder)從HBase數據源中讀取文本數據作爲輸入,把提交的關鍵詞作爲條

原创 常用軟件安裝地址

1. JDK :/Library/Java/JavaVirtualMachines/jdk1.7.0_79.jdk/Contents/Home2. Maven :  /Users/Paul/maven3.3.3/

原创 Spark RDD API詳解(一) Map和Reduce

RDD是什麼?RDD是Spark中的抽象數據結構類型,任何數據在Spark中都被表示爲RDD。從編程的角度來看,RDD可以簡單看成是一個數組。和普通數組的區別是,RDD中的數據是分區存儲的,這樣不同分區的數據就可以分佈在不同的機器上,同時可

原创 HADOOP/HBASE/SPARK修改PID文件位置

當不修改HADOOP/HBASE/SPARK的PID文件位置時,系統默認會把PID文件生成到/tmp目錄下,但是/tmp目錄在一段時間後會被刪除,所以以後當我們停止HADOOP/HBASE/SPARK時,會發現無法停止相應的進程,因爲PID

原创 SPARK啓動歷史任務查看

SPARK歷史任務查看需要一下配置:修改spark-defaults.conf配置文件  spark.eventLog.enabled             true  spark.eventLog.dir                

原创 hive計算inner join報內存溢出

hive計算inner join報內存溢出:Caused by: java.lang.OutOfMemoryError: Java heap space處理方式:set mapred.child.java.opts=-Xmx1024m;再進

原创 Spark RDD API詳解(一) Map和Reduce

RDD是什麼?RDD是Spark中的抽象數據結構類型,任何數據在Spark中都被表示爲RDD。從編程的角度來看,RDD可以簡單看成是一個數組。和普通數組的區別是,RDD中的數據是分區存儲的,這樣不同分區的數據就可以分佈在不同的機器上,同時可

原创 SPARK動態添加節點

spark集羣使用hadoop用戶運行,集羣機器如下:1DEV-HADOOP-01192.168.9.110Master2DEV-HADOOP-02192.168.9.111Worker3DEV-HADOOP-03192.168.9.112

原创 SPARK大數據計算BUG處理:

大數據計算BUG處理:程序修改前資源情況:Driver : 1臺Worker : 2臺程序提交申請內存資源 : 1G內存內存分配情況 : 1. 20%用於程序運行2. 20%用於Shuffle3. 60%用於RDD緩存單條TweetBean