原创 SPARK standlone安裝配置
集羣一共有3臺機器,集羣使用hadoop用戶運行,3臺機器如下:1DEV-HADOOP-01192.168.9.1102DEV-HADOOP-02192.168.9.1113DEV-HADOOP-03192.168.9.112配置集羣間ha
原创 idea設置eclipse快捷鍵
File-->Settings-->keymap 即可以設置。
原创 解決com.mysql.jdbc.PacketTooBigException: Packet for query is too large (3158064)問題
在做查詢數據庫操作時,報了以上錯誤,還有out of memery heap hacp ,原因是mysql的max_allowed_packet設置過小引起的,我一開始設置的是1M,後來改爲了20Mmysql根據配置文件會限制server接
原创 HIVE2.1.0安裝
https://my.oschina.net/jackieyeah/blog/735424
原创 函數定義
函數定義 定數定義如下: var sum = 0 def add(a: Int): Unit = { sum += a } 高級用法 如果函數只有一條語句,則可以把花括號去掉,如下所示: def add(a: Int): U
原创 Java實現KMP算法
package arithmetic; /** * Java實現KMP算法 * * 思想:每當一趟匹配過程中出現字符比較不等,不需要回溯i指針, * 而是利用已經得到的“部分匹配”的結果將模式向右“滑動”儘可能
原创 Prime_DSC_MentionCalcSpark性能調優
Prime_DSC_MentionCalcSpark系統簡介實現功能 : 根據條件(siteId, startTime, endTime, campaignId, folder)從HBase數據源中讀取文本數據作爲輸入,把提交的關鍵詞作爲條
原创 常用軟件安裝地址
1. JDK :/Library/Java/JavaVirtualMachines/jdk1.7.0_79.jdk/Contents/Home2. Maven : /Users/Paul/maven3.3.3/
原创 Spark RDD API詳解(一) Map和Reduce
RDD是什麼?RDD是Spark中的抽象數據結構類型,任何數據在Spark中都被表示爲RDD。從編程的角度來看,RDD可以簡單看成是一個數組。和普通數組的區別是,RDD中的數據是分區存儲的,這樣不同分區的數據就可以分佈在不同的機器上,同時可
原创 HADOOP/HBASE/SPARK修改PID文件位置
當不修改HADOOP/HBASE/SPARK的PID文件位置時,系統默認會把PID文件生成到/tmp目錄下,但是/tmp目錄在一段時間後會被刪除,所以以後當我們停止HADOOP/HBASE/SPARK時,會發現無法停止相應的進程,因爲PID
原创 SPARK啓動歷史任務查看
SPARK歷史任務查看需要一下配置:修改spark-defaults.conf配置文件 spark.eventLog.enabled true spark.eventLog.dir
原创 hive計算inner join報內存溢出
hive計算inner join報內存溢出:Caused by: java.lang.OutOfMemoryError: Java heap space處理方式:set mapred.child.java.opts=-Xmx1024m;再進
原创 Spark RDD API詳解(一) Map和Reduce
RDD是什麼?RDD是Spark中的抽象數據結構類型,任何數據在Spark中都被表示爲RDD。從編程的角度來看,RDD可以簡單看成是一個數組。和普通數組的區別是,RDD中的數據是分區存儲的,這樣不同分區的數據就可以分佈在不同的機器上,同時可
原创 SPARK動態添加節點
spark集羣使用hadoop用戶運行,集羣機器如下:1DEV-HADOOP-01192.168.9.110Master2DEV-HADOOP-02192.168.9.111Worker3DEV-HADOOP-03192.168.9.112
原创 SPARK大數據計算BUG處理:
大數據計算BUG處理:程序修改前資源情況:Driver : 1臺Worker : 2臺程序提交申請內存資源 : 1G內存內存分配情況 : 1. 20%用於程序運行2. 20%用於Shuffle3. 60%用於RDD緩存單條TweetBean