台部落走一步

應該是有一小部分數據需要特殊處理嘗試90天，反覆重試3個task: 其實處理很快，就是shuffle read時間很久第一次150天數據量嘗試後期效果：怎麼知道爲什麼會超出內存太多？ combin

2020-07-08 05:39:30

常用命令寫的很好的頁面：http://www.ruanyifeng.com/blog/2015/12/git-cheat-sheet.html git 一 git 配置個人信息 1、默認配置個人信息有三層最高層系統層默認配置保存在/e

2020-07-08 05:39:30

gzip 文件查看 HDFS 上 gzip 文件的命令 1 2 3 4 5 hadoop fs -cat /shining/temp.txt.gz | gzip -d 或 hadoop fs -cat /shinin

2020-07-08 05:39:30

在開發中，只有把遇到的問題解決，以後纔不會再發生；只有之前的工作清晰，且有良好完整的紀錄，後面的工作纔可能清晰和容易分析；只有前面的工作/代碼魯棒，高效，穩定，後續的代碼纔可能高效，而且自己不用陷在維護中。

2020-07-08 05:39:30

轉載鏈接：http://www.blogjava.net/freeman1984/archive/2013/07/26/148850.html 六種異常處理的陋習你覺得自己是一個Java專家嗎？是否肯定自己已經全面掌握了Java的

2020-07-08 05:39:30

1 pattern類規定一個正則表達式，規定後可以由其生成一個matcher對象，將要檢測字符串和pattern都送入matcher類，進行matches就可以得到字符串中是否有正則表達式的布爾結果了： Pattern p =

2020-07-08 05:39:30

1、combineByKey使用 <pyspark> x = sc.parallelize([('B',1),('B',2),('A',3),('A',4),('A',5)]) createCombiner = (lambda e

2020-02-23 04:09:35

1、報錯說沒把集羣配置上傳到hdfs,但其實問題出在自己寫的pyspark代碼有問題。其實錯誤的地方是路徑多寫了一個單引號： 2、之前運行良好的pyspark程序突然就無法運行報錯信息1 OOM,java堆溢出，那

2020-02-23 04:09:35

1、str.split(‘分隔符’) 返回根據分隔符分的列表 str.split(‘分隔符’，n) 返回分割前n個分隔符的分割結果列表注意str不能爲None,否則會報異常 >>> a = "Line

2020-02-23 04:09:35

1、pom問題記錄 [ERROR] /Users/bingdada/recproj/recommend-offline/spark-etl/src/main/scala/com/meituan/recommend/etl/package.

2020-02-23 04:09:35

1、日期函數轉自大神 http://www.oratea.net/?p=944 無論做什麼數據，都離不開日期函數的使用。這裏轉載一下Hive的日期函數的使用，寫的相當完整。日期函數UNIX時間戳轉日期函數: from

2020-02-23 04:09:35

同樣有一些好建議的帖子：http://ruby-china.org/topics/28553 俗話說，天下武功，唯快不破。也就是說要練成天下高手的話，出招速度一定要快，這樣才能在江湖上立足，不至於掉了腦袋。而程序員要在IT界混出個名堂

2020-02-23 04:09:35

1、sort查\t分割的結果： sort -k 2n -t $'\t' cntData > cntDataSort （列是從1開始編號的，不是從0開始；必須帶$才能用\t，否則報以下錯誤：sort: 多字符標籤"\\t"）。 2 一個參數

2020-02-23 04:09:35

map按值對entry排序： List<Map.Entry<Integer, Double>> entryList = AlgorithmUtil.sortMapByValue(dealScore, true);//降序排列 m

2020-02-23 04:09:35

一個初始化順序講的很好的例子 http://www.cnblogs.com/panjun-Donet/archive/2010/08/10/1796209.html

2020-02-23 04:09:35