原创 一次查詢

應該是有一小部分數據 需要特殊處理 嘗試90天,反覆重試3個task: 其實處理很快,就是shuffle read時間很久 第一次150天數據量嘗試後期效果: 怎麼知道爲什麼會超出內存太多? combin

原创 git查過的問題

常用命令寫的很好的頁面:http://www.ruanyifeng.com/blog/2015/12/git-cheat-sheet.html git  一 git 配置個人信息 1、默認配置個人信息有三層 最高層系統層默認配置保存在/e

原创 一些查過好用的hdfs命令

gzip 文件 查看 HDFS 上 gzip 文件的命令 1 2 3 4 5 hadoop fs -cat /shining/temp.txt.gz | gzip -d 或 hadoop fs -cat /shinin

原创 優化,測試自己的代碼

在開發中,只有把遇到的問題解決,以後纔不會再發生;只有之前的工作清晰,且有良好完整的紀錄,後面的工作纔可能清晰和容易分析;只有前面的工作/代碼魯棒,高效,穩定,後續的代碼纔可能高效,而且自己不用陷在維護中。

原创 java處理異常較好的實踐

轉載鏈接:http://www.blogjava.net/freeman1984/archive/2013/07/26/148850.html 六種異常處理的陋習 你覺得自己是一個Java專家嗎?是否肯定自己已經全面掌握了Java的

原创 java學習 pattern/matcher

1 pattern類規定一個正則表達式,規定後可以由其生成一個matcher對象,將要檢測字符串和pattern都送入matcher類,進行matches就可以得到字符串中是否有正則表達式的布爾結果了: Pattern p =

原创 pySpark記錄

1、combineByKey使用 <pyspark> x = sc.parallelize([('B',1),('B',2),('A',3),('A',4),('A',5)]) createCombiner = (lambda e

原创 spark查詢異常記錄

1、報錯說沒把集羣配置上傳到hdfs,但其實問題出在自己寫的pyspark代碼有問題。 其實錯誤的地方是路徑多寫了一個單引號: 2、之前運行良好的pyspark程序突然就無法運行 報錯信息1 OOM,java堆溢出,那

原创 python語法練習

1、str.split(‘分隔符’) 返回根據分隔符分的列表 str.split(‘分隔符’,n) 返回分割前n個分隔符的分割結果列表 注意str不能爲None,否則會報異常 >>> a = "Line

原创 pom學習

1、pom問題記錄 [ERROR] /Users/bingdada/recproj/recommend-offline/spark-etl/src/main/scala/com/meituan/recommend/etl/package.

原创 hive查過的問題

1、日期函數 轉自大神 http://www.oratea.net/?p=944 無論做什麼數據,都離不開日期函數的使用。 這裏轉載一下Hive的日期函數的使用,寫的相當完整。   日期函數UNIX時間戳轉日期函數: from

原创 提高效率的方法

同樣有一些好建議的帖子:http://ruby-china.org/topics/28553 俗話說,天下武功,唯快不破。也就是說要練成天下高手的話,出招速度一定要快,這樣才能在江湖上立足,不至於掉了腦袋。而程序員要在IT界混出個名堂

原创 linux查過的問題

1、sort查\t分割的結果: sort -k 2n -t $'\t' cntData > cntDataSort (列是從1開始編號的,不是從0開始;必須帶$才能用\t,否則報以下錯誤:sort: 多字符標籤"\\t")。 2 一個參數

原创 java中array,list,map的排序

map按值對entry排序: List<Map.Entry<Integer, Double>> entryList = AlgorithmUtil.sortMapByValue(dealScore, true);//降序排列 m

原创 java靜態代碼塊知識

一個初始化順序講的很好的例子 http://www.cnblogs.com/panjun-Donet/archive/2010/08/10/1796209.html