原创 Intellij IDEA 一些不爲人知的技巧
今天又聽了 Jetbrains 首席佈道師 Hadi 的分享的 Intellij IDEA 使用技巧,說又是是因爲之前在 QCon 聽過一遍,但是這次 Hadi 帶來的分享又超出了預期(很多佈道師到處講的東西都差不多),從他的這次分享中學到
原创 Spark Streaming kafka實現數據零丟失的幾種方式
在使用Spark streaming消費kafka數據時,程序異常中斷的情況下發現會有數據丟失的風險,本文簡單介紹如何解決這些問題。 在問題開始之前先解釋下流處理中的幾種可靠性語義: 1、At most once - 每條數據最多
原创 2121
21212
原创 324
3232
原创 1
1
原创 1
11
原创 11
11
原创 區塊鏈
原创 我的友情鏈接
51CTO博客開發
原创 尋找多數元素問題
問題:假如現在有一個序列,已知其中一個數的此書超過50%,請找出這個數。比如3、3、1、1、3、2、3中,出現次數超過50%的數是3 。方法1:兩兩比較,分別記錄數字的出現次數,2個for循環就可以解決。時間複雜度O(N^2)。方法2:排序
原创 基於Spark的用戶行爲路徑分析的產品化實踐
前言:本文爲網上轉載內容,由於跟公司做的項目相似,copy一份,細細品味。--------------------------------------------華麗分割線----------------------------------
原创 324
3232
原创 Spark項目故障總結
1.OOM問題,reduce端的緩衝大小,太大的話,吃撐了,一下過來很多數據,容易OOM,默認48,可以改小哦。spark.reducer.maxSizeInFlight,48---》242.JVM-GC導致的shuffle文件拉取失敗,s
原创 spark 應用程序性能優化經驗
一 常規性能調優1 . 分配更多資源--num-executors 3 \ 配置executor的數量--driver-memory 100m \ 配置driver的內存(影響不大)--executor-memory 100m \ 配