原创 Spark讀取HDFS文件分區數量確定

結論 split數量決定分區數量 split數量取決於textFile ("", partitionNum)參數 goalsize = totalsize / partitionNum splitsize = Max(minSi

原创 Spark SQL Adaptive Execution

Spark SQL Adaptive github slides

原创 部署jar包到本地maven倉庫

mvn install:install-file -DgroupId=opencv -DartifactId=opencv -Dversion=3.4.7 -Dpackaging=jar -Dfile=opencv-347.jar

原创 gRPC + protobuf + idea + maven + Java Client/Server實踐

RPC(Remote Procedure Call)是指遠程過程調用,也就是說兩臺服務器A,B,一個應用部署在A服務器上,想要調用B服務器上應用提供的函數/方法,由於不在一個內存空間,不能直接調用,需要通過網絡來表達調用的語義和傳

原创 git 強制覆蓋本地倉庫

理想情況下: 在修改倉庫內容之前都會執行命令git pull 獲取最新代碼避免產生衝突 現實: 直接改倉庫內容,push origin的時候發現,what竟然衝突了? 這可咋辦?網上搜了搜,什麼亂七八糟的命令都來了,這裏提出一個懶

原创 集羣間毫秒級同步

工具:ntpq 使用方法:請記住,要使用啓動服務的方法才能實現毫秒級同步。 鳥哥私房菜NTP ntp的教程博客

原创 淺談線程安全問題

printf 線程安全,cout線程不安全 c:static __thread 局部存儲變量,線程內共享的變量

原创 測試socket

import java.io.*; import java.net.Socket; public class testSocket { public static void main(String[] args) {

原创 Java 代碼中調用C++ 代碼與python代碼

Java 代碼中調用C++ 代碼與python代碼 空閒時寫

原创 力扣:兩數求和

給出兩個 非空 的鏈表用來表示兩個非負的整數。其中,它們各自的位數是按照 逆序 的方式存儲的,並且它們的每個節點只能存儲 一位 數字。 如果,我們將這兩個數相加起來,則會返回一個新的鏈表來表示它們的和。 您可以假設除了數字 0 之

原创 解析flink event-time水位線watermark使用方法

解析flink event-time水位線watermark使用方法 點贊 收藏 分享 文章舉報 東戶舟先生 發佈了14 篇原創文章 · 獲贊 6 · 訪問量 1379

原创 Protobuf3 讀取JSON 給ProtoObject 賦值

通過方法調用給ProtoObject賦值 Protobuf3 讀取JSON 給ProtoObject 賦值 點贊 收藏 分享 文章舉報 東戶舟先生 發佈了14 篇原

原创 kafka 配置與常用命令

kafka環境搭建 Kafka創建和刪除topic 創建topic指定分區數量 kafka_2.11-0.10.2.2/bin/kafka-topics.sh --create --zookeeper hostip:2181

原创 spark數據傾斜問題

spark 數據傾斜問題分類及解決方法 點贊 收藏 分享 文章舉報 東戶舟先生 發佈了14 篇原創文章 · 獲贊 6 · 訪問量 1379 私信

原创 大數據開發者IDEA MAVEN項目文件目錄設計

根據本人目前的開發經驗,認爲下述文件目錄可以較爲方便的管理項目 project_name ├─.idea ├─src │ ├─main │ │ ├─java │ │ │ ├─common │ │ │ ├─core