原创 Git團隊協作項目操作說明

文章目錄一、如何參與該項目項目要求二、clone項目到本地三、設置fork的項目與原項目同步四、fork的項目如何pull request到原項目五、原項目審覈並處理pull request附錄 本項目面向秋招準備刷題分享羣的各個小夥

原创 MySQL數據庫學習總結性思維導圖

最近找實習找工作,好好地回顧了一下數據庫MySQL相關知識,整理出了一張腦圖。大體設計類容如下 存儲引擎InnoDB和MyISAM介紹、區別等 索引分類、底層、使用、優化等 數據庫鎖(行鎖、頁鎖、表鎖) 事務ACID如何實現 等等

原创 MySQL事務日誌undo log和redo log分析

文章目錄前言先聊聊undo log再聊聊redo log如何利用undo log和redo log異常恢復?參考文章 前言 這兩事務日誌用來保證事務原子性、持久性的,undo log(回滾日誌)提供回滾操作,保證原子性,redo lo

原创 MySQL索引背後的數據結構及算法原理

文章目錄MySQL索引背後的數據結構及算法原理摘要數據結構及算法基礎索引的本質B-Tree和B+TreeB-TreeB+Tree帶有順序訪問指針的B+Tree爲什麼使用B-Tree(B+Tree)主存存取原理磁盤存取原理局部性原理與磁

原创 MapReduce、Hive、Spark中數據傾斜問題解決歸納總結

文章目錄數據傾斜是什麼MapReduce減少Reduce數據傾斜預判MapReduce中哪些key會出現數據傾斜HivegroupBy上數據傾斜解決join上解決數據傾斜Spark參考 數據傾斜是什麼 總的來說,你集羣運行時發現MR或

原创 Java7/8中的 HashMap 和 ConcurrentHashMap 全解析

文章目錄Java7 HashMapput 過程分析數組初始化計算具體數組位置添加節點到鏈表中數組擴容get 過程分析Java7 ConcurrentHashMap初始化put 過程分析初始化槽: ensureSegment獲取寫入鎖:

原创 【Deepin】最新XMind for Linux 破解版安裝

文章目錄下載XMind8下載破解文件解壓修改host避免xmind聯網註冊相關信息安裝XMind並添加序列號Windows下破解安裝 下載XMind8 https://www.xmind.cn/download/xmind8/ 下載破

原创 一張圖快速回顧總結Hive方方面面

放在百度腦圖上了,http://naotu.baidu.com/file/cdcd76d878f210e43a91b24d4254abed?token=c3839e44e93c9a5e

原创 Spark使用JDBC將DataFrame數據寫入mysql

spark foreachPartition 把df 數據插入到mysql 轉載自:http://www.waitingfy.com/archives/4370,確實寫的不錯 import java.sql.{Connection

原创 eclipse如何導入Spark源碼方便閱讀

最近想看下spark sql的源碼,就查了些相關文章。很多都是IDEA怎麼導入的,還有就是談到了自己編譯spark源碼再倒入,但我還沒有強到修改源碼的地步,所以跳過編譯直接導入閱讀源碼,過程如下 下載spark源碼 從 https:/

原创 LearningSpark(4):Spark持久化操作

持久化 Spark的一個重要特性,對RDD持久化操作時每個節點將RDD中的分區持久化到內存(或磁盤)上,之後的對該RDD反覆操作過程中不需要重新計算該RDD,而是直接從內存中調用已緩存的分區即可。 當然,持久化適用於將要多次計算反覆調

原创 LearningSpark(3):常用RDD操作

鍵值對RDD上的操作 隱式轉換 shuffle操作中常用針對某個key對一組數據進行操作,比如說groupByKey、reduceByKey這類PairRDDFunctions中需要啓用Spark的隱式轉換,scala就會自動地包裝成

原创 LearningSpark(2):spark-submit腳本和可選參數

提交應用的腳本和可選參數 可以選擇local模式下運行來測試程序,但要是在集羣上運行還需要通過spark-submit腳本來完成。官方文檔上的示例是這樣寫的(其中表明哪些是必要參數): ./bin/spark-submit \ -

原创 LearningSpark(1):數據來源

數據源自並行集合 調用 SparkContext 的 parallelize 方法,在一個已經存在的 Scala 集合上創建一個 Seq 對象 外部數據源 Spark支持任何 Hadoop InputFormat 格式的輸入,如本地文

原创 LearningSpark(7):SparkSQL創建及DataFrame學習

DataFrame說白了就是RDD+Schema(元數據信息),spark1.3之前還叫SchemaRDD,以列的形式組織的分佈式的數據集合 Spark-SQL 可以以 RDD 對象、Parquet 文件、JSON 文件、Hive 表