原创 工程師的思維轉變

這幾天瀏覽論壇看到一個帖子。如醍醐灌頂,解開了很多之前想不明白的問題。 知識體系到思維體系 我之前寫過一個《早點建立自己的知識體系》,現在看來原來我只在第一層,更上一層的應該是思維體系的建立。 首先明白一個問題,你工作到底是在追求什麼?前幾

原创 中國優秀的架構師是不是出現了嚴重斷層?

背景 我先說下這篇文章的背景。 放假前的晚上,我們技術小組在和產品頭腦風暴的時候,提出了一個終極問題: 中國優秀的軟件架構師是不是出現了嚴重斷層? 背景是這樣的:我們在做一款面向B端商家的供應鏈產品,這個產品行業內有非常強力和成熟的軟件公司

原创 所以說讀者們纔是最優秀的 | 某讀者喜提offer後的分享

這是小編的一個讀者喜提offer後在羣裏做的分享,文中隱藏了讀者的個人隱私信息,小編這裏把他的面經分享出來供大家學習。 羣友們看到後都紛紛表示【我酸了,現在我就是個檸檬精系列】。 關於如何學習/準備面試的總結 首先說一說本人的情況 本人

原创 2021年,開發者的落日

小說《三體》第一部結尾,葉文潔透過紅岸基地天空看到了最後一次日落。她親手發出的訊息讓人類太陽永遠沉淪。多年以後,一顆小小的水滴瞬間摧毀龐大的人類星際艦隊,人類的驕傲與自尊灰飛煙滅。葉文潔在登上紅案基地前,說出了那句振聾發聵的話: 這是一切

原创 【大數據嗶嗶集20210123】別問,問就是Kafka最可靠

高可靠性分析 Kafka的高可靠性的保障來源於其健壯的副本(replication)策略。通過調節其副本相關參數,可以使得Kafka在性能和可靠性之間運轉的遊刃有餘。Kafka從0.8.x版本開始提供Partition級別的複製,repli

原创 阿里大數據一次簡單而失敗的面試題回憶

一面 簡單介紹一下自己以及自己做過的項目; Java HashMap 是不是線程安全的?爲什麼? 請用 Java 寫個單例模式 知道幾種 GC 算法? 如何實現一個高效的單項列表逆向輸出? 數據湖和數據倉庫有什麼區別? 詳細介紹下 Fli

原创 【大數據嗶嗶集20210124】有人問我Kafka Leader選舉?我真沒慌

一條消息只有被ISR中所有Follower都從Leader複製過去纔會被認爲已提交。這樣就避免了部分數據被寫進了Leader,還沒來得及被任何Follower複製就宕機了,而造成數據丟失。而對於Producer而言,它可以選擇是否等待消息c

原创 【大數據嗶嗶集20210122】面試官問我HDFS丟不丟數據?我啪就把這個文章甩到他臉上

數據一致性 HDFS作爲分佈式文件系統在分佈式環境下如何保證數據一致性。HDFS中,存儲的文件將會被分成若干的大小一致的block分佈式地存儲在不同的機器上,需要NameNode節點來對這些數據進行管理,存儲這些block的結點稱爲Dat

原创 Sorry!Hbase的LSM Tree就是可以爲所欲爲!

我們先拋出一個問題: LSM樹是HBase裏使用的非常有創意的一種數據結構。在有代表性的關係型數據庫如MySQL、SQL Server、Oracle中,數據存儲與索引的基本結構就是我們耳熟能詳的B樹和B+樹。而在一些主流的NoSQL數據庫

原创 【大數據面試之對線面試官】MapReduce/HDFS/YARN面試題70連擊

熱身30題 1.描述一下HDFS的寫流程 2.描述一下HDFS的讀流程 3.詳細講解一下HDFS的體系結構 4.如果一個datanode出現宕機,恢復流程是什麼樣的? 5.通常你是如何解決Haddop的NameNode宕機的,流程是什麼?

原创 2021年最新版大數據面試題全面總結-持續更新

更新內容和時間表 大數據基礎篇 Part0:Java基礎篇 Part1:Java高級篇 Part2:Java之JVM篇 Part3:NIO和Netty篇 Part4:分佈式理論篇 框架篇 Part5:Hadoop之MapReduce

原创 【大數據嗶嗶集20210108】Spark Shuffle 和 Hadoop Shuffle有什麼異同?

Shuffle的本意是洗牌、混洗的意思,把一組有規則的數據儘量打亂成無規則的數據。而在MapReduce中,Shuffle更像是洗牌的逆過程,指的是將map端的無規則輸出按指定的規則“打亂”成具有一定規則的數據,以便reduce端接收處理。

原创 學不會去當產品吧?Flink實戰任務調優

背景 在大數據領域我們都知道,開發是最簡單,任務的合理調優、問題排查纔是最重要的。 我們在之前的文章《Flink面試通關手冊》中也講解過,作者結合線上出現的一些問題,總結了一些任務調優需要注意的點。 一些簡單的原則 我們在之前的文章《Fl

原创 Presto在大數據領域的實踐和探索

小編在去年的時候,寫過一篇轟動全網的文章《你需要的不是實時數倉 | 你需要的是一款強大的OLAP數據庫》,這篇文章當時被各大門戶網站和自媒體瘋狂轉載,保守閱讀量也在50萬+UV,在這篇文章中提到過Preto,Presto作爲OLAP計算領域

原创 Hbase性能優化百科全書

本文集合了小編在日常學習和生產實踐中遇到的使用Hbase中的各種問題和優化方法,分別從表設計、rowkey設計、內存、讀寫、配置等各個領域對Hbase常用的調優方式進行了總結,希望能對讀者有幫助。本文參考結合自己實際優化經驗,參考了大量官