台部落晓阳的数据小站

模板說明：你在網上看到的 99% 的二分查找問題會歸結於這 3 個模板中的一個。有些問題可以使用多個模板來實現，但是當你做更多的練習時，你會注意到一些模板比其他模板更適合某些問題。注意：模板和它們的差異已被彩色標註如下。這 3 個

2020-05-17 00:22:41

不可否認，大數據學習最重要的是學習的能力，這種能力要遠比你掌握的知識多少要重要，所以，練習大於理論，加油吧。首先，大數據不得不講神器的Google三大論文，你可以罵它看不懂，你可以罵自己英語不好，但是你確實要看的，不推薦

2020-05-17 00:22:41

治理理論概述我們目前所積累的數據治理經驗，大多數是在互聯網場景下的，且與自己工作高度相關。如果想更進一步的搞好數據治理，就應該看一下業界相關的一些權威機構的理論。以國際數據管理協會，也就是DAMA，協會提供了一種DMBOK方式，

2020-05-08 07:49:00

數據的滾雪球效應現代數倉體系中，數據數量的高速增長已經不是什麼新鮮事了，在大數據的作用被業界所認知到後，幾乎所有對於業務有價值的行爲，都將以數據的形式被收集。雖然這些數據很有價值，但在體現數據的價值之前，數據存儲的成本已經扛不住

2020-05-01 18:16:47

背景概要做數據的同學都能夠有體會，當我們做業務時間長了以後，數據表的數量就會變得龐大無比，很多過去的邏輯，如果負責的同學離職了，那麼能再看懂它的人就很少了。久而久之，就造成了表一大堆，沒人敢動的問題。等到計算或者存儲遇到瓶頸了，

2020-04-25 14:25:50

中臺的起源與疑惑 “中臺”某種意義上是一個正宗的中國概念，早在2015年，馬老師訪問過北歐的Supercell遊戲公司之後，便提出了這個概念。隨之而來的，是阿里帶動的“大中臺、小前臺”運動。這個概念聽起來還是非常不錯的，因爲整合技

2020-04-25 14:25:50

目錄（一）概述（二）Spark核心概念（三）Spark程序基本框架（四）Spark編程接口（五）Spark運行模式（六）Spark應用示例（七）Spark作業生命週期（八）Spark Shuffle （一）概述 Spa

2020-04-21 08:57:34

概述產生背景在開源大數據領域，交互式引擎並不是從一開始就出現的。起初，大數據領域數據處理引擎以MapReduce爲主，但MapReduce引擎採用了批處理的理念，數據處理能力低效： IO密集型：Map階段中間結果寫磁盤，

2020-04-21 08:57:34

目錄 (一)MapReduce設計目標 (二)MapReduce編程思想（三）MapReduce模塊 (四)MapReduce數據傾斜場景 (一)MapReduce設計目標 MapReduce誕生於搜索領域，主要解決搜索

2020-04-05 18:45:50

對於業務開發的同學而言，需求多、排期難，是一件非常普遍的事情，而採用怎樣的項目管理技巧，能夠幫助我們節約開發時間、提前排除開發中的隱患問題，幫助是很多的。這裏給大家分享幾個小技巧，希望能夠幫到你。第一個小技巧是重新審視

2020-04-01 04:31:14

（一）基本挑戰概述互聯網公司的典型業務場景下，一個需求會涉及到運營、產品、前端、後端、數據、測試等不同部門的配合，一個需求正常情況下都需要拆解成多個模塊，而其中的一些模塊可能還涉及到其他模塊的功能，導致需求完成的子目標比預期的多很多，需

2020-03-21 09:45:06

程序員和金融是當前社會裏唯二的高薪水崗位，努力一把，每月幾萬收入都不是什麼問題。很多人拿程序員和醫生、律師作比較，其實是不同的，醫生、律師的經驗可以複用，年紀越大，經驗越多，收入也就越高。但程序員和金融民工，很多時候，學習

2020-03-12 14:15:08

2020-03-11 06:36:24

目錄（一）概述（二）YARN基本架構（三）YARN高可用性（四）YARN工作流程（五）YARN資源調度器（六）YARN的具體調度場景（七）YARN資源隔離（八）YARN生態系統（九）資源管理系統架構演化（一）概述

2020-03-11 06:36:24

LeeCode經典題：常數時間插入、刪除和獲取隨機元素原題：設計一個支持在平均時間複雜度 O(1) 下，執行以下操作的數據結構。 insert(val)：當元素 val 不存在時，向集合中插入該項。 remove(val)：元素 v

2020-03-03 18:18:59